IA : 6 plateformes où trouver des data sets gratuits

IA : 6 plateformes où trouver des data sets gratuits AWS, Data.gouv.fr, Kaggle, UCI Machine Learning Repository... Tour d'horizon des principaux sites proposant des jeux de données en open data taillés pour le machine learning.

Les données d'apprentissage sont le carburant de l'intelligence artificielle. De leur qualité dépendra la performance des résultats des modèles de machine learning. Depuis quelques années, les sites proposant des sets d'informations en open data utilisables pour l'apprentissage machine ont fleuri sur le web.

Kaggle : de la compétition en IA aux jeux de données

Fondée en 2020 puis acquise en 2017 par Google, Kaggle est une plateforme web popularisée par les compétitions qu'elle héberge autour de défis en data science. Elle met à disposition des centaines de jeux de données open source déployés à l'occasion de ces compétitions. Recouvrant textes, sons et images, ils sont principalement disponibles en langue anglaise. La plateforme offre néanmoins une trentaine de jeux de données en français. Parmi eux, on relève divers référentiels : les codes postaux INSEE, un dictionnaire français ou encore un dictionnaire des noms propres. Certains de ces data sets sont verticaux. C'est le cas notamment d'un jeu de données sur la consommation de gaz et d'électricité en France entre 2011 et 2021 ou encore d'une documentation sur les réglementations environnementales internationales, également en langue française.

Data.gouv.fr : des data sets variés

Data.gouv.fr regroupe une vingtaine de jeux de données open source conçus pour être directement exploitables par des algorithmes de machine learning. Catégorisés par typologie de modèle, ils recouvrent des domaines variés. Sur le terrain des régressions linéaires, on retrouve les demandes de valeurs foncières, un inventaire des gaz à effet de serre territorialisé, ou encore une cartographie des niveaux d'insertion professionnelle des diplômés de Master. Côté modèles de classification, on relève les données annuelles des accidents corporels de la circulation routière, les résultats des contrôles officiels sanitaires, ou encore des data sur l'orientation des toits dans l'Hexagone. Sur le front des séries temporelles se concentrent des informations relatives au Covid 19, notamment des données hospitalières et des indicateurs de suivi de l'épidémie. Enfin en matière d'apprentissage non-supervisé, le site du gouvernement propose un référentiel des vœux de poursuite d'études et de réorientation relatifs à Parcousup 2020.

L'UCI Machine Learning Repository : le plus ancien

Fondé en 1987 par David Aha, doctorant de l'Université d'Irvine en Californie, l'UCI Machine Learning Repository est le plus ancien site de cette sélection. On y retrouve plusieurs centaines de jeux de données open source en langue anglaise. Ils recouvrent des domaines aussi variés que l'informatique, l'ingénierie, les jeux, le droit, les sciences de la vie, les sciences sociales ou encore les sciences physiques. Comme Data.gouv.fr, le site répertorie les sets de données par grandes familles d'algorithmes : classification, régression, clustering… De même, il est possible de filtrer les données par types : image, informations multivariées, séquentielles, tabulaires, textuelles, séries temporelles, etc.

Google Dataset Search : 25 millions de data sets

Google Dataset Search est l'une des bases de data sets open source les plus riches au monde pour le machine learning et le big data. Le service répertorie au total 25 millions de jeux de données notamment utilisables par des modèles de machine learning. Il se présente sous la forme d'un moteur de recherche où taper sa requête en langage naturel. Google Dataset Search référence l'ensemble des data sets des sites de cette sélection hormis ceux d'AWS, de Data.gouv.fr jusqu'à Kaggle. Il indexe aussi les jeux de données mis à disposition par des universités ou des laboratoires actifs dans la recherche en méga data ou data science. Il permet de filtrer ceux mis à disposition gratuitement.

AWS : des data sets taillés pour S3

Sur sa place de marché d'applications, Amazon Web Services (AWS) propose une section répertoriant près de 500 jeux de données. Parmi eux, 220 sont disponibles en open data. Ils recouvrent nombre de domaines : transport public, imagerie satellite, données cliniques pour la recherche pharmaceutique, etc. Très majoritairement en langue anglaise, tous sont compatibles avec le service de stockage Amazon S3 d'AWS.

Data World : cap sur l'IA générative

Data World référence près de 130 000 jeux de données en open data. Là encore les domaines couverts sont très divers : éducation, énergie, finance, informations administratives, santé, transport... La popularité des data sets est mesurable par le biais d'un système de bookmarks. Ils peuvent également être commentés, ce qui ajoute un niveau d'information supplémentaire à l'édifice. Quelques jeux de données sont disponibles en langue française. A l'instar de la logique d'AWS, ce site est conçu par son éditeur (également baptisé Data World) comme un produit d'appel pour commercialiser une data platform. Une offre qui est composée, notamment, d'outils de data catalog, de data gouvernance, de data mesh et de dataOps.