Comment alimenter l'intelligence artificielle en données
Clouds, entrepôts, services de streaming, médias sociaux et autres terminaux mobiles… Les données professionnelles arrivent de partout et sous tous les formats. Comment en tirer profit ?
Alors que les entreprises inaugurent une nouvelle ère de croissance des données chiffrées en exaoctets, il va sans dire que leur omniprésence dans le monde professionnel est incontestable. La haute disponibilité des moteurs d’intelligence artificielle et de machine learning donne aux organisations l’occasion de réagir plus rapidement et de prendre de meilleures décisions sur la base des données. Mais les spécialistes des technologies de l’information et les data scientists sont loin d’être les seuls à en tirer profit.
Associées à l’IA, les données représentent pour les organisations d’une variété de secteurs – santé, services financiers, communication, médias… – l’opportunité de proposer des produits innovants, des expériences client attractives et d’optimiser leurs opérations quotidiennes. Elles sont d’ailleurs amenées à occuper une place centrale dans la transformation numérique de chaque société.
En effet, d’ici cinq ans, chaque application et service s’appuiera sur une intelligence artificielle, et ce conformément aux attentes, voire aux exigences des consommateurs, qui réclament des services personnalisés et des expériences adaptées à leurs désirs. Pour que ce changement technologique s’opère, il faut cependant des données. L’IA dépend de la disponibilité de vastes jeux de données d’entraînement hétérogènes.
Réduire leurs délais de rentabilisation représente un vrai challenge et a été considéré, jusqu’ici, comme un frein à la réussite de cette technologie. La qualité des algorithmes d’intelligence artificielle ou de machine learning est directement liée à celle des données utilisées. Dans l’environnement complexe d’aujourd’hui, ces données peuvent créer un véritable goulet d’étranglement.
Invasion des données en entrepriseClouds, entrepôts, services de streaming, médias sociaux et autres terminaux mobiles… les données professionnelles arrivent de partout et sous tous les formats. Elles se présentent de façon structurée dans des bases de données en colonnes traditionnelles, ou de façon non structurée dans les e-mails, les posts publiés sur les médias sociaux, les vidéos et -- de plus en plus -- la voix.
Au vu de de la multiplicité de leurs sources, le défi à relever est immense : systèmes transactionnels, données opérationnelles, entrepôts de données, datamarts, big data, applications packagées, Excel et autres sources de données externes telles que le cloud, les services Web, l’IoT et les terminaux mobiles s’associent pour former un paysage complexe.
En outre, une fois intégrées à une organisation, ces données sont logiquement distribuées. Trouver le temps de collecter et d’analyser tous ces éléments potentiellement éparpillés sur plusieurs plateformes cloud devient alors un véritable défi.
Le goulet d’étranglement des données se situe au niveau du processus visant à assurer la collecte, la migration et l’ingestion des données adéquates en quantité suffisantes par les modèles d’intelligence artificielle. Les entreprises doivent désormais se concentrer sur les données et éviter ce goulet d’étranglement pour conserver leur valeur.
Alimenter l’IA en données : une méthode en deux leviers d’action simultanée
Les organisations doivent prendre en compte deux leviers d’action pour alimenter une IA en données.
Dans un premier temps, elles doivent instaurer la phase de développement : parmi les nombreuses exigences de ce processus figurent la gestion de la qualité des données et l’utilisation de meilleures pratiques pour éviter les biais. Mise en œuvre dans le cadre de cette phase, l’IA permet de prendre en charge le flux de traitement de données et la création de modèles. En effet, la préparation de jeux de données nécessite des algorithmes agiles.
Dans un second temps vient la phase de production. Son but est d’obtenir des analyses précieuses, posant quelques difficultés en matière de gestion de flux de données et de mise à l’échelle, les modèles devant être perfectionnés et les résultats améliorés en permanence.
Les entreprises sont aujourd’hui à un stade où l’abondance de données est pour elles un avantage. Cependant, cela signifie qu’elles doivent réfléchir en profondeur à la meilleure façon de les trier pour repérer celles qui méritent d’alimenter leurs algorithmes intelligents et trouver comment procéder à leur intégration.
L’heure est venue de chercher à réunir les données dans un même environnement de développement afin de séparer le bon grain de l’ivraie et de déterminer quelle quantité utiliser pour créer des algorithmes intelligents. Ce processus requière la mise en œuvre de technologies d’intégration capables de gérer leur diversité, leur caractère distribué et de les rendre rapidement disponibles aux data scientists.
Une fois en production, les processus DataOps agiles doivent être mis en place pour supprimer les goulets d’étranglement et accélérer la découverte de solutions fondées sur de nouveaux algorithmes. Une bonne collaboration entre data scientists et équipes d’exploitation s’avère alors essentielle pour passer plus rapidement du laboratoire à la production.
Les entreprises dépensent encore 80 % de leur temps à collecter et gérer des données, et seulement 20 % de leurs efforts à les analyser. Alimenter des modèles de machine learning en données de qualité pour obtenir des résultats fiables est incontestablement l’aspect le plus difficile du déploiement de ces technologies innovantes.
Pour tirer pleinement profit de l’IA et du machine learning, les organisations doivent poursuivre le développement de nouvelles solutions, se concentrer sur les problématiques liées à l’approvisionnement en données et trouver des solutions pour résorber les goulets d’étranglement. Elles transformeront ainsi la donnée en vecteur d’innovation.