Instaurer l'IA de confiance dans l'analytique
Le challenge majeur de l'IA générative dans l'analytique consiste désormais à garantir une interprétation exacte des données. Pour y parvenir, comment mettre fin aux obstacles qui la compromettent.
L'IA générative (GenAI) dans son avancée actuelle, ne peut interroger et comprendre que les données avec lesquelles elle interagit. L'absence de source unique de vérité conduit à des définitions non standardisées et à des interprétations contradictoires. Ces divergences entraînent des désaccords sur les résultats, ce qui mine la confiance dans les données et les décisions qui en découlent. Lorsqu’elles n'ont pas de point de référence unifié, les données sont organisées en silos. Y ajouter de la GenAI ne fait qu’exacerber le problème d'incohérence des données. C’est pourquoi la solution réside dans une gestion robuste et un alignement des données indispensables à la préparation des données qui représente une part importante de l'élaboration de solutions de GenAI. Les experts du secteur estiment que plus de 80 % du travail consacré aux solutions de GenAI est investi dans des tâches d'intégration de données.
La GenAI et le problème de l'interprétation erronée des données
Les grands modèles de langage (LLM) actuels basés sur l'IA, tels que ceux d’OpenAI, sont conçus pour générer des textes semblables à ceux d'un humain. Ils comprennent le contexte et effectuent une grande variété de tâches de traitement du langage naturel. Cependant, ces modèles ne sont pas spécifiquement conçus pour des calculs de données fiables. Ils sont entrainés sur des jeux de données textuelles, si bien que leur capacité à effectuer des opérations numériques dépend de la qualité de la description des mathématiques dans les données. En d'autres termes, si les LLM d'OpenAI brillent dans les tâches linguistiques, leur capacité à effectuer des calculs numériques n'est pas leur point fort. Cette limitation peut conduire à des hallucinations LLM, entraînant des erreurs lors de calculs mathématiques précis. Ces limitations sont préjudiciables dans le domaine de l'analytique, où la précision des résultats est cruciale.
Un graphe sémantique résout les problématiques data de la GenAI
Il s’agit d’une couche technologique qui fournit une structure de données centralisée et réutilisable. Elle intervient comme une couche d'interprétation, traduisant les données sources en concepts et en relations métier pertinents et unifiés. Un graphe sémantique normalise la logique et les définitions de l'entreprise, en formant des relations de données qui fournissent une source unique de vérité à l'échelle de l'entreprise. Non seulement il contribue à renforcer l'intégrité des données, mais il constitue également un élément essentiel à l'intégration de la GenAI qu’il guide dans sa compréhension et son interprétation des données.
Le rôle du Prompt Engineering et du graphe sémantique
L'utilisation de la GenAI pour interpréter et agréger directement des données peut s'avérer peu fiable. Cependant, l'utilisation du Prompt Engineering avec un graphe sémantique résout ce problème. Le Prompt Engineering permet d'affiner les capacités linguistiques de la GenAI afin de traduire des requêtes spécifiques en commandes exploitables pour le graphe sémantique. Dans cette configuration, la GenAI excelle dans la traduction plutôt que dans le calcul. Elle interprète la demande de l'utilisateur par le biais du Prompt Engineering et la traduit en composants que le graphe sémantique comprend. Grâce à sa connaissance approfondie des relations entre les données et de la logique métier normalisée, un graphe sémantique effectue la tâche de calcul pour obtenir des résultats précis et fiables.
L'importance de la profondeur et de l'étendue du graphe sémantique
En matière d’analytique, le graphe sémantique est souvent exprimé dans le contexte de divers outils et applications de données en aval. La conception et la sophistication du graphe sémantique peuvent varier considérablement, reflétant ainsi les besoins et les capacités spécifiques des outils et des plates-formes utilisés. Du point de vue de l'abstraction des données, les outils de productivité de base tels que Microsoft Excel sont souvent dépourvus de couche/modèle sémantique, tandis que des outils analytiques ponctuels limitent généralement les définitions sémantiques à des data sets individuels. En revanche, les plateformes analytiques plus robustes utilisent un graphe sémantique fondamental qui réside sous le niveau des data sets et sert de base à la création de divers objets en amont, y compris les data sets.
Un graphe sémantique intégré plus en profondeur d’une plateforme offre davantage de possibilités pour une intégration plus complète de la GenAI. Ensemble, un graphe sémantique et un modèle de GenAI permettent au Prompt Engineering d'exploiter des éléments supplémentaires du graphe. Par exemple, le modèle de sécurité du graphe sémantique peut évaluer activement les autorisations d'accès ou les restrictions de données par rapport à un data set lorsqu'un utilisateur fait une requête utilisant la GenAI. Il peut ainsi résoudre les problèmes de confidentialité des données et de gouvernance. La télémétrie de l'utilisation et du système peut affiner les interactions de la GenAI en optimisant les requêtes ou en adaptant les recommandations aux requêtes. Plus un graphe sémantique est robuste, plus il offre de flexibilité pour une intégration plus poussée de la GenAI dans l'analytique.
Un graphe sémantique n'est pas seulement l'épine dorsale d'une plateforme analytique et de GenAI, c'est aussi son centre névralgique. Un modèle de données dynamique et centralisé imprègne l'ensemble de la plateforme, guidant et gouvernant ainsi les informations générées par la GenAI. En fin de compte, l'application clé d'un graphe sémantique réside dans le Prompt Engineering, qui optimise les modèles de langage pour des tâches spécifiques. En mettant en correspondance de manière transparente les entrées des utilisateurs avec les composants du graphe sémantique, une telle plateforme analytique et de GenAI garantit la gouvernance, la sécurité et la précision des modèles de GenAI et de leurs réponses.