Recherche + Graph : comment trouver de nouvelles réponses

De nombreux analystes se sont rendu compte que les analyses du « Big Data » sont souvent limitées par l'imagination de l'utilisateur. Une solution ? Combiner analyse de données et recherche.

Vous vous souvenez de cette publicité de Sun Microsystems : « le réseau c'est l'ordinateur » (The Network is the Computer) ? On retrouve de plus en plus cette impression dans le monde des données, mais au lieu de parler de câbles qui relient des machines, nous commençons à découvrir et exploiter les liens entre nos données. La plupart des données créées aujourd'hui contiennent des liens. Certains de ces liens sont explicites, comme lorsque vous suivez quelqu'un sur Twitter ou encore les clés étrangères dans les bases de données relationnelles. Dans d'autres cas, les liens sont moins évidents, moins structurés et sont beaucoup plus difficiles à établir. Cependant, de nouvelles technologies commencent à exploiter ce nouveau type de données, et ouvrent ainsi la voie à de nouveaux cas d'utilisation.

Les prouesses technologiques dans l'analyse de données et la recherche nous permettent aujourd'hui d'explorer de nouveaux liens dans les plus grands ensembles de données au monde. Toutefois, de nombreux analystes se sont rendu compte que les analyses du « Big Data » sont souvent limitées par l'imagination de l'utilisateur, c'est-à-dire sa capacité/créativité à imaginer les liens existants et à comprendre ceux qui sont les plus importants.

L'analyse de Graph offre un superpouvoir, celui de mettre en valeur des liens encore non détectés entre les données. Avec Graph, il est désormais possible de répondre à des questions complexes et d'aborder des cas d'usage tels que l'analyse comportementale, la fraude, la cybersécurité, la découverte de médicaments, la médecine personnalisée, et de construire des recommandations personnalisées basées sur des données en temps réel.

Comment ça marche ?

Avant d'explorer et de comprendre les connexions entre vos données, il faut d'abord pouvoir les identifier. Toutes les données disposent d'une structure sous-jacente et c'est celle-ci qui constitue la base de l'exploration des liens. Dans les entrepôts de stockage de documents modernes, il est facile de stocker et d'interroger des documents structurés. Ces documents peuvent contenir des informations sur un utilisateur, comme son historique d'achats complet ou ses préférences musicales, mais ils peuvent également représenter des observations ou événements du monde « réel » comme un tweet ou un achat individuel.

Avec une analyse de données classique, les données sont étudiées et résumées, puis nous tentons de comprendre les propriétés de ces données agrégées : quel produit avons-nous le plus vendu ? Qui sont nos meilleurs clients ? Quel groupe de musique est le plus populaire ? Au fur et à mesure des réponses, nous pouvons découper les données et aller plus loin, pour répondre à des questions telles que : quel est le meilleur produit de chaque catégorie, dans chaque région ? Quelle musique est la plus populaire chez les moins de 30 ans en France ? Il y a encore cinq ans, ces questions étaient trop complexes lorsqu'elles impliquaient de très grands volumes de données, mais aujourd'hui, si vous vous arrêtez à ces questions, vous passez à côté de grandes opportunités.

Plutôt que de résumer des documents entiers, imaginez que vous pouvez visualiser vos données de manière totalement inédite et voir les liens entre les documents ou les propriétés. Voilà l'essentiel de Graph : vous permettre de détecter des schémas dont vous n'aviez pas conscience. À présent, imaginez que vous pouvez poser d'autres types de questions d'après les nouvelles connexions que vous avez identifiées...

Des questions du type « Quels autres artistes ressemblent le plus à Mozart ? » ou encore « Quels autres produits sont le plus souvent achetés avec les couches ? », peut-être même « Quelles sont les similitudes entre des entités individuelles des Panama Papers ? »

La question sur Mozart fournit un exemple parfait du défi que pose la pertinence dans l'analyse de Graph et explique pourquoi elle est si capitale. Dans un moteur de recommandation de musique, basé sur les préférences de milliers, voire de millions d'utilisateurs, vous courez le risque de présenter uniquement les groupes les plus populaires, qu'ils soient significatifs ou non. Il serait inexact de recommander les Beatles, qui sont populaires dans le monde entier, à juste titre, à quelqu'un qui recherche des compositions similaires à celles de Mozart.

La fréquence de ces « entités hyperconnectées » au sein des playlists de la plupart des utilisateurs, signifie que ces groupes populaires seraient considérés comme similaires à des genres de musique totalement différents, voire très particuliers. De même, en analysant les achats en supermarché on obtiendrait sûrement « le lait » à la question « Quels produits ont été achetés le plus souvent avec... », tout simplement parce que la majorité des gens achètent du lait lorsqu'ils vont faire leurs courses.

En combinant l'analyse de Graph et les techniques de recherche, nous pouvons utiliser la pertinence pour renvoyer les résultats les plus importants et éviter les connexions fréquentes. L'importance significative peut être calculée en corrélant la signification de chaque connexion comparée aux moyennes mondiales.

L'idée d'utiliser la pertinence dans l'exploration de graphes a ouvert la voie à des questions plus complexes et plus importantes. Si vous disposez des données de log de votre serveur Web, vous avez des informations sur les adresses IP des requêtes entrantes ainsi que les URL demandées. Pourriez-vous utiliser ces informations pour détecter des attaquants ? Si vous connaissez un vecteur d'attaque (requêtes pour /admin), pourriez-vous utiliser cette information pour retrouver les acteurs malveillants et d'autres vecteurs d'attaque ? Concernant les préférences musicales, vous pouvez à présent créer un système de recommandation personnalisé qui suggère les groupes les plus pertinents, d'après vos données démographiques et préférences.

Alors que les bases de graphes et les moteurs de recherche existent depuis longtemps, d'une certaine façon, l'exploration de graphes intelligente est une nouvelle avancée dans l'analyse et la compréhension des données. Les entreprises qui utilisent leurs données de manière plus efficace enregistrent de meilleurs résultats que les autres, et les premiers adeptes de cette technologie vont sûrement avoir une longueur d'avance sur leurs concurrents. Lorsque vous combinez la pertinence des recherches et l'exploration de graphes, votre entreprise est en mesure de répondre plus rapidement aux changements du comportement des consommateurs, des conditions du marché, et de résoudre les cas d'utilisation les plus complexes, dans lesquels les réponses résident dans les liens entre les données.