Recherche en entreprise : les Big Data ne sont pas forcément là où vous le pensiez

On pense rarement au Big Data pour optimiser les recherches sur le système d'information en entreprise. Pourtant l'analyse de l'ensemble des fichiers produits par les employés et leurs analyse d'un point de vue BiG Data offre de nombreux avantages.

Comme beaucoup d’autres, vous imaginez les Big Data comme d’énormes ensembles de données dignes d’un traitement distribué à l’échelle de plusieurs pétaoctets. Pour ceux qui ont besoin d’un bref rappel, un pétaoctet représente plus d’un million de gigaoctets, soit l'équivalent d'un entrepôt rempli de clés USB. En règle générale, les entreprises entrent dans la zone des Big Data en recueillant des données transactionnelles issues de dizaines de millions de clients. Ou si vous êtes une société de médias sociaux, en stockant les messages des statuts/discussions, les images et les vidéos d’un nombre énorme d’utilisateurs.
Mais il existe une autre façon de franchir le seuil des Big Data, et il se trouve juste sous notre nez. Les systèmes de fichiers internes aux grandes entreprises peuvent facilement passer au-dessus de la barre du pétaoctet.
Nous avons récemment discuté avec un responsable informatique qui gère un système de fichiers de 1,5 pétaoctet constitué uniquement des données d’origine humaine produites par les 40 000 employés de l’entreprise. Le système de fichiers de votre entreprise n’est peut-être pas aussi volumineux, mais si celle-ci appartient à la catégorie des grandes entreprises (plus de 1 000 employés), vous disposez probablement d’un espace de stockage de plusieurs téraoctets ou davantage. C’est moins qu’un pétaoctet, mais c’est déjà très significatif.

La recherche en entreprise appartient-elle au domaine des Big Data ?

La problématique des Big Data est un peu floue, et aucun consensus n’existe sur un grand nombre de paramètres. Cependant, d’autres considérations permettent de décider si quelque chose relève ou non du domaine des Big Data : la complexité des calculs couplée à de hautes performances. Si vous devez effectuer des calculs difficiles ou si vous utilisez des algorithmes qui doivent être rapidement exécutés sur un grand nombre de données, vous êtes déjà dans la zone des Big Data.
Quel type de problème Big Data ai-je à l’esprit en ce qui concerne les systèmes de fichiers internes ?
De manière similaire à la recherche sur le Web, la recherche SI (Système d’Information) de l’entreprise permet aux employés d’interroger les systèmes de fichiers internes, en générant des résultats de type Google tels que des listes ordonnées par degré de pertinence et prenant en compte les permissions d’accès relatives aux fichiers. Cette dernière exigence signifie que, contrairement à la recherche sur le Web, l’application doit déterminer si les utilisateurs sont autorisés à voir les résultats de la recherche en fonction des permissions (listes de contrôle d’accès) relatives aux contenus concernés.

De plus, une application de recherche en entreprise doit renvoyer les résultats à la vitesse de l’éclair, tout comme les moteurs de recherche du Web, mais en consommant beaucoup moins de ressources de calcul.
À tout prendre, la recherche en entreprise commence à se montrer digne de l’appellation Big Data. Et au cas où vous vous poseriez la question, il existe un lien entre la recherche Web et la recherche en entreprise au niveau des métadonnées.

Classement des résultats

Si nous nous penchons un peu plus sur la recherche en entreprise, nous pouvons avoir une idée de son ampleur et de la raison pour laquelle les métadonnées y jouent un rôle important. Tout comme dans le monde de la recherche grand public, les résultats de la première page sont en principe les plus pertinents. Fondamentalement, c’est le problème connu du classement. Et il a été radicalement résolu par les fondateurs de Google qui ont développé l’algorithme PageRank. Alors que Google est depuis longtemps passé à d’autres façons de calculer ses classements, son idée sous-jacente est instructive : PageRank utilise essentiellement des métadonnées de base en guise de « votes », dans ce cas, les liens entrants vers une page Web.
En d’autres termes, les pages les plus populaires (celles qui apparaissent plus haut dans la liste classée des pages correspondant au mot clé recherché) contiennent plus de liens entrants. Pour les passionnés, le document original de Sergey et Larry se trouve ici. Par ailleurs, il existe d’autres algorithmes dans le domaine du classement, mais ils dépendent généralement de la même notion de vote et d’utilisation des métadonnées relatives au nombre de liens.
La grande question qui se pose est la suivante : existe-t-il un équivalent de la métaphore des métadonnées de vote pour la recherche en entreprise, avec tri des résultats correspondant à un mot clé selon une métrique de popularité ?

Recherche sociale et recherche en entreprise

Il s’avère qu’il existe une belle analogie au vote par liens. On peut penser aux métadonnées d’accès, le nombre d’utilisateurs consultant ou modifiant un fichier servant d’indicateur de popularité. Comme dans le cas de la recherche sur Internet, les métadonnées supplémentaires constituent aussi un avantage pour la recherche en entreprise, et nous pouvons appliquer des algorithmes de popularité similaires à nos bons vieux fichiers. Avec les métadonnées d’activité ajoutées à l’équation, cette histoire prend une envergure Big data à part entière, c’est-à-dire le type de difficulté que votre patron aimerait vraiment voir résolu.
Il existe beaucoup de façons de décomposer le problème, mais il y a quelque temps, l’un de mes confrères a rédigé un billet expliquant le principe du « qui se ressemble s’assemble ». Celui-ci dit que si nous sommes tous les deux attirés par la même catégorie de choses, nous sommes susceptibles d’avoir d’autres choses en commun et que j’aime ce que vous aimez. Il est également possible de décrire cela comme un comportement grégaire : nous nous suivons l’un l’autre. Ce phénomène est exploité dans le domaine de la recherche sociale par la plupart des suspects habituels du monde des réseaux sociaux. Voyez la manière dont le Graph Search de Facebook fonctionne pour plus d’informations.
Nous pouvons faire quelque chose de similaire pour la recherche en entreprise, en peaufinant le vote. Par exemple, supposons qu’un utilisateur A accède à un fichier nommé « Stratégie de développement marketing du produit X », également consulté par l’utilisateur B. L’utilisateur B a également accédé à un fichier nommé « Données de vente du produit X », non consulté par A. En vertu du principe du « qui se ressemble s’assemble », vous pourriez vouloir allouer une petite fraction du vote de A au fichier des données de vente, même s’il n’a pas été directement consulté. Supposons que l’utilisateur A ait effectué des recherches sur certains mots clés utilisés dans le fichier des « Données de vente du produit X », « logiciel de métadonnées » par exemple. En raison de sa pondération SAN, le fichier apparaîtrait plus haut dans la liste des résultats que si A et B n’avaient pas été liés par le principe du « qui se ressemble s’assemble ».

Les SAN en bref

Non, ce ne sont pas des réseaux de stockage SAN (Storage Area Networks). Je viens de décrire un modèle de classement plus formellement connu sous le nom de réseau social-attribut (Social-Attribute Network, SAN). Celui-ci prend en compte deux types de métadonnées : d’une part, les utilisateurs, l’aspect social et leurs relations, d’autre part, les données réelles et leurs relations. Contrairement à un SAN, PageRank ne tient pas directement compte des métadonnées sociales, car son algorithme de classement est uniquement basé sur les données ou les relations entre les contenus.
Il existe quelques excellentes enquêtes sur les SAN, mais tous les chemins mènent au parrain de ces modèles et inventeur d’un algorithme de classement ayant précédé PageRank, l’étonnant Jon Kleinberg de l’université Cornell.
Le calcul réel d’un classement SAN pour la recherche en entreprise (et je promets d’être bref) implique souvent un tableau géant, qui est d’ailleurs également utilisé dans PageRank. Imaginez que chaque ligne représente un fichier, et chaque colonne, un utilisateur. L’entrée initiale indique si un utilisateur accède au fichier, au moyen d’un 1 par exemple. L’algorithme SAN est itératif et ajuste les votes en suivant une chaîne de « J’aime ». Finalement, vous obtenez un nombre. Techniquement, c’est une probabilité, mais peu importe, cela permet de hiérarchiser la pertinence d’un fichier pour chaque utilisateur. En d’autres termes, à la différence de PageRank, le SAN offre des classements spécifiques à chaque utilisateur.
Ce tableau est gigantesque et comprend peut-être plusieurs milliers d’utilisateurs croisés avec une centaine de milliers de fichiers. Les calculs sont complexes et doivent être effectués jusqu’à convergence des classements par vote.
La recherche en entreprise est un vaste sujet, en particulier si l’on considère ses aspects sociaux. C’est pourquoi il nécessite plus qu’un simple article. Je reviendrais prochainement plus en détail sur la recherche de fichiers et de son caractère globalement Big Data.