Recherche globale en entreprise : aspects sociaux et confidentialité

J’ai récemment parlé de l’importance des métadonnées dans les algorithmes de recherche. Ce nouveau billet revient sur la manière d'utliser ces métadonnées dans le cadre de la recherche globale en entreprises et soulève une problématique inhérente à ce type de pratique : la confidentialité.

Dans une chronique précédente dans le JDN, j’ai discuté de l’importance des métadonnées dans les algorithmes de recherche. J’ai exposé beaucoup de notions théoriques sur les comportements fréquents des groupes (« qui se ressemble s’assemble ») et sur la manière dont les algorithmes de classement utilisent ces relations sociales. Les chercheurs connaissent depuis longtemps la puissance des métadonnées sociales, mais quelqu’un a-t-il véritablement utilisé ces idées dans des produits existants ? Les réseaux sociaux constitueraient l’endroit logique d’une telle mise en œuvre.

Recherche graphique et qui se ressemble s’assemble

Au moins un réseau social, Facebook, a transformé cela en réalité en lançant le Graph Search. Toute personne ayant activé le Graph Search sait qu’il est possible d’entrer des requêtes du type « amis à Los Angeles qui aiment les pizzas ». Facebook cherchera alors dans sa structure de métadonnées internes (connue dans le métier sous le nom de graphe social) pour renvoyer ces informations. Il s’agit d’une application évidente de tous les « J’aime » recueillis par Facebook.
Mais le Graph Search peut offrir davantage. Vous pouvez également saisir des requêtes telles que « musique que je pourrais aimer », et les algorithmes de Facebook entreront vraiment en action.
Dans cet article de l’équipe d’ingénieurs consacré au Graph Search, ces derniers font référence au principe du « qui se ressemble s’assemble », ou comme ils le disent, « …la tendance des individus ayant des caractéristiques similaires à s’associer. Les individus sont liés les uns aux autres par leur lieu de travail, leur profession, leur école, leur club, leurs loisirs, leurs convictions politiques et d’autres vecteurs d’affiliation. »
Bien sûr, dans Facebook, les métadonnées de profil social sont particulièrement abondantes. Le Graph Search peut répondre aux questions relatives aux musiques potentiellement favorites des abonnés en cherchant parmi les connexions de leurs amis pour trouver les individus avec lesquels ils ont le plus de points communs (école fréquentée, préférences alimentaires, etc.), puis classer les références musicales déduites du graphe social en fonction de la force de ces connexions.
Facebook a révélé suffisamment sur ce qui se passe sous le capot pour me laisser croire qu’il utilise le modèle SAN auquel j’ai fait allusion la dernière fois. Par ailleurs, vous pouvez en savoir plus sur l’ensemble du processus, du traitement du langage naturel au classement, dans un autre article dans lequel l’équipe d’ingénieurs de Facebook aborde le « graphe des entités », c’est-à-dire le graphe social.

Graphes sociaux et confidentialité

Les mêmes concepts fonctionneront tout aussi bien dans le cadre d’une recherche sur les systèmes de fichiers effectuée en entreprise. En utilisant les métadonnées d’activité des fichiers, il est possible de déduire des préférences communes. En d’autres termes, si nous accédons tous deux au même fichier, c’est l’équivalent d’un « J’aime ». Et nous avons aussi quelque chose de semblable à une affiliation directe : les groupes Active Directory remplacent le club ou le parti politique éventuel auquel nous appartenons.
Par conséquent, les résultats peuvent être classés d’une manière beaucoup plus significative.
Vous pouvez imaginer la requête de recherche sur un système de fichiers pour l’expression « stratégie de développement marketing » comme l’équivalent d’une requête Facebook de type « fichiers de stratégie de développement marketing susceptibles de me plaire ». Une recherche en entreprise basée sur le modèle SAN serait très efficace pour prédire les préférences. En allant bien au-delà de ce que peut faire une simple recherche textuelle au moyen d’un outil de ligne de commande de l’OS (par exemple).
Facebook, il faut lui rendre justice, reste également transparent à propos des problèmes potentiels de confidentialité de la recherche graphique. Pensez-y : si la recherche graphique vous dit ce que vous préférez d’après les métadonnées d’autres membres de votre groupe, en regardant les profils d’amis semblables au vôtre, vous pouvez déduire sur eux plus qu’ils ne veulent peut-être vous en laisser savoir. Facebook vous dit explicitement de marquer les photos et autres informations sensibles comme « Moi uniquement » pour empêcher le Graph Search d’en extraire des données.
Facebook n’est pas le seul. Le même risque d’atteinte à la vie privée se pose au sein d’autres réseaux sociaux. Le problème s’avère particulièrement délicat pour les mineurs de moins de 12 ans qui pourraient être virtuellement traqués. C’est pourquoi la récente réglementation COPPA a tellement mis l’accent sur les métadonnées et les autorisations parentales.

Disposons-nous de telles possibilités en ce qui concerne le modèle de recherche en entreprise ?

Dans ce cas, l’analogie peut être celle des permissions d’accès aux fichiers ou leur classification. Les utilisateurs des entreprises où la recherche à l’échelle globale est possible doivent envisager que les employés de l’entreprise entière pourraient effectuer des recherches parmi des contenus situés dans les dossiers partagés de différents services. Dans un environnement de travail, bien sûr, vous souhaitez certainement favoriser la collaboration. Mais personne ne peut contester que le dossier partagé du service juridique doit être largement disponible en dehors du groupe juridique ou que les fichiers réglementés contenant des informations personnelles doivent être librement consultables. Ainsi, bloquer l’accès aux dossiers et fichiers contenant certains types d’informations ou appartenant à certains services semble souhaitable.
Dans billets les plus récents, je soutiens que les métadonnées constituent une base de recherche solide et efficace parmi les contenus généraux et sociaux du Web, et qu’elles seraient en principe aussi très utiles dans les entreprises. Cependant, la dernière fois que j’ai vérifié, j’ai constaté que la plupart des entreprises ne disposent pas de la puissance de calcul d’un Facebook ou d’un Yahoo. Comme je l’ai expliqué, même dans le plus petit système de fichiers, la recherche globale reste un problème de niveau Big Data et nécessite donc des techniques spéciales. J’aborderai quelques-uns des problèmes d’ingénierie que pose la mise en œuvre de la recherche globale en entreprise dans une prochaine chronique.

Juridique / Facebook