Les brevets qui aident Google et son Colibri à comprendre nos requêtes

Les brevets qui aident Google et son Colibri à comprendre nos requêtes Analyse des mots clés, de leur contexte, score de confiance envers de possibles synonymes... Les techniques d'analyse des requêtes brevetées par Google sont sophistiquées.

La mise à jour Colibri, ou Hummingbird de Google a été présentée en septembre. Pour simplifier, elle doit aider le moteur de recherche à mieux comprendre les requêtes des internautes, et notamment celles composées de plusieurs mots clés. Comment Google peut-il mieux comprendre les requêtes des internautes ? Si Mountain View reste évidemment secret sur le sujet, ses employés déposent des brevets qui peuvent donner des pistes sur les techniques utilisées. L'Américain Bill Slawski est spécialisé dans le décryptage de ces brevets, et a analysé sur son site plusieurs d'entre eux qui pourraient avoir servi à Google pour déployer Hummingbird.

Trouver les bons synonymes pour mieux comprendre le sens des requêtes

Cela semble notamment être le cas de l'un d'entre eux, qui donne au moins une idée des raisonnements imaginés par les ingénieurs du moteur de recherche pour faire remonter des résultats en phase avec le sens des requêtes, notamment celles qui sont assez longues.

Un exemple de telles requêtes très longues ("What is the best place to find and eat Chicago deep dish style pizza?") est donné dès le résumé du brevet – et cet exemple ressemble étrangement à ceux présentés par l'ingénieur de Google, Amit Sinhal, lors de sa présentation d'Hummingbird. Ce brevet a été attribué le 17 septembre 2013, soit quelques jours avant l'annonce ayant révélé la mise en place Google Hummingbird.

La méthode déposée explique comment procéder pour trouver et évaluer les synonymes qui pourraient remplacer des termes dans les requêtes. Une méthode qui passe par exemple via l'analyse des autres mots de la requête, et notamment ceux qui ne sont pas juste à côté de celui visé. Pour reprendre le même exemple de la longue requête donnée plus haut, le mot "place" ("lieu" en français) pourra par exemple être remplacé par "restaurant". Et cela non pas du fait de la présence du mot "best" (meilleur), juste à côté, mais bien du mot "pizza", situé à la fin de la requête. La méthode décrite dans le brevet repose aussi sur un score ou un seuil de confiance envers le synonyme, qui doit être atteint avant que le moteur de recherche ne "décide" de le remplacer.

Une illustration assez détaillée est jointe au brevet.

hummingbird brevet
Dans un des brevets déposés par Google, le moteur détaille comment il peut trouver des synonymes pour modifier certaines requêtes. © Pdfpiw.uspto.gov

Ce que nous apprend ce schéma sur l'approche possible de Google pour mieux comprendre les requêtes :

  Il faut beaucoup de procédés complexes pour qu'une machine puisse tenter de comprendre quelque chose de simple pour un humain ! Sur le schéma se trouvent en effet un élément central, un moteur de révision de requête (numéro 210, au centre), mais aussi de nombreux autres éléments périphériques importants.

 Un parser (numéro 202) va ainsi réaliser l'analyse syntaxique. Il devra notamment trier et sélectionner des mots qui pourront ensuite être éventuellement remplacés par des synonymes. Il devra aussi savoir traiter plusieurs termes comme un seul (comme "Romeo et Juliette").

 Un système dédié à la recherche des bons synonymes (280), regroupe à la fois un générateur de synonymes (214), et les systèmes qui évaluent le contexte général (215) comme le contexte adjacent (216) des mots employés dans les requêtes.

Un système pourra attribuer un score de confiance élevé à de potentiels synonymes

Le fonctionnement du score de confiance

C'est le système chargé d'évaluer le contexte général qui attribuera un score de confiance à de potentiels synonymes, et ce "si le terme de la requête et son potentiel synonyme sont souvent associés, ou utilisés dans d'autres requêtes comparables, voir dans des résultats de recherche comparables". Une fois ce score de confiance établi, le moteur de révision de requête pourra s'aider du score de confiance pour "choisir l'un de ces synonymes potentiels déterminés par le système évaluant le contexte".

De son côté, le système chargé d'évaluer le "contexte adjacent" d'un terme, c'est-à-dire en fait les autres termes au sein même de la requête, pourra aussi se concentrer sur certains termes et en mettre de côté d'autres. Par exemple avec la requête "Je veux lire un livre de Shakespeare genre Romeo et Juliette", il n'évaluera que les termes "lire", "livre", "Shakespeare" et "Romeo et Juliette".

AA pour American Airlines ou Alcooliques Anonymes ?

Ce même système 216 s'intéressant au contexte adjacent doit aussi détecter de potentiels synonymes qui n'en sont pas dans la requête analysée. Par exemple, comme le souligne explicitement le brevet, AA peut faire référence à l'association des Alcooliques Anonymes ou à la compagnie aérienne American Airlines. Donc, face à une requête du genre "Je veux savoir où se trouve la réunion des AA", ce système 216 devra détecter que le terme "réunion" associé à "AA" fait pencher le terme AA du côté d'Alcooliques Anonymes, et devra éliminer définitivement American Airlines comme synonyme potentiel de AA lorsque ces deux termes, "AA" et "réunion" sont associés... C'est aussi évidemment ce système qui devra détecter que, lorsque "pilote" est dans la requête, le synonyme Alcooliques Anonymes pour AA doit être écarté.

Un brevet sur la réécriture de requête déposé dès 2003

google
Amit Singhal supervise l'équipe qualité chargée des algorithmes de recherche de Google. Il a aidé Google à déposer plusieurs brevets dans ce domaine. © Google

La réécriture des requêtes n'est cependant pas un nouveau domaine de recherche pour Google, loin de là. Ainsi, un brevet déposé en 2003, et auquel a d'ailleurs participé Amit Singhal, détaillait des méthodes pour affiner des requêtes en trouvant des termes alternatifs – autant dire des synonymes. Un autre brevet qui alimente donc peut-être, au moins en partie, le générateur de synonymes (214 dans le schéma ci-dessus).

Ce brevet "Search queries improved based on query semantic information" a été attribué en 2011. Il évoque trois pistes pour trouver ces synonymes ou requêtes alternatives. D'abord, les déclinaisons partant d'une même racine (comme constitutionnel est lié à constitution par exemple). "Le moteur de recherche pourra utiliser chacune de ces variantes pour reformuler la requête", explique le brevet. Deuxième technique : puiser dans un thesaurus, et l'utiliser comme un dictionnaire de synonymes potentiels, associant "auto" et "voiture" par exemple. Le brevet imagine même y inclure les hyperonymes (animal pour chat) et hyponymes (chat pour animal). Dernière piste évoquée : remplacer un terme de la requête par un autre qui apparait souvent dans les résultats remontés par le moteur...