SEO : Comment optimiser ses pages pour l'algorithme Muvera ?
                            
                     
                    
Auparavant, les modèles d'embedding neuronaux permettaient de traduire des documents plurimédias en vecteurs numériques. La similarité sémantique était évaluée grâce à la distance géographiquement proche dans un espace mathématique. Chaque document ou requête était résumé en un unique vecteur. Mais cette manière de faire ne permettait pas forcément un rendu fin de la richesse d'un contenu.
"L'approche la plus courante est de partir d'un embedding au niveau des tokens d'un document", estime Sylvain Peyronnet, cofondateur de babbar.tech. "Pour simplifier, on peut dire qu'un token est une suite de quelques lettres. Puis, on fusionne ces embeddings pour créer un vecteur unique pour ce document. Ensuite, quand quelqu'un tape une requête, une distance entre vecteurs permet de trouver le document qui est "en moyenne" le plus proche de la requête."
Le problème de cette "moyenne" pour le document le plus proche est que le résultat n'est pas forcément pertinent. Par exemple, si l'algorithme peut mettre en avant un texte ne contenant que 5 ou 6 mots qui donnent la réponse parfaite à l'utilisateur.
L'approche multi-vecteurs consiste plutôt à garder tous les vecteurs créés, y compris au niveau le plus fin, celui du token. "Ainsi, on peut trouver très finement l'info pertinente dans un document, et donc dans un index. Le souci est que trouver l'info dans un contexte multi-vecteurs coute très cher en terme de puissance de calcul."
Plus fort et plus rapide
L'algorithme Muvera va encore plus loin. Il résout ce problème en passant par plusieurs phases. "En premier, les encodages au niveau des tokens sont fusionnés par ce que Google a appelé un FDE, un encodage de dimension fixée ", pointe Sylvain Peyronnet. "Celui-ci permet de trouver presque tous les principaux documents que renverrait le process de recherche besogneux complet. Ces contenus de qualité sont ensuite remis dans un contexte multi-vecteur standard, pas trop couteux car le nombre de documents en jeu est alors très petit."
Les résultats parlent d'eux-mêmes. D'après les benchmarks BEIR, Muvera est bien plus rapide que certains systèmes multi-vecteurs les plus performants. Il réduit aussi la taille mémoire grâce à la compression des FDEs, tout en gardant de la qualité.
Meilleure compréhension des requêtes longues traines
Cet algorithme représente un changement technique majeur pour Google. Son impact sera important afin de baisser le cout de la recherche. Coté utilisateurs, la répercussion la plus visible est certainement celles liées aux requêtes longues, souvent multi-intentions. Elles devraient obtenir de meilleures réponses. "Les pages qui répondent à chaque aspect de la requête indépendamment seront mieux scorées", soutient Sylvain Peyronnet. "Un exemple typique est "meilleur barbecue charbon modèle 2025 en fonte nettoyable à la brosse", la requête est ici commerciale, temporelle et informationnelle. Une page qui remplit les trois "missions" sera mise en avant plus facilement par Muvera. Avec cet algorithme, il sera aussi possible d'avoir plus de finesse sémantique plus vite. Et donc, de ne pas passer à la trappe des pages qui sont en moyenne pas " incroyables, " mais qui comportent tout de même quelques informations utiles."
Des principes classiques du GEO à mettre en place
L'algorithme Muvera devrait permettre aux SEO d'approfondir des sujets déjà connus avec l'avènement des LLM. Parmi eux, penser davantage au sémantique et moins aux "mots clés". Ou encore, avoir un contenu particulièrement pertinent, notamment sur certains passages. "Les bonnes pratiques restent les mêmes que celles qu'il faut avoir depuis l'émergence des modèles de langues", relève Sylvain Peyronnet. "Parmi celles-ci, une découpe intelligente et explicite des informations contenues dans une page web doit être la priorité. Et tout ce qui permet de comprendre cette organisation doit être mis en place. A savoir le titrage, la segmentation en paragraphes et les données structurées. Ensuite, un bon travail lexical est indispensable. Aujourd'hui, plus que jamais, il faut travailler le vocabulaire approprié et éviter de parasiter ses contenus avec du texte inutile et laborieux. A terme, on peut imaginer que des vecteurs issus de modèles multi-modaux puissent être intégrés dans les process. Je ne suis pas convaincu que ce soit le cas actuellement, mais c'est théoriquement déjà possible." Le travail SEO devrait ainsi s'effectuer aussi sur les images, les vidéos et l'audio.
 
            
        
    
    
 
        