Fabrice Canel et Frédéric Dubut (Microsoft) "En 2019, nous améliorerons l'expérience de crawl par Bing"

Frédéric Dubut et Fabrice Canel dirigent le programme de recherche "search et IA" du moteur de recherche de Microsoft.

Fabrice Canel et Frédéric Dubut dirigent le programme de recherche "search et IA" chez le moteur de recherche de Microsoft © Bing

JDN. Lors de l'événement Search Y à Paris, vous avez parlé du plan de 18 mois pour le développement du crawl. En quoi consiste ce plan ?

Fabrice Canel. Le défi des moteurs de recherche aujourd'hui, c'est le besoin de données fraîches. Il y a encore deux ou trois ans, il suffisait de recrawler un contenu quelques jours ou quelques heures après un premier passage pour voir les éventuelles mises à jour. Aujourd'hui, les utilisateurs attendent d'avoir instantanément la dernière version. Or, comment être certain que le contenu présenté est bien le plus frais sans passer son temps à recrawler les mêmes pages ? Nous travaillons pour mettre à disposition des webmasters des outils pour faciliter la notification lorsque du contenu frais arrive. Concrètement, nous communiquons avec les utilisateurs et les professionnels du web pour savoir comment améliorer leur expérience de crawl d'une façon qui reste économique. Nous ferons des annonces dans ce sens en 2019.

Quelle mesure Bing met-il déjà en place pour limiter le coût du crawl ?

F. C. La plupart des user-agent portant le nom des moteurs de recherche sont en réalité des faux, qui n'ont rien à voir avec eux. Qu'ils soient ou non mal intentionnés, leur passage consomme des ressources pour les sites. Nous aidons les webmasters à les reconnaître pour les bloquer.

Frédéric Dubut. D'ailleurs, il est déjà possible de soumettre l'adresse IP d'un user-agent à l'outil de détection de Bingbot, disponible dans le webmastertool. Il y a un seul Bingbot officiel, avec des variations selon les besoins du site.

"Si le contenu ajouté par les webmasters est difficile à crawler pour le moteur de recherche, il le sera aussi pour les utilisateurs"

Les moteurs de recherche doivent désormais crawler de plus en plus de nouveaux formats. Quelles contraintes cela représente-t-il ?

F. C. Le travail du moteur de recherche est de s'adapter aux contenus autant que possible, et non l'inverse. Créer et gérer un site doit rester simple pour les webmasters. C'est ainsi qu'Internet s'est construit. Bien sûr, il est plus facile de crawler une page en HTML, plus légère, qu'une vidéo en définition 4K. Nous avons des guidelines pour aiguiller les référenceurs qui veulent bien faire et ceux qui ne la suivent pas sont un challenge pour nous. Ce dont ils ne se rendent pas toujours compte cependant, c'est que si le contenu qu'ils ajoutent est difficile à crawler pour le moteur de recherche, il le sera aussi pour les utilisateurs. S'ils envoient trop de poids vers les serveurs, les pages sont tout simplement trop lourdes à charger. Ce n'est pas nous qui sommes la cause du blocage.

Est-ce que Bing travaille sur l'amélioration du crawl JavaScript ?

F. C. Le contenu sur Internet est de plus en plus dynamique et doit s'adapter à toutes les tailles d'écran, donc oui, JavaScript est un enjeu important. Je précise que le crawl du JavaScript n'est pas un problème. Là où ça devient compliqué, c'est lorsque des milliers de pages en JavaScript envoient des appels vers d'autres pages en JavaScript. Cela multiplie le nombre de requêtes http au serveur web. C'est coûteux pour le moteur de recherche comme pour le serveur. Le webmaster qui tient à ajouter massivement des animations trop complexes prend le risque que ni les utilisateurs ni les moteurs ne puissent ouvrir le contenu de ses pages.

"Si vous voulez dormir sur vos deux oreilles, choisissez le HTML"

F. D. Sur ce point, nous rejoignons Google, qui conseille aux gros sites faisant beaucoup appel au JS de recourir au rendu dynamique. Cette technique détecte le crawler et renvoie du contenu HTML ne nécessitant qu'un appel http au serveur web pour obtenir le contenu texte, image, vidéo et les feuilles de style convenablement affichés. C'est une façon plus simple et prédictible de faire crawler son contenu, avec une seule base de données. Autrement, il faut attendre le passage d'un deuxième robot de crawl pour reconnaître le contenu en JS. On ne sait jamais ni quand ce sera, ni quel rendu de la page en résultera.

F. C. Si vous voulez dormir sur vos deux oreilles, choisissez le HTML. Demain, il y aura peut-être des modifications dans le crawl et l'indexation et ceux qui s'écartent des guidelines ne sont pas certains que leur contenu sera toujours lu.

Est-ce que le mobile first indexing est une priorité pour Bing ?

F. C. Bien sûr. Mais avec la technologie adaptative display, un seul fichier est envoyé aux serveurs, quel que soit le device. C'est beaucoup moins de travail pour les webmasters et pour les robots de crawl.

L'usage des balises de données structurées schema.org est-il un critère de positionnement pour Bing ?

F. D. Oui, absolument, car quand elles sont utilisées de bonne foi, elles aident les moteurs de recherche à recueillir des informations. En revanche, elles deviennent un facteur négatif si la balise de rating indique que le site a reçu 400 visites par mois alors qu'il n'y en a eu que dix, par exemple. Des spammeurs les utilisent pour donner de leur site une image bien meilleure que la réalité. Mais ce n'est pas parce qu'une balise title indique "je suis le site officiel de Facebook" que nous allons la croire.

Fabrice Canel est un vétéran de la recherche chez Microsoft depuis 22 ans. Il est responsable des protocoles et des normes de recherche pour Bing et dirige l'équipe de crawl. Avant de rejoindre Bing, Fabrice était responsable de la recherche sur les sites Web de Microsoft supervisant les premières technologies des moteurs de recherche, l'expérience utilisateur, et le SEO, au tout début des techniques de référencement.

Frédéric Dubut est Senior Program Manager en charge de l'équipe anti-spam pour les résultats organiques de Bing. Il intervient régulièrement sur les problématiques de crawl, indexation, qualité des résultats et machine learning. Il travaille chez Microsoft depuis 11 ans et a fait partie d'équipes sur trois continents (Suisse, USA et Chine). Avant de mener la lutte contre le blackhat SEO chez Bing, il a dirigé l'équipe de crawl pendant 4 ans et travaillé dans les divisions Office et Xbox. Frédéric est diplômé de l'Ecole Polytechnique et de l'EPFL avec une spécialisation en technologies internet, NLP et management de la technologie.