L'apprentissage automatique et les modèles de traitement du langage naturel peuvent aider à réaliser ce travail.

Essentielle en e-commerce, la bonne catégorisation des produits peut cependant être chronophage, notamment s'il existe une multitude de produits. A l'heure où les e-commerçants recherchent un second souffle sur les marges souvent trop faibles, l'intégration d'une marketplace est une stratégie souvent envisagée.

Pour faire face à ce défi, l'apprentissage automatique et les modèles de traitement du langage naturel peuvent aider. Les algorithmes demandent à être alimentés avec les bonnes données de formation. Ils peuvent catégoriser les produits en retour.

Il existe plusieurs modèles de machine learning pour catégoriser les produits. Parmi eux, on peut citer le modèle d'apprentissage non supervisé. Il récolte des données non étiquetées en entrée, les interprète, les traite pour ensuite les catégoriser à la sortie. "Il demande beaucoup de data en entrée et son classement peut laisser la place à une marge d'erreur pas toujours satisfaisante", explique Mathieu Chapon, fondateur de Peak Ace.

Peak Ace © Apprentissage non supervisé.

La seconde technique d'entraînement, pour certains plus adaptée en e-commerce, est le modèle d'apprentissage supervisé. C'est celui qu'a choisi Mathieu Chapon pour catégoriser les produits d'un de ses clients. Dans ce modèle, les données labellisées et les catégories sont fournies en entrée à la machine. Cela peut provenir de flux en provenance du client et de son PIM, le product information management, qui contient toutes les informations liées aux produits. Le modèle de machine learning, une fois entraîné, peut ensuite ingérer des nouvelles données à catégoriser. Il ressort des prédictions avec les catégories associées au produit.

Apprentissage supervisé. © Peak Ace

Par l'usage de cette méthode de machine learning, l'objectif de Peak Ace était de catégoriser plusieurs centaines de milliers de produits d'une Marketplace, à l'aide des 50 000 produits déjà catégorisés. "L'utilisation d'outils comme Merkle ou Algolia, qui proposent aussi des solutions IA, n'était pas assez satisfaisante pour le client. Cela se matérialisait par la présence de produits dans de mauvaises catégories", précise Mathieu Chapon. Différentes étapes ont alors été mises en place pour recatégoriser le catalogue.

Récupération de l'information sur les produits catégorisés

La première étape réalisée par Mathieu Chapon et ses équipes consiste à récupérer l'information des produits déjà catégorisés. Ces produits et les informations qui en sont tirées servent à entraîner le modèle. "En général, il est intéressant de prendre le flux public", explique le spécialiste du référencement. "Celui-ci comporte toutes les données vis-à-vis de chacun des produits, comme le titre, le poids, la taille, les images, le descriptif ou le prix. Ces flux sont souvent utilisés pour Google Shopping, entre autres."

Flux de données. © Peak Ace

Les informations sont ensuite stockées dans une base de données, Google Query par exemple. Puis, l'agence Peak Ace se sert de Gemini Advanced afin d'analyser l'ensemble des colonnes, en donnant des pondérations. "Par exemple, ce qui va caractériser le plus un produit va être à la fois son titre, son descriptif et sa catégorie de produit, aussi renseignée dans Shopping. D'autres éléments peu évidents au départ, comme le poids, peuvent aussi être intéressants. Ils aident l'algorithme à s'entraîner, à faire les bons choix, à bien clusteriser".

Entraînement du modèle

Une fois cette étape terminée, les équipes de Peak Ace demandent au modèle d'intégrer les 200 000 nouveaux produits pas encore catégorisés. Grâce à son entraînement sur les produits déjà catégorisés, le modèle classifie les nouveaux produits dans le PIM e-commerce et dans l'arborescence du client. L'algorithme émet ensuite un score de confiance sur la catégorie mentionnée pour chaque nouveau produit. "C'est très important parce qu'il permet de savoir dans quelle situation l'outil n'était pas très sûr de lui", explique Mathieu Chapon. Notons que sur les 200 000 produits intégrés, 35 000 obtiennent une note de confiance en dessous de 50%.

Intervention d'une deuxième IA

Afin de gagner du temps sur la catégorisation des produits ayant obtenu moins de 50 % sur la note de confiance, l'équipe de Peak Ace fait intervenir une deuxième IA. Il s'agit de Gemini Advanced. Entraînée sur des milliards de documents provenant du web, elle permet à l'équipe de confirmer ou d'infirmer les catégories précédemment choisies par le modèle entraîné.

Note de Gemini. © Peak Ace

Elle propose aussi de requalifier certaines catégories qui lui semblent inappropriées. "Quand l'une d'entre elles ne correspond pas à l'arborescence du client, on demande à Gemini Advanced d'essayer de trouver une catégorie plus proche de l'arborescence", exprime Mathieu Chapon.

Réentrainement du modèle et API

Les 200 000 produits correctement catégorisés sont ensuite donnés en entraînement à l'IA de départ. L'objectif ? La réentraîner sur davantage de données, afin de la rendre plus efficace. Dans le but de simplifier le futur travail du client, Peak Ace a aussi créé une API sur le modèle entraîné. Dès qu'un produit arrive chez le client, "l'API est appelée directement dans son infrastructure et le modèle, hébergé chez nous, peut traiter le besoin du client", nous informe Mathieu Chapon. "Elle va traiter les nouveaux produits pour comprendre où il faut les classer dans le PIM et dans l'arborescence du client. Nous avons donc créé un modèle sur lequel le client est entièrement indépendant".

Soulignons que le travail réalisé a aussi fait prendre conscience au client de l'intérêt de créer des catégories ou des sous-catégories pour certains produits. A noter cependant que les catégories possédant moins de 100 produits ne permettent pas au modèle de sortir des résultats pertinents.

Au final, pour Mathieu Chapon : "l'utilisation de l'apprentissage automatique pour la catégorisation des produits en e-commerce représente une avancée significative. L'approche supervisée, comme celle adoptée par Peak Ace, démontre que, avec des données bien étiquetées et un modèle correctement entraîné, il est possible de gérer efficacement des volumes massifs de produits. La combinaison de modèles entraînés et d'IA sans entraînement, telle que Gemini Advanced, permet de surmonter les incertitudes et d'affiner les résultats. En réentraînant continuellement le modèle avec de nouvelles données, on améliore progressivement sa précision. Enfin, l'intégration d'une API facilite la gestion future des produits pour le client, le rendant indépendant et capable de maintenir une catégorisation précise et à jour. Cette démarche permet non seulement d'optimiser les processus internes mais aussi de créer une meilleure expérience utilisateur, en garantissant que chaque produit est correctement classifié dans le catalogue en ligne."