Comment travailler avec une IA générative pour produire des fiches produits ?
Alimentée par des données internes à l'entreprise, l'IA générative peut être utilisée avec ChatGPT pour créer ou améliorer des fiches produit.
Quand on parle de produire des fiches produit grâce à l'IA, l'une des méthodes qui vient le plus rapidement à l'esprit est l'utilisation de ChatGPT. un outil qui permet de réaliser des fiches produits alimentées par des données internes à l'entreprise. Pour créer une fiche pertinente, différentes étapes peuvent être nécessaires. Elles nécessitent par exemple la construction d'un prompt détaillé, intégrant des consignes éditoriales et liées au SEO notamment. Elles requièrent aussi la vérification de ce qui est généré en sortie.
Mais le processus n'est pas toujours évident à mettre en place quand il existe un grand nombre de fiches produits à réaliser. C'est le cas par exemple chez Cdiscount. "Nous traitons quotidiennement des volumes considérables de données", explique Isabelle Serot, directrice data chez Cdiscount. "Chaque semaine, environ 1 million de fiches produits sont créées et notre moteur de recherche reçoit plus d'un milliard de requêtes par an." L'utilisation de modèles d'IA générative, en plus de l'IA plus classique déjà utilisée auparavant, sert à la recatégorisation et à l'amélioration des fiches produits. Elle permet de gérer un catalogue de 70 millions d'offres.
Pour Cdiscount, le fine tuning de modèles pré-entraînés comme ceux d'OpenAI (GPT-4 et consorts) est très performant mais aussi très coûteux en ressources. L'entreprise a donc choisi de se concentrer sur la construction de "prompts efficaces et ciblés pour créer les fiches produits les plus qualitatives possible", déclare Isabelle Serot. "L'utilisation de modèles pré-entrainés que nous avons déployés de façon industrielle depuis la fin du premier semestre 2023, nous permet de produire des fiches produits de haute qualité."
Comme cela se pratique aussi avec l'IA classique, le site e-commerce requiert à une technique de sondage pour la validation des résultats de l'IA. Certaines fiches sont contrôlées, correspondantes à divers produits provenant de différents rayons. Cela permet au site e-commerce de valider les résultats générés pour vérifier que les prompts spécifiquement conçus pour ces tâches ont bien évité les hallucinations. Comme pour tout traitement d'IA, l'e-commerçant français implique activement l'expertise humaine dans la chaîne de valeur. Cela lui permet d'ajuster au mieux les prompts aux attentes des experts métier. "Bien sûr, l'IA générative s'intègre parfaitement dans le cadre déjà établi pour l'IA Classique en matière de réponse aux objectifs opérationnels de l'entreprise, et de respect du cadre réglementaire, notamment pour assurer la confidentialité des données", souligne Isabelle Serot.
Le fine tuning pour la précision
D'autres solutions comme le fine tuning peuvent être adoptées par les entreprises afin de réaliser des fiches produits alimentées par des données internes à l'entreprise. Rappelons que cette technique permet de spécialiser un modèle pré-entraîné sur une tâche particulière. Elle consiste à ajuster certains paramètres du modèle pour l'adapter à une tâche spécifique. Elle utilise des données spécifiques comme entrées et génère des réponses adaptées en sortie. Le modèle assimile, par exemple, le vocabulaire et saisit les modalités des réponses attendues par touches successives affinées sur quelques centaines ou milliers d'exemples annotés.
Une technique mise en place par Mathieu Chapon, fondateur de Peak Ace, qui s'avère efficace. "Un de nos clients avait 200 000 fiches produits qui devaient être réécrites", raconte-t-il. "Entre la partie entraînement, vérification des données avec le client, analyse du taux d'erreur et production de contenu, cela nous a demandé moins d'une semaine, ce qui est extrêmement rapide."
Afin d'arriver à ce résultat, différentes étapes sont observées. Par rapport aux sources de données, Mathieu Chapon suggère de "récupérer les descriptifs faits antérieurement à la main, le flux de produits pour avoir les attributs, le PIM aussi qui est la base de données autour des produits en les sélectionnant. Les avis clients, quand il y en a, sont aussi intéressants. Par contre, il est illégal de scrapper les produits identiques des concurrents. Si celui-ci s'en aperçoit, on peut recevoir une amende assez importante."
Toujours afin de fournir des données au modèle, il est possible de mettre des images en entrée. Et de préciser à OpenAI dans ce cas-là tous les attributs en face des types d'attributs. Par exemple, d'indiquer à l'outil tous les types de lacets correspondant à une image de snickers. "Le côté fine tuning intervient lorsque l'on est capable d'étiqueter et de préciser les données qu'on va lui fournir au modèle en entrée", indique Mathieu Chapon. L'IA reçoit donc des données spécifiques en entrée pour produire des résultats pertinents en sortie. "Elle va être plus efficace pour reconnaître car il lui a été précisé en entrée ce qui était attendu. Avec cette méthode, on peut enrichir la base de départ pour mieux définir les données à intégrer au prompt. Une centaine d'exemples serait un minimum pour avoir un résultat plus performant."
Ensuite, l'analyse du taux d'erreur peut être aidée par l'IA (Gemini dans notre cas). Mathieu Chapon explique : "l'outil est capable de donner un score sur le contenu donné en entrée. Cette note nous a permis de révéler que certaines catégories n'avaient pas été assez entraînées. Le score est basé sur la qualité des données en sortie."
Notons que d'après Mathieu Chapon, la mise en place de cette méthode "demande des compétences de développeur ou d'être assez astucieux pour bien préparer les fichiers et faire tourner l'installation toute seule sur OpenAI. Il est possible de travailler sur Google BigQuery ou de fine tuner sur GPT. Les données sont d'ailleurs à fournir en JSON sur GPT."
A l'arrivée, le fine tuning pour les fiches produits donne un résultat "moins aléatoire et plus précis qu'un assistant GPT", explique Mathieu Chapon. "Le fine tuning permet de créer moins d'erreurs dans la création de descriptifs. L'assistant GPT n'arrivait, par exemple, pas à éviter la présence de superlatifs ou de majuscules, à la différence du fine tuning."
L'expert SEO ajoute : "le fine-tuning d'un modèle pré-entraîné nécessite aussi souvent moins de données étiquetées par rapport à l'entraînement d'un modèle à partir de zéro. Il économise des ressources en s'appuyant sur des connaissances existantes, rendant le processus plus efficace. Il permet une personnalisation pour des industries ou applications spécifiques sans compromettre la compréhension linguistique sous-jacente du modèle. Il aide également à améliorer la qualité du contenu généré en adaptant le modèle pour comprendre et répondre aux nuances spécifiques à la tâche."