Avec beaucoup de travail et un peu de ChatGPT, Les Echos-Le Parisien créent 13 millions de contacts enrichis

Avec beaucoup de travail et un peu de ChatGPT, Les Echos-Le Parisien créent 13 millions de contacts enrichis Le groupe de presse est passé de 21 millions de lignes à 13 millions de profils transverses à ses 35 marques. L'IA générative a permis d'harmoniser certaines données.

Contrairement à ce que son nom indique, le groupe Les Echos-Le Parisien ne compte pas deux mais 35 marques différentes issues du monde des médias (presse généraliste, financière & économique, médias culturels, etc.) et de la diversification (événements et services aux entreprises BtoB). Comment explorer de manière harmonisée et fiable l'ensemble des contacts du groupe, soit entre 15 et 20 millions d'individus, parmi lesquels des abonnés, des clients BtoB, des sympathisants abonnés aux newsletters, etc., dont l'entreprise dispose d'au moins l'adresse e-mail ? Autrement dit, comment générer, pour chaque profil, un ID unique transverse, tenant compte de sa relation avec toutes les marques du groupe et qui soit frais et fiable ?

"Tout a commencé quand notre CEO a souhaité savoir qui étaient les clients VIP du groupe, une question 100% data à laquelle nous n'étions pas en mesure de répondre à ce moment-là, fin 2022 : comment sortir 100 profils de 21 millions de lignes de données ?", nous confie Violette Chomier, directrice data du groupe.

Il fallait passer par-delà les silos pour générer un profil client transverse, ce qui a impliqué de faire évoluer l'intégralité de la chaîne de la data : la collecte, le traitement, la normalisation, la déduplication, l'harmonisation et l'enrichissement. Un chantier auquel trois data ingénieurs de l'équipe composée de 22 professionnels de Violette Chomier se sont attaqués à temps complet pendant neuf mois. Un processus qui a débouché sur 13 millions de profils enrichis (au lieu de 21 millions de lignes) et de nombreux retours palpables, selon notre interlocutrice : des personae identifiées pour les différents besoins du groupe (prospection commerciale, cross-sell, fidélisation, communication corporate, etc. ; des segments de données à la fois plus volumineux et finement classés et plus valorisables auprès des annonceurs ; des scores plus performants pour mieux entraîner les modèles algorithmiques de la maison ; une vision beaucoup plus fine permettant de rationaliser l'achat de données à des entités tierces à de fins par exemple d'enrichissement.

"Pour le seul champ "métier", nous avions plus de 6 000 références différentes"

En décembre 2022, cela faisait déjà deux ans que le groupe avait démarré l'internalisation de sa base CRM et la migration vers Google Cloud Platform de l'hébergement de ses données, auparavant traité en externe par différents prestataires. Il fallait alors déjà régler un problème de taille pour envisager de disposer des profils transverses : harmoniser les critères de collecte des données entre toutes les entités du groupe. "Il nous a fallu pour cela réunir tous nos métiers autour de la table pour qu'ils se mettent d'accord sur les 15 données le plus facilement monétisables que nous devrions nous efforcer de collecter de manière prioritaire", explique Violette Chomier.

En deux mots, les options de case à cocher par chaque individu lors d'une inscription devaient être les mêmes partout, ce qui impliquait soit de refaire tous les formulaires de toutes les marques du groupe afin d'harmoniser les flux entrants, en se servant du même référentiel, soit de requalifier ces derniers au fur et à mesure qu'ils arrivent, soit les deux. "Charge à nous, équipe data, de faire la même chose avec les données que nous avons en stock", explique-t-elle. Ce qui n'était pas une mince affaire vu que pendant plusieurs années la collecte de certaines données complexes, comme le métier, s'est faite en mode champ libre. "Pour le seul champ "métier", nous avions plus de 6 000 références différentes. L'IA générative nous a été sur ce point très utile pour traiter cette masse de données et la requalifier parmi les 15 métiers que nous avons retenus", relate-t-elle. "Cette donnée jusque-là inexploitable est devenue monétisable grâce à ChatGPT."

En effet, l'entrepreneur qui aurait rempli le formulaire en indiquant être directeur de pressing ne correspondait à aucune case ; désormais, il est classé entrepreneur et peut composer le segment que la régie du groupe activera pour un annonceur. Le tout en un claquement de doigts : "L'IA générative a représenté un gain de temps inestimable pour nous, elle est très simple à utiliser et n'exige pas de maintenance", précise la spécialiste, faisant remarquer que le taux de précision obtenu est de 81%, soit "un très bon taux".

ChatGPT est désormais intégré à l'écosystème de données du groupe, entre les ingestions et le stockage pour classer les données complexes, comme les métiers, les classes CSP ou les catégories des services des entreprises. "Bien évidemment les données personnelles ne font pas partie des données harmonisées par ChatGPT."

Conformité de la donnée

Pour la phase de collecte et de traitement, le groupe a veillé à ce que l'ingestion de données se fasse le plus possible en mode "stream", c'est-à-dire en temps réel et en ELT, extract-load-transform (et non en ETL), c'est-à-dire en laissant pour la fin la phase de transformation/agrégation de la donnée pour rester le plus agile possible en cas de besoin de générer de nouveaux cas d'usages. 

Très important, le groupe a intégré depuis le début de l'année une étape de normalisation de la donnée. "Pour la normalisation, nous faisons appel à un prestataire externe, l'entreprise dqe, qui s'appuie sur des bases externes et des tests pour bien s'assurer que l'intégralité de nos adresses e-mail, numéros de téléphone et adresses postales sont conformes et valides", explique-t-elle.

Si les taux de conformité étaient jugés bons pour les e-mails et numéros de téléphone, entre 30% et 80% des adresses postales pouvaient ne pas être correctement renseignées selon les sources. "C'était capital d'opérer cette normalisation, car pour nous le canal mailing postal reste très important pour la prospection et le care (le suivi et la fidélisation client, ndlr). De plus, le fait de disposer de moyens supplémentaires de contact avec un client baisse le churn : un canal de contact supplémentaire, c'est 15 points de churn en moins", précise-t-elle.

Les limites de l'ID basé sur l'adresse e-mail

La phase tout aussi centrale de déduplication des contacts est celle qui a donné le plus de fil à retordre à l'équipe : "Comme c'est le cas chez beaucoup d'entreprises, notre ID groupe était basé sur l'adresse e-mail. Dès qu'un individu informait une adresse e-mail, on lui attribuait un ID. Le problème, c'est qu'une même personne peut informer différentes adresses e-mail surtout quand elle est en relation avec plusieurs de nos marques. A chaque marque, une même personne peut informer un e-mail différent, professionnel ou personnel", illustre Violette Chomier.

Des règles de déduplication plus sophistiquées ont été nécessaires, tout d'abord en se basant sur le couple nom/prénom et numéro de téléphone ou adresse postale ou alors selon des méthodes encore plus complexes pour contourner les cas d'usage où les mêmes coordonnées personnelles pouvaient servir à des individus différents (cas typique des abonnements offerts par les entreprises à leurs salariés ou des individus malins qui veulent gagner des jeux concours).