Ce que les annonceurs doivent absolument savoir à propos du deep learning

Pour les annonceurs, les technologies complexes comme le deep learning sont particulièrement difficiles à évaluer.

À la lecture d’articles récents sur l’intelligence artificielle (IA), on pourrait avoir le sentiment que le deep learning est la solution à presque tous les problèmes auxquels l’industrie de la publicité digitale est actuellement confrontée. Ce dernier né de l’IA promet de meilleures prédiction, pertinence et visibilité des bannières. En tant qu’ingénieur, vous vous demandez "Comment ai-je pu passer à côté du développement ultra-rapide et extrêmement efficace du deep learning ?", qui n’est d’ailleurs plus dans son enfance. Les chercheurs ont passé plus de 20 ans à travailler dessus et ont fait des progrès significatifs dans de nombreux domaines : la reconnaissance d’images est la plus connue, mais il ne faut pas oublier le traitement de textes et de sons.

Qu’en est-il de la publicité, qui se fait en temps réel et utilise des données beaucoup plus complexes que des pixels et des sons ? Il n’existe pas d’architecture de référence dans ce domaine qui permettrait d’obtenir les mêmes améliorations que pour l’image, le son et le texte. Des chercheurs de nombreuses universités et institutions collaborent sur le sujet, et nous n’en sommes qu’aux premières phases des documents de recherche dans ce domaine. Dirigeant le laboratoire IA d’une grande entreprise de technologie publicitaire, je connais personnellement le potentiel du deep learning – et ses pièges.

L’outil multifonction de votre boîte à outils

La manière dont nous parlons du deep learning ces jours-ci me rappelle beaucoup les pubs pour les outils multifonction, qui promettent de résoudre tous vos soucis de bricolage. Et pour être honnête, c’est souvent le cas. Prenez le couteau suisse, exemple parfait de l’outil multifonction, qui vous permet d’ouvrir une bouteille, de réparer votre chaîne de vélo, remettre une vis manquante et bien plus encore. Un outil multifonction moderne est peut-être l’outil le plus puissant de votre boîte à outils.

Imaginez cependant que vous souhaitiez construire un dressing sur-mesure. Vous avez besoin des bons outils, mais aussi des bons matériaux et des bonnes connaissances pour accomplir cette tâche. Vous pouvez obtenir un résultat satisfaisant par vous-même en utilisant votre outil multifonction, mais vous pouvez aussi demander à un artisan de construire ce dressing pour vous. En l’observant travailler, vous verrez qu’il utilisera de nombreux outils, qu’il emploiera des matériaux de qualité et qu’il mettra à profit son expérience de la construction de dressings. Il sait comment utiliser tout cela et peut ne pas avoir besoin d’un outil multifonction – à moins qu’il n’y perçoive une valeur ajoutée.

Que nous apprend cette histoire ? Un outil multifonction peut-être l’outil le plus puissant de votre boîte à outils, mais pour résoudre des scénarios complexes, ce n’est pas assez. Le deep learning est peut-être le sous-ensemble le plus puissant du machine learning ; parfaitement adapté pour des tâches comme la reconnaissance d’images. Mais pour des cas plus complexes comme la publicité digitale, pour laquelle vous avez besoin de beaucoup de données de qualité – les matériaux – et d’années d’expérience, votre outil multifonction ne peut pas être votre seul atout.

Le deep learning bouleverse-t-il la publicité digitale ?

Afin de mieux comprendre les opportunités et les défis du deep learning pour les annonceurs, permettez-moi de décrire en quelques mots le fonctionnement du machine learning et du deep learning :

L’apprentissage machine supervisé enseigne aux algorithmes comment examiner les données et comment les regrouper de manière à leur permettre de faire des prédictions. Un exemple bien connu est le filtre anti-spam de votre boîte mail, qui détecte les caractéristiques prédéfinies qui font d’un e-mail un spam – des formules comme « Médicaments gratuits » ou « Vous avez gagné une voiture ». Pour la publicité digitale, le machine learning peut prédire la probabilité qu’un utilisateur clique sur une bannière. Ici, un être humain définit des conditions et s’attend en retour à une caractéristique comme "ce courrier est un spam" ou "Cet utilisateur a une prédiction de CTR de 0,8 %".

L’apprentissage machine non supervisé est utilisé afin de repérer des motifs dans une grande quantité de données. Des êtres humains analysent les résultats des calculs et les interprètent pour classer des comportements : « Ces utilisateurs sont très dépensiers » ou « Ces utilisateurs achètent souvent ». Dans le cadre de l’apprentissage machine non supervisé, vous n’avez pas besoin de conditions ou de caractéristiques : les machines cherchent simplement des ensembles de motifs à interpréter.

Le deep learning n’est pas complètement différent, mais plutôt un sous-ensemble du machine learning. La principale différence est que vous n’avez plus besoin de passer du temps à définir les conditions valides. Il se fonde sur les principes des réseaux neuronaux et fonctionne comme le cerveau humain. Le deep learning est capable de reconnaître qu’une photo d’un chien montre un chien, sans qu’un être humain ne rentre les caractéristiques du chien (quatre pattes, queue) dans la machine. Cela est possible parce qu’il a déjà analysé des milliers de photos de chiens, et que des ordinateurs de pointe sont apparus ces dernières années et ont traité d’énormes quantités de données.

À présent, la question principale n’est pas de savoir si le deep learning est plus sophistiqué que les autres apprentissages automatiques – c’est peut-être le cas – mais plutôt s’il aurait un impact significatif sur les campagnes publicitaires. La réponse est : pas encore, ou alors peu. Pourquoi ?

Maîtriser l’ensemble du répertoire du Machine Learning

Le deep learning nécessite énormément de données. Le simple fait de considérer l’exemple de la reconnaissance d’un chien nécessite des téraoctets de données pour entraîner la machine. C’est la raison pour laquelle ses succès sont le plus visibles dans le domaine de la reconnaissance d’images et de la traduction, ainsi que dans des jeux comme AlphaGo. Le reste est plutôt un mix au sein du machine learning.

La mise en œuvre d’une architecture de deep learning dans la publicité digitale impliquerait de traiter un grand nombre de données et de le faire en temps réel – la publicité est pilotée par des technologies d’achat programmatiques, avec des contraintes de latence beaucoup plus strictes que d’autres cas d’utilisation du deep learning, en milliseconde au maximum). Cela nécessiterait une augmentation considérable de la puissance de calcul, qui ne serait justifiée que par des bouleversements massifs qui n’ont pas encore été observés. Pour cette raison, nous ne voyons pas encore d’architectures de deep learning au service d’enchères, mais plutôt dans le calcul préalable des caractéristiques qui se trouvent en dehors du chemin critique. Ces fonctionnalités pourraient être intégrées à un modèle plus traditionnel et rapide de machine learning.

Est-ce que cela fonctionne ? Oui. En fait, nous l’avons testé dans nos laboratoires d’IA. Est-ce que cela fonctionne mieux que les modèles de régression logistique traditionnels ? Pas forcément, et pour une raison simple, liée aux caractéristiques :

Le deep learning utilise de nombreuses couches superposées et consomme des données brutes (comme des pixels individuels, des caractères d’un texte). Vous n’avez pas besoin de définir manuellement les caractéristiques, car la machine fait le travail. À partir des données brutes, les couches les plus basses extraient les caractéristiques de bas niveau, comme les groupes de caractères, ou les lignes et les angles des images. Les couches supérieures combinent ensuite ces éléments pour extraire des caractéristiques intermédiaires, puis de haut niveau. Les dernières couches encodent le résultat attendu, la « logique commerciale », distinguant les photos de chats de celles des chiens, ou prédisant les clics et les ventes. Une grande quantité de données est nécessaire pour entraîner un système aussi complexe, dans la mesure où les couches inférieures contiennent de nombreux neurones qui doivent être eux-mêmes entraînés pour accomplir leur travail.

La régression logistique est un modèle à couche unique qui traite des caractéristiques souvent renseignées manuellement. Elle est donc plus rapide et utilise moins de puissance de calcul que les modèles profonds. Si vous avez une très bonne liste de caractéristiques et suffisamment de données, cette méthode peut concurrencer le deep learning. Notez qu’une couche de régression logistique est souvent la dernière couche d’un modèle profond – la différence réside donc simplement dans la manière dont ses caractéristiques ont été calculées : apprises sur (beaucoup de) données brutes par un modèle profond ou produites manuellement en utilisant des connaissances spécifiques à un domaine par des data scientists. La valeur ajoutée de ces caractéristiques est qu’elles ont un sens clair ; elles peuvent être comprises (et corrigées) par des humains, et peuvent également être utilisées afin de fournir des informations sur les performances de différents publics. 

Mon conseil aux annonceurs est le suivant : ne vous laissez pas avoir par la hype qui oppose le machine learning au deep learning, ou qui affirme que l’un est bien supérieur à l’autre. Tout comme un artisan sait utiliser tous ses outils, le machine learning vous empêche de ne compter que sur un seul outil. Vous devez plutôt considérer votre objectif. Le deep learning aura certainement un impact sur les performances publicitaires de demain, mais uniquement dans le contexte global du machine learning, avec ses modèles en arbres, ses régressions, ses réseaux d’IA auto-organisés et plus encore. Si vous êtes data scientist ou ingénieur travaillant dans la publicité, je vous recommande de suivre la méthode scientifique et d’effectuer des expériences sur vos propres données et vos propres KPIs. Mesurez quelle solution vous apporte le plus d’avantages, indépendamment de sa mise en place.