Comment réduire l'empreinte environnementale de l'IA générative

Taille du modèle, mode d'hébergement, compression des prompts… Un ensemble de choix et de bonnes pratiques permet de diminuer la facture énergétique particulièrement élevée des grands modèles de langage.

Et si le plus gros problème de l'IA générative était son empreinte environnementale ? Particulièrement énergivores, les grands modèles de langage (LLM) font exploser, surtout dans leur phase d'entraînement, la consommation d'électricité des centres de données qui les hébergent. Chaque requête de ChatGPT, Gemini ou Claude passe également par un serveur qui exécute des milliers de calculs pour générer un texte ou une image.

En lien avec des chercheurs de l'Université de Californie, à Riverside, le Washington Post a établi qu'un e-mail de 100 mots généré par GPT-4 représente la consommation d'un peu plus d'une petite bouteille d'eau (519 mml) et l'énergie servant à alimenter 14 ampoules LED pendant une heure. Selon une étude du cabinet McKinsey, l'essor de l'IA modifie "la dynamique du marché mondial de l'énergie". Au rythme actuel d'adoption de l'intelligence artificielle, la consommation d'énergie des centres de données en Europe devrait presque tripler, passant d'environ 62 à plus de 150 TWh d'ici la fin de la décennie.

En publiant début juillet son rapport environnemental, Google a reconnu que ses émissions de CO2 avaient bondi de 13% en 2023 et de 48% depuis 2019. En cause : la montée en puissance des chatbots de dernière génération. Une invite d'un modèle d'IA générative consomme environ dix fois plus d'énergie qu'une requête sur un moteur de recherche traditionnel.

Pour absorber cette progression exponentielle de la charge informatique, les opérateurs de datacenters utilisent des techniques de refroidissement vertueuses comme le free cooling, qui consiste à utiliser l'air extérieur la nuit ou l'hiver, ou recourent aux énergies renouvelables pour diminuer leur PUE (Power Usage Effectiveness), l'indicateur de référence de l'efficience énergétique d'un centre de données.

Arbitrer en fonction du coût environnemental

A son niveau, une entreprise peut mettre en place un certain nombre de bonnes pratiques pour réduire l'empreinte environnementale des modèles qu'elle utilise ou met en production. Première question à se poser ? Faut-il se lancer réellement dans un projet d'IA générative. "Au sein des six métiers de Bouygues, des comités d'arbitrage, composés d'experts métier et de spécialistes de la data science, évaluent l'intérêt d'un cas d'usage du point de vue opérationnel, de son niveau de maturité et du coût associé qu'il soit économique ou environnemental", explique Christophe Lienard, président d'Impact AI et directeur central de l'innovation du groupe Bouygues.

Cette approche "by design" permet de stopper avant même qu'il démarre un projet qui s'avèrerait être un gouffre environnemental. Il convient également d'envisager des technologies alternatives moins énergivores. "Recourir à des systèmes d'IA générative parce que c'est à la mode présente peu d'intérêt", juge Sergio Winter, ML engineer AWS chez Devoteam Revolve. "Certains peuvent être avantageusement remplacer par des règles métiers simples ou des outils d'IA plus traditionnels."

Mesurer le coût environnemental d'un modèle

Pour maîtriser son empreinte environnementale, il faut la mesurer. Or, tous les modèles d'IA générative ne se valent pas sur le plan énergétique. Selon l'AI Index de l'université de Stanford Artificial, il a fallu l'équivalent de 502 tonnes d'émissions de dioxyde de carbone pour entraîner GPT-3 et 1 287 mégawattheures d'énergie. A performances égales, l'entraînement de Bloom a exigé 25 tonnes d'équivalent CO2 et 433 MWh. Les deux modèles ont pourtant quasi le même nombre de paramètres, respectivement 175 et 176 milliards.

De même, les modèles n'ont pas le même bilan carbone durant la phase d'inférence. EcoLogits propose un bout de code pour suivre la consommation d'énergie et les impacts environnementaux de l'utilisation de modèles d'IA générative appelés par API, dont ceux d'OpenAI, Anthropic, Google Gemini ou Mistral AI. A partir des données d'EcoLogits, Hugging Face a mis en ligne une calculatrice qui transforme ces métriques en aller-retour Paris-New York ou en nombre de kilomètres parcourus par une voiture électrique. Des exemples parlants qui permettent de sensibiliser les utilisateurs internes à un usage raisonné des LLM.

Du côté, des développeurs, il convient, selon Sergio Winter, de monitorer le modèle à l'aide d'indicateurs de suivi. "Un changement de version ou l'ajout d'une fonctionnalité peut faire exploser son bilan carbone", note-t-il.

LLM vs SLM, la taille ça compte

Depuis quelques mois, les LLM sont challengés par les SLM (pour small language models). Ces modèles réduits comprennent de quelques millions à 10 milliards de paramètres contre plusieurs dizaines voire centaines de milliards de paramètres pour les grands modèles de fondation. S'ils présentent des performances moins élevées, ils remplissent des tâches spécifiques avec une latence réduite tout en offrant la possibilité d'effectuer l'inférence en local.

Qui dit taille réduite dit surtout empreinte environnementale moindre. "S'agissant de modèles moins généralistes, les SLM peuvent nécessiter un réentraînement et du fine tuning, ce qui fera monter la facture énergétique", tempère Sergio Winter. "De même, il faudra peut-être associer plusieurs modèles spécialisés pour un même projet alors qu'un LLM seul aurait pu suffire."

Entre SLM et LLM, Mistral AI propose une approche intermédiaire. Son concept de SMoE (Mixture-of-Experts) consiste à n'activer qu'une partie des paramètres (39 sur 141 milliards dans le cas de Mixtral 8x22B) pour offrir le meilleur rapport performances / coûts économiques et environnementaux.

Sergio Winter évoque également la technique de quantization qui consiste à réduire la précision des valeurs numériques passant de nombres à virgule flottante de 32 bits à 16 bits, voire à 8 bits sans trop perdre en qualité. Cette approche permet "un gain de temps lors de l'inférence, une réduction de la mémoire nécessaire, de la puissance de calcul et donc une réduction de l'énergie consommée", constate Sergio Winter.

On-premise versus cloud

Se pose ensuite la question de l'hébergement du modèle. Une entreprise peut décider d'auto-héberger un modèle open source. "Elle devra alors investir dans une infrastructure en propre, utilisée ponctuellement, et acquérir des processeurs graphiques, une denrée rare et particulièrement énergivore", note Céline Albi, data science manager chez Axionable et membre du groupe de travail IA et Environnement chez Impact AI.

"Faire tourner des LLM avec l'infrastructure existantes sera compliqué", confirme Nicolas Cavallo, head of generative AI chez Octo Technology. "Si une organisation doit changer son parc de serveurs et de terminaux et acquérir des cartes graphiques sous-exploitées et rapidement obsolètes, cela peut plomber son bilan carbone." Pour Sergio Winter, l'auto-hébergement peut trouver sa pertinence dans les traitements par batch, comme par exemple la traduction automatique d'un lot d'articles, évitant ainsi que les serveurs tournent en permanence.

Autre possibilité : faire appel à un modèle hébergé dans le cloud par le biais d'une API. Avec, cette approche "as a service", l'entreprise bénéficie d'une infrastructure mutualisée et des techniques d'optimisation de son provider comme la gestion de cache. Sur le principe du paiement à l'usage, elle consomme des ressources ponctuellement faisant baisser sa facture énergétique.

Les providers sont aussi les premiers à se doter des nouveaux GPU, à la fois plus performants et moins énergivores. Présentée comme la plus puissante au monde, la future puce Blackwell de Nvidia pourrait consommer jusqu'à 25 fois moins d'énergie que ses équivalents actuels.

Seul hic, le manque de transparence des providers cloud concernant leurs facteurs d'émissions. Reposant sur un mode déclaratif, les données transmises manquent de précision et sont difficilement comparables avec les autres fournisseurs cloud. "Il faut faire pression sur les providers pour qu'ils communiquent des éléments de calcul clairs", estime Céline Albi.

A défaut, tout un travail d'investigation doit être entrepris pour, à partir de la configuration choisie (processeur, carte graphique, RAM…) et de la région retenue (le mixte énergétique du pays d'implantation du datacenter), évaluer le coût environnemental d'un service cloud.

L'art du prompt engineering

Une entreprise peut aussi diminuer le nombre d'inférences. Désormais bien connue, la technologie du RAG consiste à fournir au module des contenus jugés fiables et à lui demander de baser ses réponses en priorité sur les informations contenues dans ces documents. Le prompt engineering, qui vise à optimiser la façon dont on "parle" au LLM, permet également de diminuer la consommation de tokens chez son fournisseur cloud.

Nicolas Cavallo plaide en faveur de la technique de compression de prompts qui consiste à réduire le nombre de tokens en entrée des modèles, sans pour autant compromettre la qualité des réponses générées.

En faisant la chasse aux mots béquilles et autres termes redondants, il s'agit de parvenir à la formulation la plus concise possible. Bref, exprimer une idée avec le minimum de mots. "Être poli, ça a un coût", s'amuse Nicolas Cavallo. "Dire merci, c'est un appel de plus au modèle". Des algorithmes spécifiques viennent automatiser cette compression des prompts.