L'IA partout ? Le coût du token a déjà choisi pour vous

L'IA générative entre dans l'économie du token : coûts, ROI, carbone et gouvernance deviennent les vrais critères de décision.

Le 1ᵉʳ juin 2026, GitHub Copilot bascule l’ensemble de ses plans en facturation à l’usage. Pour les directions IT, ce n’est pas une mise à jour tarifaire de plus : c’est la fin d’un choix. Le modèle "accès illimité à l’IA pour un abonnement forfaitaire" a vécu. Chaque token consommé sera désormais mesuré, refacturé, contraint par un crédit mensuel. Et avec ce basculement s’effondre l’illusion d’une IA gratuite, déployable partout sans arbitrage. L’économie du token est désormais en train de prendre le relais.

Ce basculement coïncide avec une série de signaux convergents que les DSI ne peuvent plus relativiser. Le 22 mai 2026, Fortune révélait, sources internes Microsoft à l’appui, que l’usage agentique de l’IA générative s’avérait, dans certains workflows, plus coûteux qu’un développeur humain. Amazon a surnommé le phénomène "toxenmaxx", Meta "Claudeonomics". Le CTO d’Uber a publiquement reconnu avoir épuisé en quatre mois l’intégralité de son budget "outils IA pour développeurs" 2026. Goldman Sachs, de son côté, anticipe une multiplication par 24 du volume de tokens consommés d’ici 2030, pour atteindre l’ordre de 120 quadrillions par mois. Côté offre, Microsoft pilote désormais un capex IA à un run-rate annualisé d’environ 150 milliards de dollars, dont 25 milliards directement liés au renchérissement des mémoires et des puces. L’idée d’une IA dont le coût marginal tendrait mécaniquement vers zéro a été enterrée par ses propres opérateurs.

Le mur n’est pas technologique, il est économique

Une étude publiée au printemps 2026 par Microsoft Research quantifie précisément ce qui change. Une tâche agentique de codage (un agent qui lit une base de code, modifie plusieurs fichiers, exécute des tests, itère) consomme jusqu’à mille fois plus de tokens qu’un simple chat de code. Et, surtout, ce coût est intrinsèquement imprévisible : deux exécutions de la même tâche peuvent diverger d’un facteur 30.

Quant aux rate-cards eux-mêmes, ils sont moins stables qu’il n’y paraît. Anthropic a maintenu ses prix nominaux à l’occasion de la sortie d’Opus 4.7, mais le nouveau tokenizer du modèle peut produire jusqu’à 35 % de tokens supplémentaires pour un texte d’entrée identique. La facture monte sans qu’aucun tarif n’augmente. Le résultat est mécanique : "mettre de l’IA partout" ne relève plus d’un choix d’ambition, mais d’une exposition financière. Pour un comité exécutif, c’est un risque de dérive budgétaire d’un type nouveau : opaque pour le contrôle de gestion, difficile à cadrer pour les achats, et dangereusement absent des modèles financiers classiques d’une DSI.

L’illusion de la productivité

À cette pression économique s’ajoute une vérité que les éditeurs ont longtemps minorée. Le rapport DORA 2025 publié par Google Cloud, bâti sur près de 5 000 réponses de professionnels du logiciel, confirme que 90 % des développeurs utilisent désormais l’IA au quotidien, et que 80 % d’entre eux déclarent un gain de productivité individuel. Mais les indicateurs organisationnels (fréquence de déploiement, lead time, taux d’échec en production, temps de récupération) restent globalement stables. Pire : la stabilité de livraison est négativement corrélée à l’adoption de l’IA dans les organisations dont les processus n’étaient pas matures avant l’introduction de l’outil. Gartner anticipe pour sa part que plus de 40 % des projets d’IA agentique seront abandonnés avant fin 2027, faute de ROI clair, de gouvernance et d’intégration.

DORA livre probablement la formule la plus juste : l’IA est un amplificateur. Elle multiplie les forces des organisations bien outillées et accélère les dysfonctionnements des autres. Autrement dit, l’effet "accélérateur" que vendent les éditeurs n’existe pas en absolu : il n’existe que si l’environnement est prêt à le capter. Déployer l’IA dans une chaîne de valeur dégradée, c’est payer plus cher pour produire plus vite ce qui ne fonctionnait déjà pas avant.

La nouvelle équation : tokens, carbone, équipe

C’est sur cela que la conversation sur l’IA doit changer de niveau. Un projet IA ne se mesure plus à son coût de licence, ni même à son seul coût de tokens. Il se mesure à la somme de trois variables désormais indissociables.

D’abord, le coût d’inférence. C’est une variable à provisionner comme une consommation industrielle et non comme un abonnement SaaS. Cela suppose une observabilité fine des tokens consommés par cas d’usage, par équipe, par projet, et une discipline FinOps spécifique à l’IA.

Ensuite, l’empreinte carbone. L’Agence internationale de l’énergie estime que les datacenters consommeront 945 TWh en 2030, contre 415 TWh en 2024, soit plus de 1,7 % de la production électrique mondiale, en accélération. L’ADEME observe que les centres de données pèsent déjà 46 % de l’empreinte carbone du numérique français en 2025, contre 16 % en 2020. L’AFNOR a publié un référentiel d’IA frugale qui n’a plus rien d’optionnel : il devient l’outil minimal de cadrage d’un projet IA d’entreprise. Carbone 4 rappelle qu’une requête générative consomme dix à quinze fois plus qu’une recherche web classique, un ordre de grandeur qui rend caduque toute politique "tout-IA, sans arbitrage".

Enfin, le coût et le temps de l’équipe humaine. Le rapport DORA est sans ambiguïté : le temps qu’il faut investir pour qu’une organisation apprenne réellement à exploiter l’IA doit être budgété comme un investissement à part entière, et non absorbé par la productivité individuelle déclarée. Croire qu’un assistant agentique compense une organisation immature relève de la pensée magique.

Ces trois variables s’additionnent. Elles ne se compensent pas.

Industrialiser : passer du "partout" au "au bon endroit"

Le point clé consiste à renoncer au réflexe d’extension uniforme - l'IA partout - pour passer à une logique d’allocation. En pratique, cinq questions permettent d’arbitrer chaque cas d’usage avant de signer un contrat ou de généraliser un POC.

Le volume est-il suffisant pour amortir l’investissement ? Générer des tests unitaires sur un patrimoine legacy de plusieurs millions de lignes, classifier 50 000 tickets ITSM par mois, traduire en continu un backlog multi-pays : oui, l’IA se rentabilise rapidement. Brainstormer une stratégie sur un marché de niche que l’équipe parcourt deux fois par an : non, le ratio coût/valeur n’est pas tenable et le risque d’hallucination n’est pas compensé.

Le modèle nécessaire est-il flagship ou frugal ? Trier des tickets en cinq catégories, extraire les clauses d’un contrat-type, résumer un compte rendu de réunion : un small model hébergé en interne suffit pour quelques centimes la session. Synthétiser un appel d’offres de 300 pages en quatre langues pour produire un dossier de qualification : un modèle flagship est justifié mais pour le dossier, pas pour chaque relecture intermédiaire.

La tâche tolère-t-elle l’asynchrone ? Réconcilier un référentiel produit chaque nuit, générer mille fiches descriptives pour un catalogue, scorer des CV pendant les heures creuses : un traitement batch divise le coût par deux chez Anthropic comme chez OpenAI. Servir une recommandation en checkout e-commerce ou un assistant en call center : il faut le temps réel, et donc le tarif plein, et donc à n’utiliser que là où la valeur le justifie vraiment.

L’orchestration agentique est-elle réellement nécessaire ? Un agent autonome qui lit la base de code, modifie plusieurs fichiers, exécute des tests et itère : c’est puissant et c’est ce qui consomme jusqu’à mille fois plus de tokens qu’un chat de code, selon Microsoft Research. Or une complétion ligne par ligne ou un échange conversationnel avec un développeur senior livre souvent 80 % de la valeur pour 1 % du coût. Le mode agentique doit être réservé aux tâches dont le retour de l’effort itératif est démontré, pas appliqué par défaut.

Quel est le coût par session, comparé à la valeur métier réellement créée ? Pas une moyenne marketing mais un coût observé, cas par cas. Combien coûte la rédaction assistée d’un email commercial, et combien rapporte-t-elle vraiment ? Combien coûte un agent qui boucle 50 tours sur un bug, et combien aurait coûté le même développeur sur la même tâche, avec la même probabilité de succès ? Sans cette mesure, le ROI IA reste une croyance, pas un pilotage.

Ces cinq questions, posées systématiquement, dessinent en pratique quatre zones dans un portefeuille IA : les usages rentables à industrialiser (forte valeur, coût maîtrisé), les usages à frugaliser (la valeur est là mais le modèle est surdimensionné), les usages à surveiller (ROI marginal, empreinte carbone réelle), et les usages à arrêter sans état d’âme. Tant que cette cartographie n’est pas faite, parler de "stratégie IA" est un abus de langage.

Industrialiser l’IA, ce n’est donc pas la déployer partout. C’est la déployer là où l’asymétrie coût / valeur / carbone est démontrable, et l’instrumenter pour le prouver. Les organisations qui sauront formaliser cet arbitrage (observabilité des tokens, FinOps IA, gouvernance, RACI clair entre Data, DSI et Métiers) sortiront du brouillard. Les autres découvriront, comme Uber, qu’on peut consommer en quatre mois ce qu’on avait budgété pour douze.

La rigueur comme nouvel avantage compétitif

L’économie du token n’est pas une mauvaise nouvelle. Elle remet l’IA à sa juste place : un levier puissant, coûteux, contraint, qu’il faut piloter avec autant de rigueur qu’un capex industriel. Elle replace aussi le débat de la souveraineté numérique sur des bases tangibles. Un modèle européen frugal, hébergé en Europe, peut désormais se comparer à un flagship américain sur des critères mesurables (coût par tâche, latence, empreinte carbone) et non plus seulement sur des promesses de performance brutes.

Le débat n’est plus "avons-nous le droit d’utiliser l’IA ?". Il est : "avons-nous la discipline de la déployer là où elle rapport vraiment", financièrement, écologiquement et organisationnellement. Cette discipline sera, probablement, ce qui distinguera les directions IT et les directions générales matures des autres, dans les dix-huit mois qui viennent.