Quand le Finops s'intéresse à l'IA générative pour réduire les coûts

Quand le Finops s'intéresse à l'IA générative pour réduire les coûts L'optimisation des dépenses IT cible potentiellement tout type de projet IT... jusqu'à l'intelligence artificielle générative. Le point sur quelques bonnes pratiques.

Contraction des termes finance et opération (IT), le finops a pour objectif d’optimiser les dépenses des projets numériques qu’ils soient portés par le cloud public ou le cloud privé. L’intelligence artificielle générative ne lui échappe pas. Le finops a ainsi dans son viseur l’ensemble des initiatives de chatbot émergeant au sein des organisations.

"Le Finops for AI consiste à appliquer à l’univers de l’IA les techniques d’optimisation des dépenses issues du cloud", résume Bastien Martins Da Torre, managing partner au sein de la société de conseil Cloud FinOps. "Sachant que les dépenses en matière d’IA atteindront 2000 milliards de dollars en 2026, ce domaine devient des plus stratégiques."

Jusqu’ici, les directeurs techniques des start-up de la French Tech comme des groupes du CAC 40 plongeaient dans le bain de l’IA générative tête baissée sans se poser de questions. Compte tenu de leur nature stratégique, les projets étaient lancés "quoi qu’il en coûte". "En tant que consultant en finops, notre rôle est de faire prendre conscience des dépenses sous-jacentes qui peuvent se révéler abyssales", reconnaît Bastien Martins Da Torre qui évoque une enveloppe de 150 000 euros dépensée par l’un de ses clients suite au déploiement d’un modèle n’ayant été utilisé que quelques jours.

Aligner les dépenses sur les besoins business

Et Kamel Haddad, head of engineering & gen AI au sein de la start-up TapNation, d’ajouter : "Tout l’enjeu consiste à prévoir les ressources qui seront consommées. Cela passe par un échange avec les équipes métier pour comprendre leur besoin." Bastien Martins Da Torre synthétise : "L’objectif est de rendre les directions business responsables de leurs dépenses."

Autre défi : réduire le nombre de projets lancés qui n’atteignent finalement pas la phase de production. "95% des projets initiés dans l’IA générative au sein des grandes entreprises ne sont pas déployés sur le terrain", insiste Jean Latiere, cloud financial management specialist pour le cabinet de conseil en optimisation des coûts numériques OptimNow. "Pour supporter cette activité de développement, les directions IT mettent généralement en œuvre de la capacité informatique. Du coup, cette capacité se révèle assez vite inutilisée." Pour éviter de tomber dans le piège, un échange constructif entre directions IT et métier est là encore central.

Une fois les cartes clairement mises sur la table, plusieurs leviers pourront être actionnés. L’optimisation des dépenses passe à la fois par le choix du modèle d’IA mais également par celui des processeurs. Si l’application finale n’a pas besoin d’être exécutée en temps réel comme c’est le cas (notamment) des briques de recommandation dans l’e-commerce, elle pourra se contenter de processeurs CPU. En revanche s’il s’agit d’un chatbot impliquant une réaction instantanée, les GPU se révéleront nécessaires. Dans le même temps, certains modèles consommeront plus de ressources à l’entrainement qu’à l’inférence, et réciproquement.

"Il n’existe pas encore d'outils permettant de savoir comment se répartit la consommation d’une base de données vectorielles entre plusieurs équipes"

"Historiquement, le finops passe par le recours aux plans de réservations (ou saving plans ndlr) proposés par les hyperscalers. Dans l’IA, ces saving plans, compte-tenu de l’importance de la demande, se limitent à des discounts de 20%, contre une fourchette de -45% à -55% pour les saving plans traditionnels", constate Jean Latiere.

En matière d’IA générative, les saving plans reste néanmoins un levier à ne pas négliger. Leur configuration sera définie en fonction d’un nombre de jetons consommés par application. Sur le cloud Azure de Microsoft, ce volume permettra de définir un nombre de PTU (pour Provisioned Throughput Unit) à réserver. "Cet exercice impliquera de prévoir le nombre de ces tokens. Ce qui n’est pas simple compte tenu du caractère probabiliste (et non déterministe, ndlr) de l’IA générative", souligne Jean Latiere.

Plus que les applications traditionnelles, l’IA générative implique une fine gestion de l’allocation des ressources cloud via le tagging. Un point particulièrement délicat à gérer. "Il n’existe pas encore d'outils permettant de savoir comment se répartit la consommation d’une base de données vectorielles entre plusieurs équipes", note Jean Latiere. "Cet élément est pourtant fondamental en vue de gérer une fonctionnalité de RAG (pour retrieval augmented generation, ndlr) horizontale à une organisation."

Une liste de solutions de référence

Idem pour l’inférence des LLM. Le suivi de la consommation de cette ressource implique de tagger chaque inference point. Ce qu’aucun hyperscaler ne permet d’automatiser jusqu’ici. "Des start-up comme Finout.io commencent à se positionner sur ce créneau. Mais pour l’heure, la supervision de la consommation de tokens par équipe métier demeure une fonctionnalité qui reste à développer", relativise Jean Latiere.

Chez TapNation, on a commencé par sélectionner une série de services d’IA de référence dans l’optique de mettre en place une politique de finops appliquée à l’IA générative. "L’idée était d’aboutir à une liste d’outils se prêtant le mieux à chaque besoin métier identifié, avec in fine l’objectif de centraliser la facturation et de se donner les moyens de suivre la consommation des usages par département", explique Kamel Haddad.

En aval, la start-up s’oriente vers le format de données TOON (pour token-oriented object notation). Une alternative plus légère au JSON. En ligne de mire : utiliser ce format pour optimiser le nombre de tokens poussés aux modèles. "Au lieu de définir des propriétés redondantes au sein de chaque objet comme c’est le cas avec JSON, TOON ne les citera qu’une seule fois. Ce qui permet de réduire de manière significative la taille du fichier final à adresser au modèle", décrypte Kamel Haddad. Un levier d’optimisation qu’il faudra également avoir en tête.