IA : l'astuce pour diviser par deux votre facture chez OpenAI et Anthropic

IA : l'astuce pour diviser par deux votre facture chez OpenAI et Anthropic OpenAI et Anthropic proposent un service spécial pour traiter une grande quantité de requêtes à prix réduit.

C'est un fait, les LLM coûtent encore très cher en 2025. L'inférence des grands modèles de langage exige d'importantes ressources matérielles que les éditeurs et hébergeurs répercutent sur le prix. Même si la tendance est aux modèles plus spécialisés et avec moins de paramètres, faire traiter plusieurs centaines de prompts par un LLM peut s'avérer rapidement coûteux pour un professionnel.

Pour pallier ces coûts, les éditeurs commencent à développer des fonctionnalités pour réduire drastiquement la facture. L'une des dernières en date : le traitement par lots asynchrone. Explications sur cette nouveauté déjà disponible avec les API d'OpenAI et d'Anthropic.

Utiliser les périodes creuses

Le traitement par lots asynchrone fonctionne sur le même principe que les forfaits heure creuse électrique. Le but ? Optimiser les coûts en traitant les tâches non urgentes pendant des périodes où la demande est plus faible, ce qui permet aux fournisseurs d'API d'offrir des tarifs réduits de 50% tout en garantissant le traitement des requêtes dans un délai de 24 heures. L'approche est particulièrement adaptée pour les traitements massifs de données qui ne nécessitent pas de réponse immédiate. 

Le temps de traitement varie selon la charge du système et la taille du lot. OpenAI et Anthropic parlent d'un délai maximal de 24 heures. Les éditeurs ne garantissent pas de délai minimal, mais priorisent les requêtes pour optimiser le traitement.

Jusqu'à -50% sur les prix publics

OpenAI et Anthropic appliquent une réduction de 50% sur les requêtes traitées par lot. Par exemple, 100 requêtes de 10000 tokens traitées avec Claude 3.5 Sonnet coûteraient avec l'API classique 18 dollars environ. En utilisant l'API Batch, le coût total est réduit à 9 dollars, soit une économie de 9 dollars.

Modèle

Input avec API Standard ($/MTokens)

Input avec API Batch ($/MTokens)

Output avec API Standard ($/MTokens)

Output avec API Batch ($/MTokens)

Claude 3.5 Sonnet

3.00 

1.50

15.00

7.50

Claude 3 Opus

15.00

7.50

75.00

37.50

Claude 3 Haiku

0.25

0.125

1.25

0.625

GPT-4o

2.50

1.25

10.00

5.00

GPT-4o-mini

0.15

0.075

0.60

0.30

50 000 requêtes maximum chez OpenAI

OpenAI a conçu son API Batch autour d'un système de fichiers JSONL. Pour l'utiliser, il faut d'abord préparer un fichier texte contenant une requête par ligne au format JSON. Chaque ligne doit inclure un identifiant unique et les paramètres habituels de l'API avec le modèle et les prompts à traiter. Ce fichier est ensuite téléchargé via l'API Files d'OpenAI, qui vérifie qu'il ne dépasse pas 200 MB. 

OpenAI se charge alors de traiter les requêtes de manière asynchrone, avec une limite de 50 000 requêtes par lot.  À la fin du traitement, OpenAI génère un nouveau fichier JSONL contenant toutes les réponses, téléchargeable via l'API Files. Si certaines requêtes n'ont pas pu être traitées dans le délai de 24 heures, elles sont marquées comme expirées et ne seront pas facturées. Le service est disponible pour la majorité des modèles d'OpenAI (de GPT-4o à GPT-4 en passant par GPT-3.5). On note toutefois l'absence des derniers modèles de raisonnement o1 et o1 mini. 

100 000 requêtes maximum pour Anthropic

L'approche d'Anthropic est plus simple et ne nécessite pas de fichiers JSONL. Les développeurs peuvent simplement envoyer une liste de requêtes dans un seul appel API. Chaque requête doit avoir un identifiant unique et contenir les mêmes paramètres que l'API standard (modèle, messages, etc.). Cette méthode permet de traiter jusqu'à 100 000 requêtes par lot, avec une taille totale maximale de 256 MB. Le système est particulièrement flexible puisqu'il accepte dans un même lot différents types de requêtes : génération de texte, analyse d'images ou encore l'utilisation d'outils. 

Une fois le lot soumis les résultats sont accessibles au fur et à mesure du traitement, mais ne sont considérés comme finalisés que lorsque tout le lot est terminé. Les développeurs peuvent suivre l'avancement via une API dédiée ou depuis la console web. Les résultats restent disponibles 29 jours après la création du lot. Enfin, l'API Batch est supportée par tous les modèles de la famille Claude 3 : Opus, Sonnet et Haiku.

Quels cas d'usage ? 

Les API Batch sont pensées pour des cas d'usage où le temps de traitement n'est pas un facteur clé. L'analyse de sentiment sur de grands volumes de retours clients, la modération automatique de contenus utilisateurs, la génération de descriptions de produits pour des catalogues entiers, la classification de documents d'entreprise, ou encore la création de résumés automatiques pour des bases documentaires sont autant d'exemples où l'utilisation du Batch est opportune. 

Avec des réductions de coûts atteignant 50% et des limites généreuses allant jusqu'à 100 000 requêtes par lot, cette nouvelle fonctionnalité ouvre la voie à une industrialisation plus économique de l'IA générative.