LLM : comparatif des prix au token

Tour d'horizon des tarifs des principaux large language model en fonction du nombre de tokens sollicités via leur API. Les prix peuvent varier du tout au tout selon les offres.

Les LLM sont facturés au "token", une unité de mesure représentant des segments de texte, c'est-à-dire des mots ou des fragments de mots. En général, les large language model (LLM) tarifent séparément les tokens d'entrée (ceux envoyés au modèle) et les tokens de sortie (ceux générés en réponse). Cette méthode de facturation permet aux utilisateurs d'estimer le coût selon le volume de données traité par les LLM mis à disposition sous forme d'API. Selon la définition d'OpenAI, un token correspond, en anglais, à 0,75 mots. Le tableau ci-dessous résume les prix estimés par token pour les principaux LLM du marché, que ce soit en entrée ou en sortie.

Prix des principaux LLM en fonction du nombre de token
Modèle	Fournisseur	Prix pour 1000 tokens en entrée	Prix pour 1000 tokens en sortie	Nombre de token total supporté
GPT-4o (omni)	OpenAI	0,05 dollar	0,15 dollar	128 000
GPT-4 Turbo	OpenAI	0,1 dollar	0,3 dollar	128 000
GPT-4	OpenAI	0,3 dollar	0,6 dollar	8 000
Claude 3 Haiku	Anthropic	0,0025 dollar	0,0125 dollar	200 000
Claude 3 Sonnet	Anthropic	0,03 dollar	0,15 dollar	200 000
Claude 3 Opus	Anthropic	0,15 dollar	0,75 dollar	200 000
Llama 3 70b	Meta (via AWS)	0,00265 dollar	0,0035 dollar	8 000
Llama 2 70b	Meta (via AWS)	0,00195 dollar	0,00256 dollar	4 000
Gemini 1.0 Pro	Google	0,005 dollar	0,015 dollar	32 000
Gemini 1.5 Pro	Google	0,07 dollar	0.21 dollar	1 000 000
Command	Cohere	0,1 dollar	0,2 dollars	4 000
Command R	Cohere	0,005 dollars	0,015 dollars	132 000
Command R+	Cohere	0,03 dollars	0,15 dollars	128 000
Mixtral 8x7B	Mistral AI (via Anyscale)	0,005 dollars	0,005 dollars	32 000
Mistral Small	Mistral AI	0,02 dollars	0,06 dollars	32 000
Mistral Large	Mistral AI	0,08 dollars	0,24 dollars	32 000
GPT-3.5 Turbo	OpenAI	0,12 dollars	0,16 dollars	4 000
PaLM 2	Google	0,02 dollars	0,02 dollars	8 000

Analyse des Modèles

GPT-4o et GPT-4 Turbo (OpenAI) - Au sein de la gamme des LLM d'OpenAI, GPT-4o est une version multimodale hautement performante à un tarif compétitif, tandis que GPT-4 Turbo est une option allégée à coûts réduits. GPT-4 reste la version principale pour les tâches complexes, mais à un coût plus élevé.
Gemini 1.5 et 1.5 Pro (Google DeepMind) - Développé par Google, les modèles Gemini sont optimisés pour le texte et l'image. La version Pro est plus puissante, avec une capacité de tokens plus élevée pour des cas d'usage avancés.
Claude 3.5 Sonnet, Haiku et Opus (Anthropic) - Anthropic propose différentes versions de son LLM pour des besoins spécifiques, de réponses rapides (Haiku) ou des interactions longues et approfondies (Sonnet et Opus). Les prix varient en fonction des capacités de chacune.
Llama 3 70b et Llama 2 70b (Meta) - Mis au point par Meta, ces modèles sont notamment proposés par le cloud d'Amazon. Ils offrent une flexibilité accrue pour des tâches personnalisées.
Command, Command R, et Command R+ (Cohere) - Cohere offre une gamme complète de modèles pour la recherche et l'analyse, allant des options économiques pour la recherche de données basiques à des LLM taillés pour des analyses plus complexes.
Mixtral et Mistral - Les modèles du français Mistral sont optimisés pour des tâches linguistiques spécifiques (Mixtral) ou des interactions rapides (Mistral Small).
GPT-3.5 Turbo - Il s'agit d'une option économique des modèles d'OpenAI, adaptée aux tâches simples avec une capacité de tokens limitée, offrant une bonne alternative pour des besoins moins intensifs.