Gemini 1.5 Pro, 1.0 Ultra… Quel modèle Google choisir ?

Présenté en décembre 2023, la nouvelle famille de LLM made in Google évolue rapidement. Contexte, modalité, vitesse… Le JDN vous aide à y voir plus clair.

Comment se repérer dans la jungle des modèles Gemini ? Depuis la publication du premier modèle Gemini, Google a rapidement fait évoluer sa gamme. Le géant de Mountain View entend devenir leader du marché sur MLLM, ces nouveaux modèles capables de comprendre une flopée de modalités (vidéo, son, image…). A l'heure actuelle, quatre versions différentes de Gemini sont proposées au public : Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro et Gemini 1.0 Pro Vision.

Pour donner un peu plus de sens à ce naming complexe, et comprendre quel est LE modèle adapté à vos besoins, voici un petit guide pour vous aider à faire votre choix. Vous devriez y trouver le modèle qui correspond le mieux à vos attentes en termes de performances, de vitesse et de cas d'usage.

Quatre modèles, une multitude de cas d'usage
Modèle	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro	Gemini 1.0 Pro Vision
Code		X	X
Tâches complexes		X	X
Tokens de contexte	1 million	1 million ou 2 millions sur liste d'attente	32 000	12 288
Modalité (input)	Texte, image, vidéo, audio	Texte, image, vidéo, audio	Texte	Texte et image
Latence	Faible	Modérée	Importante	Importante
Support du JSON	X	X
Dernière MAJ	avril-24	avril-24	février-24	NC
Disponibilité sur GCP	Preview	Preview	Publique	Publique

Nous avons délibérément choisi de ne pas inclure Gemini 1.0 Ultra, maintenant déprécié et non disponible dans Vertex AI. De même Gemini Nano n'est disponible que pour certains clients de Google Cloud pour une utilisation exclusivement on-premise (sur mobile). La famille Google Gemma open source fera quant-à-elle l'objet d'un prochain comparatif.

Un pricing pour le moins complexe

Qui dit multimodalité dit pricing compliqué. Les MLLM de Google sont facturés au token et selon la nature de l'input adressé au modèle. A noter également que Google, pour complexifier un peu plus, propose une tarification supérieure pour les inputs dépassant les 128 000 tokens.

Prix pour un contexte inférieur à 128 000 tokens
Modèle	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro	Gemini 1.0 Pro Vision
Tarif texte (input)	0,000125 $	0,00125 $	0,000125 $	0,000125 $
Tarif texte (ouput de 1 000 caractères)	0,000375 $	0,00375 $	0,000375 $	0,000375 $
Tarif image (input par image)	0,0001315 $	0,001315 $	NP	0,0025 $
Tarif vidéo (input par seconde)	0,0001315 $	0,001315 $	NP	NP
Tarif audio (input par seconde)	0,0000125 $	0,000125 $	NP	NP

Prix pour un contexte supérieur à 128 000 tokens
Modèle	Gemini 1.5 Flash	Gemini 1.5 Pro
Tarif texte (input de 1 000 caractères)	0,00025 $	0,0025 $
Tarif texte (ouput de 1 000 caractères)	0,00075 $	0,0075 $
Tarif image (input par image)	0,000263 $	0,00263 $
Tarif vidéo (input par seconde)	0,000263 $	0,00263 $
Tarif audio (input par seconde)	0,000025 $	0,00025 $

La clé : arbitrer entre performance et coût

Google propose désormais une gamme complète de modèles de langage multimodaux Gemini, adaptés à différents besoins et cas d'usage. Les versions 1.5, plus récentes, offrent les meilleures performances en termes de compréhension multimodale (texte, image, vidéo, audio) et de capacité de contexte, avec un avantage en rapidité pour la déclinaison "Flash". Les modèles 1.0 restent pertinents pour des applications plus basiques ne nécessitant que du texte en entrée, avec éventuellement des images pour la version "Vision". Le pricing, bien que complexe, s'avère globalement proportionnel aux capacités de chaque modèle.

Pour choisir la bonne version de Gemini, il faut donc bien analyser ses besoins en termes de modalités traitées, de taille de contexte, de temps de réponse souhaité et de budget. Un arbitrage est nécessaire entre performance et coût.