Gemini 1.5 Pro, 1.0 Ultra… Quel modèle Google choisir ?

Gemini 1.5 Pro, 1.0 Ultra… Quel modèle Google choisir ? Présenté en décembre 2023, la nouvelle famille de LLM made in Google évolue rapidement. Contexte, modalité, vitesse… Le JDN vous aide à y voir plus clair.

Comment se repérer dans la jungle des modèles Gemini ? Depuis la publication du premier modèle Gemini, Google a rapidement fait évoluer sa gamme. Le géant de Mountain View entend devenir leader du marché sur MLLM, ces nouveaux modèles capables de comprendre une flopée de modalités (vidéo, son, image…). A l'heure actuelle, quatre versions différentes de Gemini sont proposées au public : Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro et Gemini 1.0 Pro Vision.

Pour donner un peu plus de sens à ce naming complexe, et comprendre quel est LE modèle adapté à vos besoins, voici un petit guide pour vous aider à faire votre choix. Vous devriez y trouver le modèle qui correspond le mieux à vos attentes en termes de performances, de vitesse et de cas d'usage.

Quatre modèles, une multitude de cas d'usage
Modèle Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro  Gemini 1.0 Pro Vision
Code   X X  
Tâches complexes   X X  
Tokens de contexte 1 million 1 million ou 2 millions sur liste d'attente 32 000 12 288
Modalité (input) Texte, image, vidéo, audio Texte, image, vidéo, audio Texte Texte et image
Latence Faible Modérée Importante Importante
Support du JSON X X    
Dernière MAJ avril-24 avril-24 février-24 NC
Disponibilité sur GCP Preview Preview Publique  Publique 

Nous avons délibérément choisi de ne pas inclure Gemini 1.0 Ultra, maintenant déprécié et non disponible dans Vertex AI. De même Gemini Nano n'est disponible que pour certains clients de Google Cloud pour une utilisation exclusivement on-premise (sur mobile). La famille Google Gemma open source fera quant-à-elle l'objet d'un prochain comparatif.

Un pricing pour le moins complexe

Qui dit multimodalité dit pricing compliqué. Les MLLM de Google sont facturés au token et selon la nature de l'input adressé au modèle. A noter également que Google, pour complexifier un peu plus, propose une tarification supérieure pour les inputs dépassant les 128 000 tokens.

Prix pour un contexte inférieur à 128 000 tokens
Modèle Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro

Gemini 1.0 Pro Vision

Tarif texte (input) 0,000125 $ 0,00125 $ 0,000125 $ 0,000125 $
Tarif texte (ouput de 1 000 caractères) 0,000375 $ 0,00375 $ 0,000375 $ 0,000375 $
Tarif image (input par image) 0,0001315 $ 0,001315 $ NP 0,0025 $
Tarif vidéo (input par seconde) 0,0001315 $ 0,001315 $ NP NP
Tarif audio (input par seconde) 0,0000125 $ 0,000125 $ NP NP
Prix pour un contexte supérieur à 128 000 tokens
Modèle Gemini 1.5 Flash Gemini 1.5 Pro
Tarif texte (input de 1 000 caractères) 0,00025 $ 0,0025 $
Tarif texte (ouput de 1 000 caractères) 0,00075 $ 0,0075 $
Tarif image (input par image) 0,000263 $ 0,00263 $
Tarif vidéo (input par seconde) 0,000263 $ 0,00263 $
Tarif audio (input par seconde) 0,000025 $ 0,00025 $

La clé : arbitrer entre performance et coût

Google propose désormais une gamme complète de modèles de langage multimodaux Gemini, adaptés à différents besoins et cas d'usage. Les versions 1.5, plus récentes, offrent les meilleures performances en termes de compréhension multimodale (texte, image, vidéo, audio) et de capacité de contexte, avec un avantage en rapidité pour la déclinaison "Flash". Les modèles 1.0 restent pertinents pour des applications plus basiques ne nécessitant que du texte en entrée, avec éventuellement des images pour la version "Vision". Le pricing, bien que complexe, s'avère globalement proportionnel aux capacités de chaque modèle.

Pour choisir la bonne version de Gemini, il faut donc bien analyser ses besoins en termes de modalités traitées, de taille de contexte, de temps de réponse souhaité et de budget. Un arbitrage est nécessaire entre performance et coût.