Génération de code, analyse d'images, tarifs... Les atouts de Google Gemini 1.0 Ultra

Le modèle multimodal de Google offre une alternative intéressante à GPT-4 d'OpenAI. L'IA se démarque par sa capacité à appréhender les tâches complexes.

Ce n'est pas une constellation, mais il brille déjà par ses capacités. Annoncé en décembre 2023 par Google, Gemini est progressivement déployé dans les outils de la firme depuis le début de l'année. La version Ultra, la plus capable des trois (Pro, Nano, Ultra) est déployée auprès des utilisateurs de Google Gemini Advanced, l'équivalent de ChatGPT Plus chez Google. Un abonnement pour l'heure encore inutilisable en France.

Un prompting étape par étape

Gemini Ultra 1.0 se démarque par sa capacité à comprendre et répondre avec précision à des demandes complexes. Une faculté qui permet à l'IA de gérer assez finement le code, le raisonnement logique et les nuances au sein d'un prompt, selon Google. Gemini Ultra comprend également beaucoup mieux le contexte de la conversation globale en analysant les précédentes discussions. Le modèle introduit une nouvelle manière de prompter. En indiquant étape par étape le raisonnement à suivre l'IA sera plus pertinente et aura la capacité de gérer des situations complexes. Gemini Ultra n'a (officiellement) la capacité de traiter que de l'anglais. Selon nos tests, l'IA de Google gère plutôt bien le français.

Le rapport technique rédigé par les chercheurs de DeepMind évoque la supériorité de Gemini sur 30 des 32 benchmarks menés. Depuis la publication du rapport, de l'eau a coulé sous les ponts et Google a dévoilé une version supérieure, Gemini 1.5, encore plus performante. Anthropic est également passé par là avec Claude 3. De nouveaux modèles qui remettent en jeux l'état de l'art de Gemini Ultra 1.0 sur de nombreux benchmarks. Nonobstant, Gemini 1.0 reste encore en mars 2024 l'un des meilleurs LLMs actuellement disponible sur le marché. Ses capacités multimodales restent par exemple excellentes pour une flopée de cas d'usages.

Une maitrise du français inférieure à Mistral Large

Dans le cadre de ce test, nous avons pu accéder à Gemini Ultra 1.0 via Google Gemini Advanced, depuis les Etats-Unis. L'interface proposée par Google est similaire à celle de ChatGPT à une différence près : elle est davantage intuitive. L'utilisateur d'un abonnement Advanced a le choix entre la version gratuite de Gemini (Pro) et la version Advanced (Ultra). Dans Gemini sur le web, Gemini Ultra est directement connecté à Internet via les résultats Google. L'IA a donc accès aux documents du web et aux dernières informations.

En génération de texte, en français, Gemini Ultra n'est pas à la hauteur d'un Claude 2 (et encore moins de Claude 3) mais se hisse près de Mistral Large. Le texte généré est structuré de façon très logique, dans la tradition des modèles made in Google. Le gap est notable entre Gemini Pro et Gemini Ultra dans la variété du vocabulaire employé et dans la fluidité des phrases. Gemini Ultra produit un texte fiable, tout à fait utilisable en l'état. Il ne reproduit par les erreurs de GPT-4 et ne sème pas de connecteurs logiques à tout bout de champ.

Prompt : Write a 1000-word article in French with the angle: new SEO practices in 2024 in the age of generative AI. © Capture d'écran / JDN / Gemini

En résumé et compréhension de texte, Gemini Ultra s'en sort assez bien et parvient à comprendre la structure globale d'un article complexe. L'IA manque cependant de précision et de finesse sur le résumé de notions à faible récurrence. L'IA démontre peut-être une légère faiblesse sur l'attention à la fenêtre globale de contexte. Un sujet travaillé en profondeur par les équipes d'Anthropic avec Claude 3.

Une image contenant texte, capture d’écran, PoliceDescription générée automatiquement — Prompt : Can you concisely and effectively summarize in French this article ? © Capture d'écran / JDN / Gemini

On regrette également l'impossibilité de soumettre à l'IA des fichiers PDF en mode RAG dans Gemini Advanced. Une fonctionnalité offerte par les deux principaux concurrents de Gemini.

En génération de code, Gemini Ultra 1.0 offre des capacités surprenantes. L'IA produit un code robuste, propre, bien commenté et indenté, le tout du premier coup. La différence entre Gemini Ultra et Pro se mesure dans la structure globale. Le code produit par Gemini Ultra est, selon nos différents tests, efficace et optimisé quand celui produit par Gemini Pro est légèrement plus gourmand en ressource. La différence de performance entre Gemini Pro et Ultra est cependant négligeable pour une utilisation au quotidien. Les deux LLMs peuvent être utilisés pour générer du code, pour du code review ou encore pour débusquer un bug.

Prompt : Generates the C code of a strong random password generator. © Capture d'écran / JDN / Gemini

Une multimodalité ultra-efficace

Comme la majorité des LLMs propriétaires en 2024, Gemini Ultra est doté de capacités multimodales. Ces dernières sont assez époustouflantes. Nos tests démontrent une fiabilité et une précision jusqu'alors inégalée dans la description d'images complexes. En soumettant à l'IA une capture d'écran d'un ordinateur quantique, sans lui donner d'informations supplémentaires, l'IA parvient à reconnaitre le modèle exact et le constructeur.

L'analyse des images est telle qu'il est possible de localiser assez précisément l'emplacement géographique d'une photographie. Gemini Ultra parvient à retrouver, à partir d'un petit faisceau d'indices la localisation possible d'une majorité d'images que nous lui avons soumises.

Un pricing au caractère

Google propose des formules intéressantes pour utiliser Gemini Ultra. Il est possible d'accéder au modèle de Google dans Google AI Studio… gratuitement. En dessous de 60 requêtes par minute, le service est entièrement gratuit. Attention cependant, les prompts et les réponses échangés sont utilisés pour améliorer le modèle. Cette offre ne garantit donc aucune confidentialité. Pour une utilisation commerciale, Google propose une formule pay-as-you-go, accessible à 0,000125 dollar le millier de caractères (et non de tokens) en input et 0,000375 en output. Les images coutent 0,0025 dollar à l'unité.

Google Gemini Ultra est également disponible en anglais, avec un compte Google enregistré aux Etats-Unis avec l'abonnement Gemini Advanced à 19,99 dollars par mois.

Une image contenant texte, capture d’écran, multimédia, Appareil de communicationDescription générée automatiquement — © Capture d'écran / JDN / Google

Un bon modèle pour le code et l'analyse multimodale

Bien que Gemini 1.0 Ultra ne soit plus tout à fait à l'état de l'art en mars 2024 face aux dernières avancées d'Anthropic et à l'arrivée de Gemini 1.5, il n'en reste pas moins extrêmement capable et figure en très bonne place dans le peloton de tête des IA génératives. Il pèche encore en génération et compréhension de texte (en français) mais offre des très bons résultats en génération de code et en analyse multimodale. Google propose en outre des formules tarifaires flexibles et abordables, rendant ce puissant modèle accessible à un large public.