Trois modèles de différentes tailles sont proposés pour le modèle d'intelligence artificielle multimodal.

Il aura fallu plus d'un an, mais Google est bel et bien de retour dans la course à l'IA générative. Google a dévoilé ce mercredi 6 décembre son modèle d'intelligence artificielle multimodal nommé Gemini. "Nous franchissons aujourd'hui l'étape suivante de notre aventure grâce à Gemini, notre modèle le plus performant et le plus général à ce jour, avec des performances de pointe dans de nombreux critères de référence. Cette nouvelle ère de modèles représente l'un des plus grands efforts scientifiques et techniques que nous ayons entrepris depuis la création de Google", se félicite Sundar Pichai, le CEO du groupe.

Trois types de modèles différents

Pour l'occasion ce n'est pas un mais trois modèles qui sont présentés :

Gemini Ultra, modèle le plus performant destiné aux tâches les plus complexes

Gemini Pro, un modèle polyvalent adapté à une variété de tâches différentes

Gemini Nano, le plus performant en terme de compute, développé pour les tâches embarquées (pour être exécuté depuis un appareil)

Trois modèles différents sont présentés. © Google

Gemini a été développé en lien avec plusieurs secteurs dédiés à l'IA au sein du groupe. Le modèle présente une avancée majeure dans le domaine en matière de multimodalité. L'IA est en capacité de traiter à la fois du texte, du code, des images et plus surprenant de la vidéo et de l'audio. "Cette approche confère à Gemini une capacité de compréhension et de raisonnement sur tous types d'entrées. C'est pour cela que ses performances dépassent de loin celles des modèles existants, et que ses capacités repoussent les limites de l'état de l'art dans presque tous les domaines", explique Demis Hassabis, PDG et co-fondateur de Google DeepMind.

Gemini bat GPT-4 sur la majorité des benchmarks

Google l'avait annoncé, les benchmarks le confirment : Gemini dépasse GPT-4 sur une majorité de cas d'usage. Dans la catégorie générale, Gemini Ultra surpasse GPT-4 avec un score de 90% sur le benchmark MMLU, qui évalue la compréhension de questions dans 57 sujets, contre 86,4% pour GPT-4. Pour le raisonnement, Gemini Ultra obtient 83,6% sur Big-Bench Hard, légèrement supérieur à GPT-4 qui a 83,1%. Dans la catégorie mathématiques, Gemini Ultra obtient 94,4% sur GSM8K, qui concerne les manipulations arithmétiques de base, y compris les problèmes de niveau scolaire, comparativement à 92,0% pour GPT-4. Sur des problèmes de mathématiques plus difficiles (benchmark MATH), Gemini Ultra affiche un score de 53,2% contre 52,9% pour GPT-4, des résultats relativement similaires. Enfin, pour la génération de code Python, sur HumanEval, Gemini Ultra a un score de 74,4%, surpassant GPT-4 qui a 67,0%. Sur Natural2Code, Gemini Ultra maintient son avance avec 74,9% contre 73,9% pour GPT-4.

Gemini bat GPT-4 sur de nombreuses taches. © Google

Selon Google, Gemini offre des performances avancées en matière "de filtrage et de compréhension des informations." Il est capable de parcourir de grandes bases de données documentaires afin d'extraire des informations précises, le tout très rapidement. Enfin, comme GPT-4, Gemini a des capacités en développement poussées, dans la majorité des langages de programmation (Python, Java, C++++ ou Go notamment). Le modèle peut être utilisé "comme moteur pour des systèmes de codage plus avancés."

Gemini rattrape donc GPT-4 sur une majorité de tâches complexes. Gemini Ultra semble avoir un avantage dans les tâches générales et la résolution de problèmes mathématiques de base, tandis que GPT-4 brille dans des tâches nécessitant un raisonnement de bon sens plus nuancé.

Comment tester Gemini ?

Google va déployer progressivement Gemini dans ses produits. A commencer par Bard qui est censé bénéficier dès ce 6 décembre, dans sa version anglaise, de l'intégration native de la version Pro du modèle. De nouvelles fonctionnalités multimodales devraient arriver dans les prochains mois au fil des prochaines mises à jour, annonce Google. Enfin, la firme de Mountain View va intégrer la version Gemini Nano dans son Pixel 8 Pro pour supporter de nouvelles fonctionnalités intelligentes.

Dans les prochains mois, Gemini fera son apparition également au sein de Google Search, Ads, Chrome ou encore Duet AI notamment. L'expérience SGE commence également à intégrer le modèle Gemini afin de booster la vitesse de génération des résultats d'environ 40%. Pour les développeurs, Gemini Pro sera accessible par le biais d'une API à compter du 13 décembre, depuis le Google AI Studio ou dans Google Cloud Vertex AI. Les développeurs mobiles pourront quant à eux profiter des capacités de Gemini Nano au sein de la nouvelle fonctionnalité AICore.

La version Ultra de Gemini, la plus puissante des trois, n'est pas encore disponible pour le grand public. Avant de déployer ce modèle, Google mène encore de nombreux tests, notamment "de red teaming par des tiers de confiance, et des ajustements du modèle avec des réglages fins et un apprentissage par renforcement à partir de la rétroaction humaine (RLHF, reinforcement learning from human feedback)", détaille Demis Hassabis. Seuls quelques tiers de confiance sélectionnés par Google peuvent d'ores et déjà tester le modèle. La version Ultra sera proposée début 2024. Le modèle intégrera pour l'occasion Bard Advanced, "une nouvelle expérimentation avant-gardiste" qui exploitera les meilleurs modèles de la firme.