Amélioration de Gemini 2.5, nouveau mode Deep Think, généralisation de AI Overviews aux Etats-Unis… Google frappe fort cette année avec un très grand nombre d'annonces sur l'IA générative.

Google I/O, la grand-messe annuelle de Google pour les développeurs, s'est tenu ce 20 mai au siège de l'entreprise à Mountain View. Et comme en 2024, le groupe a mis l'accent sur l'intelligence artificielle générative. De la recherche web au shopping en passant par le code, voici les nouveautés qui ont retenu l'intérêt du JDN.

Une nouvelle mise à jour de Gemini 2.5

Google améliore considérablement ses modèles Gemini 2.5 Pro et Flash. La version Flash utilisera 20 à 30% moins de tokens. 2.5 Flash et 2.5 Pro, eux, bénéficieront de la modalité audio en sortie pour une expérience de conversation encore plus naturelle, à la voix.

Mais la grande nouveauté réside dans le lancement de Deep Think, un mode de raisonnement avancé pour Gemini 2.5 Pro, capable de considérer plusieurs hypothèses avant de répondre. Le mode applique un processus de "pensée parallèle" qui évalue différentes pistes de réflexion. Dans l'immédiat, Deep Think sera accessible uniquement pour les testeurs de confiance, avant un déploiement général dans les prochains mois. Enfin, Google annonce également le déploiement du protocole MCP dans le SDK de l'API Gemini.

L'objectif ultime de Google est de transformer Gemini en un "assistant IA universel" capable de comprendre le contexte de l'utilisateur, de planifier et d'agir en son nom sur n'importe quel appareil. "Nous travaillons à étendre notre meilleur modèle de fondation multimodal, Gemini 2.5 Pro, pour en faire un world model capable de planifier et d'imaginer de nouvelles expériences en comprenant et en simulant les aspects du monde, tout comme le fait le cerveau humain", explique Demis Hassabis, CEO de DeepMind.

La génération native d'audio avec Veo 3 et l'arrivée d'Imagen 4

Google profite de I/O pour annoncer deux nouveaux modèles : Veo 3 pour la génération de vidéo avec ambiance sonore et Imagen 4 pour la génération d'image. Veo 3 devient le premier modèle capable de générer non seulement des images animées (vidéo) mais également des sons et des dialogues. Le modèle peut ainsi intégrer des bruits de fond (oiseaux, voitures, avions…) et des conversations entre personnages. Enfin le réalisme monte encore d'un cran avec un modèle probablement SOTA en photoréalisme à sa sortie.

Côté Imagen, la 4e version arrive avec des améliorations significatives en termes de qualité et de précision. Le modèle parvient à générer des images avec un piqué exceptionnel (impression de netteté). Imagen 4 peut également générer des images avec des résolutions allant jusqu'à 2k. Parfait pour des impressions de bonne facture (une des principales limites des précédents modèles de génération d'images). Les modèles sont disponibles dès aujourd'hui.

Généralisation de l'AI Mode aux Etats-Unis

Côté SEO Google annonce le déploiement de l'AI Mode (à ne pas confondre avec AI Overviews) dans sa recherche pour tous les utilisateurs aux Etats-Unis. Accessible depuis un nouvel onglet dédié sur les pages de recherche et dans l'application Google, l'AI Mode permet de rechercher en profondeur des informations sur un sujet, en utilisant l'IA générative. L'IA propose des résumés sourcés et contextualisés.

AI Overviews dans 200 pays

Google déploit sa nouvelle expérience de recherche basée sur l'IA générative dans 200 pays et désormais plus de 40 langues. Google affirme que l'utilisation de la recherche avec AI Overviews a déjà généré une augmentation de plus de 10% des requêtes. Le géant de Mountain View précise par ailleurs que les résultats AI Overviews sont maintenant générés à une vitesse proche des recherches traditionnelles.

Une nouvelle expérience d'achat

Enfin, Google en profite pour présenter le checkout agentic, une nouvelle fonctionnalité dans l'expérience shopping qui permettra aux utilisateurs de suivre automatiquement le prix d'un produit et de procéder à l'achat de manière autonome. En définissant des critères (taille, couleur, budget), l'utilisateur peut demander à l'IA de surveiller les prix et de finaliser l'achat au bon moment. La fonctionnalité sera lancée dans les prochains mois dans l'AI Mode aux Etats-Unis. Pour l'heure, seules les plateformes Ticketmaster, StubHub et Resy seraient compatibles.

Amélioration de Gemini dans Workspace (Gmail, Meet, Deep Research)

Gemini dans Workspace s'améliore encore. Dans Gmail, Gemini va pouvoir générer des réponses aux emails plus intelligentes adaptées à votre ton personnel. L'IA utilisera vos réponses précédentes pour comprendre votre style d'écriture.

Google Meet fait également un bond en avant avec l'intégration de la traduction vocale instantanée. Il est maintenant possible de traduire en temps réel les conversations entre différentes langues, tout en préservant la voix, le ton et les nuances de chaque intervenant. La fonctionnalité est disponible initialement pour les abonnés Google AI Pro et Ultra en Anglais et en Espagnol.

Enfin, dans l'application Gemini, le mode Deep Research s'enrichit de nouvelles capacités. Il est désormais possible d'intégrer ses propres PDF ou images dans la recherche avancée. Les données de l'utilisateur seront alors croisées avec l'ensemble des sources parcourues sur le web pour fournir un rapport encore plus complet et personnalisé.

Un nouveau plan à 250 dollars par mois

Google introduit Google AI Ultra, un nouveau forfait premium à 249,99 dollars par mois aux Etats-Unis avec des capacités d'IA étendues. Le forfait se place dans la lignée des offres premiums d'OpenAI et d'Anthropic à 200 dollars par mois. L'abonnement offre l'accès aux modèles IA les plus performants en priorité et aux fonctionnalités expérimentales. Il permet par exemple d'accéder en exclusivité à Veo 3 ou au mode Deep Think de Gemini 2.5 Pro notamment. Les utilisateurs de Google AI Ultra seront également les seuls à pouvoir accéder au Project Mariner, l'équivalent d'Operator d'OpenAI chez Google.

En parallèle, l'ancien plan AI Premium, désormais rebaptisé Google AI Pro, bénéficie de nouvelles fonctionnalités sans surcoût. Les abonnés Google AI Pro auront notamment accès aux capacités de montage vidéo de Flow avec le modèle Veo 2, ainsi qu'un accès anticipé à Gemini dans Chrome (l'assistant sera disponible à la demande dans le navigateur).

Jules, un assistant de code

Enfin, Google présente à son tour son agent de code autonome : Jules. Comme Codex d'OpenAI, Jules peut s'intégrer directement aux dépôts de code existants, comprendre le contexte complet d'un projet, et réaliser des tâches complexes de développement. Il utilise, comme l'outil d'OpenAI (encore) une machine virtuelle pour réaliser l'ensemble des tâches de façon asynchrone. L'outil, basé sur Gemini 2.5 Pro, est disponible en bêta publique, sans liste d'attente.