L'IA à Google I/O : beaucoup d'annonces, pas mal de flou

Gemini, Gemma, Astra… Google a dévoilé de nouveaux outils d'intelligence artificielle pour rivaliser avec ses principaux concurrents. Sans vraiment de calendrier et avec certains produits qui semblent redondants.

Une première réponse à OpenAI. Quelques semaines après Next, Google refait le plein d'annonces IA. Lors de sa conférence développeur I/O, Google a dévoilé ce mardi 14 mai de nouveaux outils basés sur l'IA générative qui viendront s'intégrer dans son écosystème. Pour l'occasion, le géant du numérique a même repoussé ses annonces sur Android 15 au jour suivant. Nous vous compilons dans cet article les principales annonces autour de l'intelligence artificielle.

Google One AI Premium : un abonnement Gemini pour la France

Google lance en France Google One AI Premium. L'abonnement, facturé 21,99 euros par mois, inclut notamment l'accès au modèle Gemini 1.5 Pro, capable de traiter jusqu'à 1 million de tokens simultanément. Google One AI Premium offre également 2 To d'espace de stockage partagé pour toute la famille, ainsi qu'un accès anticipé aux nouvelles fonctionnalités Gemini, comme son intégration dans Gmail, Google Docs ou encore Google Messages. L'entreprise prévoit également le lancement prochain de Gemini Live, un concurrent direct de ChatGPT Voice.

Project Astra : la réponse au Voice Mode de ChatGPT

C'est la principale annonce de la nuit. Astra est un assistant audio intelligent développé par Google DeepMind. Ce nouvel assistant est, comme le Voice Mode de ChatGPT, multimodal. Il peut comprendre rapidement une vidéo en direct depuis une application intégrée directement sur le téléphone. Il répond aux questions avec une latence réduite et comprend globalement très bien le monde qui l'entoure.

Astra est pensé par DeepMind comme un assistant intelligent universel. Pour le moment, aucune publication de l'assistant n'est prévue. Google va déployer les fonctionnalités d'Astra progressivement dans son assistant Gemini (sur Android). Un test serait également en cours pour l'ajouter à de potentielles nouvelles Google Glass. Comment Astra et Gemini Live s'articulent ? On avoue que cela nous paraît flou.

Veo : un modèle pour la génération de vidéo

Veo est la réponse directe à Sora d'OpenAI. Le modèle de Google est capable de générer des vidéos HD en 1080P avec un simple prompt. Selon les équipes, le modèle aurait une compréhension fine du langage naturel et pourrait produire des éléments très précis, idéaux pour la production cinématographique. Le modèle serait à l'état de l'art en génération de vidéo photoréalistes, assure Google.

Dans le même temps Google annonce l'arrivée d'Imagen 3, une mise à jour du modèle maison de génération text-to-image. Là aussi, le modèle aurait des capacités photoréalistes proche de l'état de l'art ainsi qu'une très bonne compréhension du prompt. Les visuels partagés par Google sont véritablement bluffants, proches de ceux produits par la dernière version en date de Midjourney.

Du nouveau pour Gemini

Google I/O a été l'occasion d'introduire Gemini 1.5 Flash. Comme son nom l'indique, Gemini Flash est le modèle le plus rapide des LLM de Google. Le modèle est optimisé pour recevoir un grand volume et grande fréquence de requêtes. C'est le nouveau modèle le plus efficient en termes de performance / coût chez Google. Il supporte comme Gemini 1.5 l'input d'images, de vidéos et de sons. Il est en réalité dérivé directement de Gemini 1.5 Pro.

Gemini 1.5 Pro bénéficie également d'une belle mise à jour. Le modèle le plus puissant de Google peut maintenant traiter jusqu'à 2 millions de tokens de contexte. Ses capacités en génération de code, compréhension multimodale et son raisonnement logique ont été drastiquement améliorés. Il peut maintenant suivre des instructions plus complexes et nuancées.

Dans le même temps, Gemini Nano se dote d'une nouvelle modalité : l'image. Le modèle lancé prochainement on-premise dans le Google Pixel sera doté d'une bonne compréhension des images.

La poursuite de l'open source avec Gemma 2

Google n'abandonne pas pour autant l'open source. Le nouveau géant de l'IA annonce une mise à jour de Gemma, sa famille de modèle open source dérivée de Gemini. Doté de - seulement - 27 milliards de paramètres, Gemma 2 offre des performances comparables à Llama 3 70B. Le modèle est optimisé pour une efficience maximale sur les GPU NVIDIA. Il peut également être inféré depuis un seul TPU Google.

Google présente dans la foulée PaliGemma, un nouveau modèle de vision et de langage open source. Inspiré par le modèle PaLI-3, PaliGemma s'appuie sur des composants open source comme le modèle de vision SigLIP et le modèle de langage Gemma. Promis à de hautes performances d'apprentissage fin sur une large gamme de tâches combinant vision et langage, le modèle se distingue par ses capacités en matière de légende d'images et de vidéos, de réponse à des questions visuelles, de compréhension de texte dans les images, de détection d'objets et de segmentation.

Une image contenant chat, nourriture, Snack, produits de boulangerieDescription générée automatiquement — © Capture d'écran / JDN

Google IA Overviews : la recherche web assistée par IA

Google IA Overviews , un nouveau naming pour la SGE. Au-delà de la simple recherche d'informations, Google cherche à repousser les limites de ce que la recherche peut offrir. Grâce à Gemini, Google Search peut désormais prendre en charge des tâches complexes comme la planification de repas et de voyages. Les utilisateurs peuvent ainsi demander des recommandations détaillées, puis facilement personnaliser et exporter ces plans.

Google va encore plus loin en utilisant l'IA générative pour organiser dynamiquement les pages de résultats de recherche, en regroupant les contenus de manière pertinente sous des titres uniques. Cela permet d'explorer plus facilement une grande diversité de perspectives et de formats, que ce soit pour trouver de nouvelles idées de restaurants, de films ou de voyages. Enfin, Google intègre la capacité de rechercher visuellement en utilisant des vidéos. Les utilisateurs pourront simplement montrer un problème technique à résoudre, par exemple, et obtenir des instructions étape par étape pour le réparer.

Un point sur les dates

Pour le project Astra, aucune date officielle n'a été dévoilée par Google. Les fonctionnalités présentées lors de la Google I/O devraient être déployées au fur et à mesure dans l'assistant Gemini sur Android et possiblement dans une nouvelle édition des Google Glass. Veo le modèle vidéo de Google est disponible pour une sélection réduite de testeur en preview dans VideoFX. Une liste d'attente a été mise en place. De son côté, Imagen 3 est disponible dans ImageFX également auprès de certains testeurs.

Google Gemini 1.5 Pro et 1.5 Flash sont disponibles en preview publique dans Google AI Studio et Vertex AI. La version 2 millions de tokens est sur liste d'attente. Côté open source, PaliGemma est disponible dès aujourd'hui au téléchargement depuis GCP ou Hugging Face. Gemma 2 le sera dans les prochaines semaines. Google IA Overviews, la recherche web organisée par IA est déployée sur le web aux Etats-Unis. Aucune date pour la France et l'Europe n'ont été annoncées.