Will Grannis (Google Cloud) "Google Cloud souhaite collaborer étroitement avec des acteurs majeurs, comme c'est déjà le cas avec Mistral"

Will Grannis est le chief technology officer de Google Cloud. Il dirige une équipe mondiale qui travaille en étroite collaboration avec les plus grands clients de Google sur des impératifs émergents comme l'IA générative et le cloud.

JDN. Gemma dans l'open source, Gemini dans le propriétaire… Quelle est la stratégie de Google Cloud en matière d'IA générative ? Prévoyez-vous de continuer avec l'open source ou de poursuivre avec de l'IA propriétaire ?

Will Grannis est le chief technology officer de Google Cloud. © Google

Will Grannis. Notre stratégie d'IA repose sur trois piliers. Premièrement, mettre le ROI dans l'IA. Pour nous, il ne s'agit pas d'un modèle ou d'une technologie spécifique. Il s'agit de la valeur commerciale et de la manière dont nous créons de la valeur pour nos clients avec l'IA. Deuxièmement, nous souhaitons être le cloud le plus ouvert pour l'IA. Vous avez mentionné un ensemble de modèles que nous avons récemment publiés, mais notre héritage et notre politique d'ouverture sont présents depuis le début. Je suis chez Google Cloud depuis près de neuf ans maintenant. Et en passant de TensorFlow et TensorFlow managé à Kubernetes et Kubernetes managé, nous avons toujours eu de multiples approches que les clients pouvaient adopter en fonction de ce qui était le mieux pour eux.

Le troisième pilier consiste à avoir la meilleure feuille de route, en commençant par l'infrastructure. Nous avons rapidement évolué jusqu'à la version V5 des TPU, ce qui témoigne de la vitesse et de l'importance de nos investissements dans les processeurs. Cette année, nous avons même offert aux clients le choix entre des TPU à haute efficacité et des TPU super puissants. Le dernier élément clé de notre feuille de route est la construction de composants techniques (processeurs, plateforme Vertex pour MLOps) ainsi qu'une stratégie de mise sur le marché. Nous avons mis en place une équipe mondiale dédiée, dirigée par Oliver Parker (AI VP), pour aider nos clients à réussir avec leurs propres solutions d'IA générative.

Prévoyez-vous d'utiliser des architectures autres que Transformer à l'avenir ?

Pour les futures architectures, nous nous concentrerons sur plusieurs aspects clés. L'efficacité : l'architecture Transformer a représenté un bond en avant majeur, rendant le machine learning à grande échelle réalisable sur le plan informatique. Nous continuerons à chercher des moyens d'optimiser l'efficacité des modèles pour permettre un déploiement à grande échelle. La valeur concrète pour les utilisateurs : au-delà de l'efficacité technique, nos modèles et outils doivent apporter une réelle valeur ajoutée aux personnes qui les implémentent. Par exemple, les outils que nous intégrons dans notre plateforme Vertex permettent aux entreprises d'obtenir un retour d'information précieux de la part de leurs clients et de leurs propres équipes internes. Cette boucle de rétroaction est essentielle pour améliorer continuellement les systèmes d'IA.

Nous explorerons toujours des voies de recherche ayant un fort potentiel d'application pratique. Une piste particulièrement intéressante est la combinaison de l'IA générative avec des systèmes de données plus autoritaires, comme des graphes de connaissances. L'IA générative pourrait ainsi s'appuyer sur des sources d'information structurées et fiables pour générer des résultats plus pertinents et précis. C'est un domaine qui nous semble mûr pour l'exploration.

Après les TPU, Google travaille-t-il sur de nouvelles puces spécialement conçues pour l'inférence des modèles d'IA générative ?

Nous allons continuer à investir un montant significatif dans la conception et l'évolution des puces. Les mêmes exigences qui nous ont montré que nous devions construire un TPU pour l'efficacité et un TPU pour la puissance nous ont également conduits à nous assurer de la disponibilité des GPUs. Nous serons toujours très intéressés par les ensembles de puces et les conceptions de puces qui aident vraiment à faire avancer l'industrie. Qu'il s'agisse d'un processeur personnalisé pour le machine learning ou d'un processeur personnalisé pour le transcodage, nous allons continuer à examiner toutes les opportunités que nous pouvons saisir pour accélérer les choses.

Quels seront les principaux projets d'IA au sein de Google Cloud en 2024 ?

La priorité numéro un est de rendre le parcours vraiment fluide pour tous ceux qui construisent avec nous et sur nous. La deuxième priorité est de continuer à faire émerger les capacités de pointe que nous voyons dans DeepMind ou Google Research et de les rendre disponibles dans Google Cloud, comme les modèles. Nous en sommes déjà à Gemini 1.5 alors que nous ne sommes qu'à un peu plus d'un an du début de la grande vague. Vous devez donc vous attendre à ce que nous nous concentrions également sur la rapidité pour nous assurer que nos propres modèles soient disponibles sur la plateforme. Et le troisième domaine est probablement de s'assurer que l'IA est vraiment pragmatique et utile, notamment dans les RH, les systèmes de connaissances en entreprise, les centres de contact, l'automatisation des processus et les flux de travail dans l'industrie.

Comment parvenez-vous à industrialiser et mettre à l'échelle si rapidement les dernières technologies et techniques d'IA en provenance de DeepMind ?

Au sein de Google, mon équipe en particulier a des liaisons dédiées et nous avons en fait plusieurs projets en cours avec DeepMind sur une base quotidienne. Nous nous assurons qu'ils nous demandent ce que nos clients cloud veulent le plus afin qu'ils puissent commencer cette recherche fondamentale et appliquée. De notre côté, nous nous tenons informés de ce qu'ils découvrent, par exemple, dans la science des matériaux.

"Nous avons plusieurs projets en cours avec DeepMind sur une base quotidienne"

Nous travaillons avec des clients en science et technologie, comme la NASA, très intéressés par l'exploration spatiale. Grâce à des clusters Kubernetes et des GPU, nous avons pu caractériser des exoplanètes. Des stagiaires de la NASA en ont même découvert pendant l'été. DeepMind a aussi publié des résultats prometteurs sur les minéraux synthétiques. Cela pourrait révolutionner la conception de puces et les matières premières utilisées.

Prévoyez-vous de continuer d'investir dans les partenariats avec des laboratoires d'IA disruptifs ?

Nous allons maintenir notre rythme soutenu de partenariats, comme ces dernières années. Je viens de rencontrer l'équipe de PhotoRoom, un nouvel exemple d'entreprise bâtissant le futur de l'IA. Vous pouvez vous attendre à ce que nous restions très orientés clients et partenaires. Nous rechercherons activement des opportunités de collaborer étroitement avec des acteurs majeurs du marché comme PhotoRoom ou Mistral.

Comment expliquez-vous la rentabilité récente de Google Cloud ?

Notre rentabilité récente est le résultat d'efforts constants pour répondre aux besoins de nos clients tout en utilisant nous-mêmes les capacités de l'IA. Par exemple, nous déployons l'IA dans notre propre service de support client. Cette utilisation interne nous permet de développer des solutions pertinentes, comme des centres de contact basés sur l'IA, car nous en avons une expérience directe. Cela nous aide également à optimiser l'efficacité de nos propres opérations.

Nous continuerons à chercher des moyens de déployer nos propres outils en interne pour nous assurer que nous gérons l'organisation la plus efficace possible. Aux Etats-Unis, il y a une expression, "eating your own dog food", qui signifie utiliser nos propres produits. Le support est un domaine où nous le faisons. La gestion de la flotte en est un autre. Il s'agit de s'assurer que nous avons le mix optimal de GPU, TPU et CPU pour répondre aux besoins de nos clients, à la fois maintenant mais aussi pour la croissance projetée, et de s'assurer que c'est aussi précis que possible.

Quelles tendances observez-vous dans le domaine du serverless ?

Un cas d'utilisation intéressant que j'ai observé récemment est l'utilisation de fonctions serverless pour invoquer des agents d'IA dans un pipeline de traduction de langue. Ce type de cas d'utilisation combine le meilleur de l'eventing avec du calcul éphémère. Avec la disponibilité croissante d'API plus performantes pour interroger ces systèmes, nous devrions voir de plus en plus d'exemples similaires.

Quel est votre vision du cloud décentralisé ?

Tout comme nous sommes un cloud ouvert, nous devons également être ouverts au fait que le calcul peut se produire à plusieurs niveaux. Le cloud n'est plus seulement considéré comme de grands centres de données, mais plutôt comme omniprésent, que ce soit dans une colocation, un point de présence, un telco edge, ou une appliance distribuée, avec ou sans plan de contrôle centralisé.

"Nous déployons actuellement des services de traduction sur de très petites unités de calcul d'inférence en périphérie"

Un de nos principaux domaines d'investissement a été le cloud souverain, qui intègre la confiance et les contrôles dès le départ. Cela a été un domaine de grande collaboration, même localement, et nous continuerons sur cette voie. Google Distributed Cloud Hosted en est un exemple : nous fournissons aux clients une capacité qui peut être complètement déconnectée, tout en conservant la même interface utilisateur et la même interface en ligne de commande que notre cloud commercial, Google Cloud Platform. La cohérence entre ces différentes couches de calcul est donc un point clé pour nous, en donnant aux utilisateurs la bonne forme et les bons contrôles pour leur charge de travail spécifique.

Nous nous engageons à continuer à apporter de l'innovation à ces périphéries, au-delà des simples piles de calcul. Par exemple, nous déployons actuellement des services de traduction sur de très petites unités de calcul d'inférence en périphérie.

Quelle est votre feuille de route pour les nouvelles régions cloud ?

Nous ne divulguons pas à l'avance les nouvelles régions que nous prévoyons d'ouvrir, mais nous venons d'en lancer une à Johannesburg, en Afrique du Sud. Si vous regardez notre carte d'expansion géographique depuis que j'ai pris mes fonctions, vous verrez que nous sommes passés de seulement une poignée de régions à un nombre bien plus important aujourd'hui. En traçant une ligne, vous pourriez probablement voir une courbe de croissance. Je ne m'attends pas à ce que nous ralentissions cette expansion de sitôt.

Quel sont vos principaux défis techniques dans le cloud en 2024 ?

L'un de nos principaux défis techniques, qui est en réalité un excellent problème, est tout simplement l'offre et la demande. A bien des égards, ce moment ressemble beaucoup à ce que c'était lorsque j'ai commencé chez Google Cloud, où il y avait une demande entrante considérable pour BigQuery, Kubernetes, GKE, toutes ces technologies de pointe à l'époque. L'une de nos grandes opportunités est donc de satisfaire toute cette demande. Cela signifie trouver ces modèles horizontaux

Je pense qu'une autre opportunité vraiment intéressante, dont nous avons déjà discuté, est le partenariat entre les véritables clouds élastiques et les clouds dédiés de type on-premise. Nous offrons une déconnexion complète, un plan de contrôle unique, un plan de contrôle et un plan de données avec une similarité et une cohérence. C'est une frontière vraiment excitante car cela ouvre en quelque sorte cette prochaine vague de croissance du cloud au-delà des charges de travail qui peuvent être complètement dans un grand centre de données de cloud public éphémère et élastique.