Comment Amazon entend détrôner Microsoft et Google dans les modèles de fondation

Le groupe de Seattle annonce Titan Image generator, son propre modèle de génération d'images. Sa plateforme cloud d'IA introduit aussi le support de Claude 2.1 et de Llama 70b.

A l'occasion de Re:Invent, son événement mondial qui se tient du 27 novembre au 1er décembre à Las Vegas, Amazon Web Services (AWS) a déroulé une série d'annonces autour des modèles de fondation. Le cloud de Seattle entend ainsi combler son retard sur Google et Microsoft sur ce terrain.

Une première série d'annonces concerne les modèles de fondation Titan développés par Amazon. La principale d'entre elles ? Titan intègre désormais un générateur d'images. Baptisé Titan Image Generator, il est disponible en préversion. Au-delà de la génération d'images à partir de prompts, il permet de faire de la retouche. "Il est possible par exemple de remplacer des détails, comme insérer une planche de surf dans une scène de plage ou remplacer des montagnes par une forêt en arrière-plan d'une publicité automobile", indique-t-on chez Amazon. Des retouches qui ne sont pas aussi précises via Midjourney ou encore Dall-E, le modèle de génération d'images d'OpenAI.

La vectorisation multimodale

En cohérence avec les engagements pris par AWS auprès de la Maison Blanche, Titan Image Generator applique un filigrane invisible à chaque cliché généré pour contribuer à réduire la propagation de la désinformation. Objectif : fournir un mécanisme discret permettant d'identifier les images générées par l'IA. Une initiative qu'il convient de saluer. Pour l'heure, Midjourney et Dall-E n'intègrent pas ce type de mécanisme.

"Nous nous engageons par ailleurs à indemniser les clients qui seraient confrontés à des plaintes autour de la violation de copyright lors de l'utilisation de Titan Image Generator", souligne Stephan Hadinger, directeur head of technology chez AWS.

Autre annonce concernant Titan : la prise en charge de la vectorisation multimodale. Jusqu'ici, seuls les textes étaient supportés par l'environnement. Désormais, c'est aussi le cas des images. Baptisée Titan Multimodal Embeddings, cette fonctionnalité permet de mettre en œuvre une recherche intelligente (Rag) ou un prompting intégrant à la fois du texte et de l'image. "Une société de photographie possédant des centaines de millions de clichés pourra par exemple utiliser ce modèle pour alimenter sa fonctionnalité de recherche. Ses équipes pourront dénicher des images à l'aide d'une phrase, d'une image ou d'une combinaison d'image et de texte. Elles pourront per exemple demander 'des images similaires' à une image chargée en entrée, mais 'avec un ciel ensoleillé'".

"Avec Claude 2.1, le nombre d'hallucinations a été divisé par 10. Et le nombre de tokens supportés a été multiplié par deux, pour atteindre 200 000"

Llama 2 70b fait par ailleurs son entrée dans Amazon Bedrock, la solution d'AWS dédiée au management des modèles de fondation. C'est également le cas de Claude 2.1. "Avec cette nouvelle version, le nombre d'hallucinations a été divisé par 10. Et le nombre de tokens supportés a été multiplié par deux, pour atteindre 200 000, ce qui représente environ 150 000 mots qui peuvent être ingérés par des prompts", reconnaît Stephan Hadinger. "Cette taille est sans équivalent sur le marché. Les LLM prennent en général en charge des prompts de quelques dizaines de milliers de token." Par comparaison, GPT-4 supporte, lui, jusqu'à 32 000 tokens.

Claude est édité par la start-up américaine Anthropic, une société dans laquelle Amazon a annoncé son intention d'investir 4 milliards de dollars en septembre 2023. Un partenariat qui n'est pas seulement financier. Il est aussi industriel. AWS est en effet le seul cloud à intégrer nativement Claude par le biais d'une instance dédiée. Une stratégie qui se dessine en miroir de celle de Microsoft avec OpenAI, et l'intégration de ChatGPT au cloud Azure du géant de Redmond.

Pour évaluer les modèles, AWS adjoint par ailleurs à Bedrock un tout nouveau produit. Baptisé Model Evaluation, il permet de comparer les modèles de fondations entre eux. Il est proposé en deux modes : manuel ou automatique. Dans la console Bedrock, il suffit de choisir les modèles à comparer pour une tâche donnée, telle que la réponse aux questions ou la synthèse de contenu. Pour les évaluations automatiques, les clients sélectionnent des critères d'évaluation prédéfinis (précision, robustesse ou toxicité) et téléchargent leur propre jeu de données de test ou des ensembles de données disponibles sur le web.

Optimiser les temps d'entrainement GPU

Pour des critères subjectifs ou un contenu nuancé nécessitant un jugement sophistiqué, Model Evaluation déploie des flux de travail basés sur de l'humain. Ces derniers peuvent recourir à la main-d'œuvre interne d'un client ou à une main-d'œuvre fournie par AWS pour évaluer les réponses des modèles. Pour piloter ces évaluations, Model Evaluation permet de définir des métriques spécifiques au cas d'utilisation (par exemple la pertinence, le style ou le caractère de la marque). Une fois le processus de configuration achevé, Amazon Bedrock exécute les évaluations et génère un rapport, permettant aux clients de comprendre comment le modèle s'est comporté selon les critères définis dans le cadre de tel ou tel cas d'usage.

Et ce n'est pas fini. La plateforme cloud d'IA Amazon SageMaker introduit une solution conçue pour optimiser l'apprentissage des grands modèles. Baptisée SageMaker HyperPod, elle anticipe les erreurs de traitement. Concrètement, le process de learning est réparti sur des centaines voire des milliers de GPU. Ces derniers exécutent des trillions de calculs de données en parallèle pendant des semaines voire des mois. Quand une erreur intervient, il est nécessaire de revenir au checkpoint précédent, ce qui peut faire perdre plusieurs heures. "SageMaker HyperPod permet de réaliser des checkpoints beaucoup plus fréquents pour minimiser la perte de temps en cas de défaillance d'un nœud. L'idée est aussi d'automatiser la gestion de ces pannes et d'éviter les interventions manuelles pour les corriger", détaille Stephan Hadinger. Amazon se positionne ainsi sur l'ingénierie d'entrainement des modèles de fondation. Un domaine qui était jusqu'ici la chasse gardée de Microsoft et de Google.

Comment Amazon entend détrôner Microsoft et Google dans les modèles de fondation

La vectorisation multimodale

Optimiser les temps d'entrainement GPU

Guides

Repères