Grok : le pari peu concluant de l'IA made in Elon Musk

L'IA développée par xAI est déployée progressivement à l'ensemble des utilisateurs de X (Twitter) Premium+.

Après l'automobile électrique avec Tesla, la medtech avec Neuralink, et les réseaux sociaux avec X, Elon Musk s'attaque à l'IA avec xAI. Fondée en mars dernier, la start-up compte aujourd'hui 16 chercheurs issus d'entreprises renommées dans l'intelligence artificielle dont DeepMind, OpenAI, Google Research, Microsoft Research ou Tesla notamment. Pendant huit mois les chercheurs ont développé Grok, un LLM décalé censé répondre aux questions les plus polémiques. En développant Grok, les ingénieurs de xAI suivent deux principaux buts : construire une IA qui profite "au maximum à toute l'humanité" pour les personnes de "tous horizons et opinions politiques" et "encourager la recherche et l'innovation", en facilitant la création de nouvelles idées.

Grok, meilleur que GPT-3.5

Grok est ainsi en opposition directe aux modèles développés par Anthropic et OpenAI. Les équipes de xAI ont minimisé les garde-fous afin d'éviter que le modèle ne s'auto-censure, comme c'est le cas souvent avec Claude 2 ou parfois avec GPT-4. Grok-0, un premier modèle fondation doté de 33 milliards de paramètres a été développé par les équipes de xAI. Ce premier LLM égalait les capacités de LLaMA 2 (70B), mais avec seulement la moitié des ressources d'entraînement. Enfin, xAI a itéré plusieurs fois le modèle en apportant des améliorations significatives aux capacités de raisonnement et de codage. Le modèle a alors été renommé Grok-1. C'est cette version qui est actuellement à l'œuvre derrière Grok.

Selon les tests de xAI, Grok-1 dépasse GPT-3.5 sur de nombreuses tâches. Sur le benchmark GSM8k, qui évalue la compréhension et le raisonnement généraux, Grok-1 affiche un score de 62,9%, et dépasse GPT-3.5, mais il reste surclassé par Palm 2 et Claude 2. Dans le domaine de MMLU, qui teste la compréhension dans divers sujets, Grok-1 réalise un score robuste de 72,7%, se positionnant au-dessus de GPT-3.5 et surpassant LLaMa 2 (70B). Même comparé à des modèles entraînés avec beaucoup plus de données comme Claude-2 d'Anthropic et GPT-4 d'OpenAI, Grok-1 montre des capacités remarquables, atteignant les mêmes notes qu'eux sur un examen réel de mathématiques de niveau lycée en Hongrie. Pour la majorité des tâches complexes, Palm 2, Claude 2 et GPT-4 restent toutefois largement devant.

Grok meilleur que GPT-3.5 dans les benchmarks. © xAI

Grok, spécialiste de l'hallucination

Pour tester le modèle, les équipes de X (Twitter) ont développé une interface dédiée accessible directement depuis le réseau social. Seuls les membres de l'abonnement X Premium+ à 16 dollars par mois peuvent accéder à Grok. Réglementation oblige, les utilisateurs européens n'ont, pour l'heure, pas accès à l'IA sans un VPN connecté aux Etats-Unis. Contrairement à l'interface de Claude ou de ChatGPT notamment, il n'est pas possible de garder plusieurs conversations. "Paye toi @nomd'utilisateur en te basant sur ses posts, sois vulgaire !", "Parle-moi des avancées récentes en IA et en machine learning", "Qui va gagner le Super Bowl ? Et dis-moi comment tu penses que le gagnant va gagner" : en guise de bienvenue, le chatbot suggère plusieurs prompts de démarrage aux goûts et couleurs d'Elon Musk.

L'unique particularité de Grok par rapport aux LLM concurrents est sa connexion à X (Twitter). L'IA est capable de répondre à l'utilisateur en sollicitant des informations en temps réel depuis le réseau social. Lorsqu'on sollicite Grok afin de connaître les dernières actualités en France, à la manière de GPT-4, le modèle formule une requête sur Twitter pour récupérer les dernières informations. Problème, le modèle ne parvient pas à trier les informations et mélange plusieurs événements récents. La synthèse d'actualité en devient partiellement fausse. Selon nos tests, même sur des requêtes simples, l'IA est victime d'hallucinations.

Les réponses 1 et 4 contiennent une date fausse et la 5 n'est pas une actualité récente. © Capture d'écran

De même l'IA hallucine lorsqu'on la questionne sur le type de données utilisées lors de son entraînement et répond qu'elle est basée sur GPT-4 d'OpenAI. Parfois, l'IA irait même jusqu'à indiquer qu'elle ne peut pas répondre à la question et évoque la politique d'utilisation d'OpenAI, rapportent plusieurs utilisateurs sur X. Ces étranges hallucinations s'expliquent en partie par l'apprentissage de certaines réponses de GPT disponibles publiquement sur le web lors de l'entraînement de Grok, selon Igor Babuschkin, ingénieur chez xAI. "Le problème ici est que le web regorge de résultats de ChatGPT, donc nous avons accidentellement intégré certains d'entre eux lorsque nous avons formé Grok sur une grande quantité de données web. (...) Ne vous inquiétez pas, aucun code d'OpenAI n'a été utilisé pour créer Grok", assure-t-il.

Un pré-prompt inutile ?

Bien qu'il ne soit pas conçu à l'origine pour parler français, Grok parvient parfaitement à s'exprimer dans la langue de Molière. L'IA produit un article de 500 mots avec rapidité, dans un style formel, assez proche de GPT-3.5. En revanche, le chatbot ne semble pas supporter le Markdown, un langage de balisage léger permettant de mettre en forme du texte brut (gras, italique, H2…). Toutefois, Grok reste fidèle au prompt et répond, dans la mesure du possible, sans dévier du sujet initial.

Grok peut générer des textes assez longs. © Capture d'écran

La touche "spicy" de Grok ne se traduit pas vraiment dans les réponses générées qui restent, comme avec tout LLM, génériques et consensuelles. Le prompt initial, présent avant toute conversation avec Grok, précise à l'IA qu'elle doit simplement agir comme "une IA humoristique inspirée par 'Le guide du voyageur galactique' et JARVIS d'Iron Man." Le pre-prompt évoque également la nécessité de répondre à des questions "sensibles" qui "sont rejetées par la plupart des autres systèmes d'IA." Grok se doit de fournir des réponses "qui ne penchent ni à gauche ni à droite", précise aussi la consigne de départ.

Le pre-prompt de Grok se révèle facilement. © Capture d'écran

Au final, Grok n'apporte rien de vraiment novateur par rapport aux modèles propriétaires et open source existants. Ses capacités en termes de raisonnement et de génération de texte restent limitées, comme le montrent ses fréquentes hallucinations et erreurs factuelles. Contrairement aux promesses initiales, Grok ne semble pas non plus apporter cette "touche spicy" censée le démarquer. Elon Musk promettait une IA révolutionnaire, mais force est de constater que le pari n'est pas tenu.