Texte, code, search… Quelle IA pour quel usage ?

Texte, code, search… Quelle IA pour quel usage ? Bard, Claude 2, GPT-3.5 et GPT-4, Llama 2 : les LLM actuellement sur le marché présentent chacun des atouts différents selon les tâches à accomplir.

De Bard à GPT-4 en passant par Claude 2 et Llama 2, les systèmes d'IA présentent des capacités impressionnantes en génération de texte et compréhension du langage naturel. Mais chacun possède des forces et des faiblesses selon l'usage visé : certains modèles présentent des capacités de compréhension du langage naturel plus avancées quand d'autres sont davantage efficaces dans la génération de code ou dans les calculs complexes. Ces spécificités s'expliquent en partie par la méthode d'apprentissage du modèle, la richesse du dataset ou encore par les filtres de confidentialité appliqués en production.

Résultat, il peut être ardu de sélectionner un modèle adapté à ses besoins. Dans le cadre de ce guide, nous avons sélectionné cinq cas d'usage génériques couramment recherchés par les utilisateurs :

  1. génération / compréhension de code

  2. génération / compréhension de texte

  3. calculs mathématiques avancés

  4. recherches d'informations récentes

  5. recherche documentaire.

Pour ces tâches spécifiques, nous retenons les LLM les plus populaires du marché à savoir : GPT-4, GPT-3.5, Claude 2 et enfin Llama 2. Il existe toutefois d'autres modèles parfois tout aussi performants bien que beaucoup moins usités, notamment dans l'open source.

1. Générer et comprendre du code : GPT-4

Pour gérer avec aisance du code informatique, un modèle d'IA doit avoir été entraîné sur un dataset de code assez important et diversifié. Bien que la majorité des LLM actuellement en service soient en capacité de réaliser cette tâche, certains génèrent un code plus propre et facilement exploitable. C'est le cas de GPT-4, leader incontesté dans le domaine. Fort d'un entraînement sur une variété de langages (selon OpenAI) et d'un nombre de paramètres conséquent, GPT-4 comprendra avec facilité votre code pour ensuite procéder à un éventuel débogage. La génération est tout aussi efficace, selon plusieurs développeurs précédemment interrogés dans nos colonnes. Dans une moindre mesure, GPT 3.5 offre également de bonnes capacités de génération. Pour un code simple, GPT-3.5 est souvent suffisant et répond beaucoup plus rapidement que son grand frère. Code Llama, entraîné spécifiquement sur un large dataset de code, offre des capacités similaires à GPT 3.5.

2. Compréhension et génération de texte : Claude 2

La gestion du texte est le cœur de métier de tout bon LLM. Cependant, certains modèles présentent des capacités plus avancées et fines dans la gestion du langage. Selon nos différents tests, Claude 2 remporte la bataille. Le modèle développé par Anthropic apparaît légèrement supérieur dans la compréhension de longs textes. Le modèle génère également des textes plus fidèles au style humain, avec une adaptabilité du ton supérieur à GPT-4. Enfin, les équipes d'Anthropic ayant développé une expertise certaine dans la gestion des risques éthiques, Claude 2 est beaucoup moins sujet aux problèmes d'hallucination. De son côté, GPT-4 présente des capacités d'analyse et de génération de très bonne facture. Bien que GPT-3.5 et Llama 2 aient de bonnes compétences, GPT-3.5 se distingue par sa vitesse de génération, plus élevée. Côté traduction et selon nos tests, GPT-4 se distingue par la qualité de sa traduction dans une multitude de langues, tout comme Claude 2.

3. Calculs mathématiques avancés : GPT-4 ou un modèle fine tuné

En règle générale, plus le nombre de paramètres d'un LLM est élevé, plus ce dernier est capable de comprendre des concepts mathématiques complexes. En parallèle, un bon LLM mathématique doit être entraîné sur un vaste dataset contenant des formules, équations et textes mathématiques variés. Enfin l'apprentissage par renforcement ou avec une composante de recherche peut aider l'IA à mieux explorer l'espace des solutions mathématiques. Avec ses plus de mille milliards de paramètres, GPT-4 est donc, assez logiquement, le modèle le plus efficace pour traiter et résoudre des opérations mathématiques ou des équations complexes. La dernière fonctionnalité, GPT-4 Vision offre en bonus la reconnaissance des images. Une fonctionnalité pratique pour travailler sur des équations complexes rédigées à la main. Dans une moindre mesure, GPT-3.5 offre des possibilités intéressantes, tout comme Claude 2 ou Bard. Les modèles peinent toutefois avec les calculs nécessitant plus de logique. Pour obtenir des résultats davantage efficients, nous vous conseillons toutefois d'opter pour un modèle fine-tuné sur un dataset spécialisé, à l'image de Google's Minerva 62B ou encore Llemma 34B.

4. Recherche d'informations récentes : GPT-4 dans Bing ou Bard

L'accès à des informations récentes au sein d'un LLM est un besoin en forte croissance. Nativement et par défaut, aucun LLM ne peut accéder au web. L'accès est en réalité permis par l'interface (chat.openai.com, bard.com, bard.google.com, huggingface.co/chat/…). Pour la recherche d'informations récentes et pertinentes, nous vous conseillons l'intégration de GPT-4 dans le moteur de recherche de Microsoft : Bing AI. L'outil est efficace et donne des résultats de recherche très correct. GPT-4 avec Bing dans l'interface historique d'OpenAI offre aussi des résultats plutôt qualitatifs, bien que très classiques. Pour une recherche plus rapide, et synthétique, Bard semble toutefois le plus intéressant, avec une présentation des résultats sous forme de bullet point ou de tableau.

5. Recherche documentaire : Claude 2

Pour la recherche documentaire, la considération la plus importante réside dans la longueur du contexte (nombre de tokens qu'un LLM prend en compte pour générer une prédiction). A ce jeu, c'est sans conteste Claude 2 qui sort victorieux. Le modèle d'Anthropic offre 100 tokens de contexte, l'équivalent de 300 pages de documents. Il est ainsi possible de fournir à l'IA de vastes PDF qui seront gérés entièrement, du début à la fin. Attention toutefois, dans de très rares cas et avec les plus grosses requêtes, le LLM peut avoir tendance à halluciner. De son côté, GPT-4 peut gérer jusqu'à 8 000 tokens soit environ 6 400 mots. Llama 2 et GPT-3.5 gèrent pour leur part jusqu'à 4 096 tokens.

Usage

Meilleur LLM

Autres options

Génération et compréhension de code

GPT-4

GPT-3.5, Code Llama

Compréhension et génération de texte

Claude 2

GPT-4, GPT-3.5

Calculs mathématiques avancés

GPT-4

GPT-3.5, Claude 2, Bard, Minerva 62B, Llemma 34B

Recherche d'informations récentes

GPT-4 via Bing AI

GPT-4 avec Bing dans OpenAI, Bard

Recherche documentaire

Claude 2

GPT-4, Llama 2, GPT-3.5

En définitive, le choix d'un modèle d'IA adapté à vos besoins dépendra de l'usage principal recherché mais aussi du budget alloué. Les modèles les plus puissants sont souvent les plus onéreux en termes de coûts de requêtes. Pour un usage régulier, mieux vaut donc s'orienter vers des modèles plus abordables financièrement comme GPT-3.5 ou Claude 2.