Claude 2.1 : contexte, performance, hallucination… Tout ce qui change avec la dernière version du modèle d'Anthropic

Claude 2.1 offre une plus grande fenêtre de contexte et des réponses plus précises. L'API évolue également et supporte maintenant l'appel à des services tiers.

Anthropic profite du flottement chez OpenAI pour annoncer une mise à jour conséquente de son modèle de référence Claude 2. La start up cofondée par les frères et soeurs Daniela and Dario Amodei, deux anciens cadres d'OpenAI, entend rester dans la course à l'IA générative et concurrencer GPT-4. Dévoilé mardi 21 novembre, Claude 2.1 offre de nouvelles fonctionnalités clés pour les entreprises et de nouvelles opportunités pour les développeurs.

Jusqu'à 150 000 mots en input

Claude 2 était déjà capable de recevoir en input jusqu'à 100 000 tokens, soit environ 75 000 mots. La nouvelle itération peut maintenant traiter des requêtes à 2 000 000 tokens, soit environ 150 000 mots ou 500 pages de documents. Une fonctionnalité qui s'adresse en priorité aux entreprises, dont la documentation peut souvent être assez longue. Codes sources, états financiers, textes littéraires… Claude 2.1 sera en mesure de réaliser des tâches complexes comme résumer ces documents, répondre à des questions précises à leur sujet, anticiper des tendances ou même comparer plusieurs documents entre eux.

Les risques d'hallucination réduits

Les équipes d'Anthropic, ont, comme celle de LightOn avec la dernière version d'Alfred, travaillé sur l'hallucination du modèle. La nouvelle version de Claude serait jusqu'à deux fois moins sujette à halluciner. Des tests approfondis menés par Anthropic ont confirmé cette nette amélioration de la justesse et de l'honnêteté des réponses fournies par Claude 2.1. Cette amélioration tend à transformer Claude en un modèle optimal pour l'utilisation en production. En parallèle, Anthropic a, encore, renforcé la sécurité de son modèle. Claude 2.1 refuse maintenant de répondre à une flopée de questions jugées dangereuses.

Des performances à la hausse en compréhension et résumé

La compréhension fine de documents complexes a également fait un bond en avant dans la version 2.1 de Claude. Lors de tests approfondis, Claude 2.1 a fait preuve d'une nette augmentation de sa capacité à appréhender correctement des textes longs et techniques, note Anthropic. Il produit désormais 30% d'erreurs en moins dans ses réponses avec des documents complexes. Ses résumés sont également 3 à 4 fois plus précis. Ces avancées ouvrent la voie à un usage étendu par les entreprises pour l'analyse fine d'une grande variété de documents stratégiques et complexes.

Claude 2.1 bénéficie d'une meilleure accuracy. © Anthropic

Côté pricing, Claude 2.1 est proposé, comme Claude 2, à 8 dollars le million de tokens en input et 24 dollars le million de tokens en output.

Une nouvelle interface développeur

Outre ces avancées techniques, la version 2.1 du modèle Claude comporte des nouveautés majeures pour les développeurs. Claude peut désormais interagir avec des processus, produits et API définis par les utilisateurs, étendant ainsi ses capacités à des cas d'usage en situation réelle. Parallèlement, Anthropic a amélioré son interface développeur Claude Console pour la simplifier, et lancé son outil Claude Workbench permettant de tester rapidement des invites, sur le principe d'Assistants API d'OpenAI. Ces évolutions visent, selon Anthropic, à accélérer l'adoption de Claude par les entreprises et son déploiement à grande échelle.