Claude 2 VS GPT-4 : duel d'IA au sommet

Les modèles les plus poussés d'OpenAI et d'Anthropic présentent des performances similaires mais des cas d'usage différents. Comparatif des principales différences.

C'est un combat à armes égales. En 2023, OpenAI et Anthropic sont parvenus à développer des modèles d'intelligence artificielle capables d'effectuer un nombre jusqu'ici inatteignable de tâches complexes. Génération de code, compréhension de texte, traitement de données avancé… Les possibilités se sont démultipliées au fil des derniers mois. Actuellement, les deux start-up peuvent se targuer de faire partie des leadeuses du secteur de l'IA, aux côtés de Google, Meta ou encore Microsoft.

Jusqu'en début d'été, OpenAI était la seule société à proposer un LLM grand public aussi avancé. Avec la sortie de Claude 2 le 11 juillet dernier, Anthropic a rebattu les cartes. La nouvelle mouture de Claude présente des avancées notables en génération de code, en mathématiques et plus généralement un raisonnement plus avancé. Plus spectaculaire, la nouvelle itération de l'IA est capable de traiter en entrée plusieurs centaines de pages sans perdre le fil de la discussion. Une mise à jour majeure qui offre maintenant aux professionnels une véritable alternative aux modèles d'OpenAI.

Claude 2 vs GPT-4
	Claude 2	GPT-4
Date de sortie	11 juillet 2023	14 mars 2023
Techniques d'entraînement	RLHF puis "IA constitutionnelle"	Pré-entraîné puis ajusté par RLHF
Nombre de paramètres	200 milliards	1,76 trillion
Données d'entraînement	Jusqu'au début 2023	Jusqu'en septembre 2021
Contexte en entrée	Jusqu'à 100 000 tokens (environ 75 000 mots)	Jusqu'à 8 000 tokens (environ 6 400 mots)
Accès au web	Interface native	Nécessite un plugin tiers
Prix de l'API (pour 1 000 mots)	0,0465 dollar	0,06 dollar
Modèle d'abonnement	Freemium	Premium
Coût de l'abonnement	20 $ / mois ou 15 £	20 $ / mois
Disponibilité géographique	Etats-Unis et Royaume-Uni	Monde

Un entraînement différent

OpenAI et Anthropic n'ayant pas la même vision technologique de l'IA, les deux modèles n'ont pas bénéficié des mêmes techniques d'entraînement. Pour rappel, Anthropic et OpenAI ont une histoire commune. Anthropic a, en effet, été fondé en 2021 par d'anciens employés d'OpenAI. Soucieux de développer des modèles d'intelligence artificielle éthiques, la société axe sa stratégie sur le développement responsable et sécurisé de l'IA. Si de son côté OpenAI est soutenu à hauteur de plusieurs milliards par Microsoft, Google, qui dispose de son propre laboratoire d'IA DeepMind, a également investi 300 millions de dollars dans Anthropic.

Claude 2 et GPT-4 ont tous deux pour base l'architecture Transformer développée par Google. GPT-4 a été pré-entraîné puis ajusté par apprentissage par renforcement à partir de la rétroaction humaine (RLHF) quand Claude 2 a été premièrement entraîné par RLHF puis par "IA constitutionnelle." Cette technologie développée par Anthropic inculque au modèle des valeurs basées sur une liste de principes nommés "constitution". Cette technique permet à Claude de fournir des réponses plus "socialement acceptables", alignées sur les valeurs humaines traditionnelles. Cette approche différente offre un texte beaucoup plus humain et moins généraliste, comme peut l'être GPT-4.

Des performances similaires ?

Si l'on se penche sur les volumes de données d'entraînement, GPT-4 et Claude 2 ont été entraînés respectivement avec environ 1,76 trillion de paramètres et 200 milliards de paramètres. Une différence théorique de performance qui ne se matérialise pas réellement dans la réalité. En effet, les très grands modèles de langages peuvent parfois avoir tendance à trop s'adapter aux données d'entraînement, perdant ainsi en généralisation sur des données inédites. Les modèles plus "petits", avec leur capacité limitée, peuvent éviter ce biais.

La qualité des données d'entraînement est également une variable importante des futures performances. Dans le cas de Claude 2, l'IA a été entraînée sur un mélange propriétaire de données provenant d'Internet, de jeux de données sous licence, et de rétroactions d'utilisateurs. GPT-4 de son côté a été formé sur des données issues du web, de jeux de données sous licence de fournisseurs tiers. Selon certains experts, GPT-4 pourrait également avoir eu accès à du matériel multimodal, comme des images. Les données les plus récentes figurent au sein du dataset de Claude, entraîné jusqu'en début 2023. GPT-4 dispose quant à lui d'informations ultérieures à septembre 2021.

Côté performances pures, le point va à GPT-4. Le modèle d'OpenAI est plus performant pour les tâches très complexes notamment en mathématiques ou qui nécessitent un raisonnement avancé. En ce qui concerne la rapidité de génération du texte, selon nos tests, Claude 2 est plus rapide. GPT-4 fait souvent les frais d'une demande importante et malgré son infrastructure OpenAI semble contraint de limiter virtuellement l'accès à son service. Enfin, toujours selon nos tests, Claude 2 semble plus apte à gérer du texte, de la génération à la synthèse, en passant par la mémorisation court-terme.

Côté contexte, GPT-4, dans sa version classique, prend en entrée jusqu'à 8 000 tokens de contexte (ou 32k avec API), soit environ 6 400 mots. Claude 2 surpasse largement son concurrent et peut prendre en charge jusqu'à 100 000 tokens soit environ 75 000 mots. Enfin, Claude 2 et GPT-4 prennent tous deux en charge la multimodalité. Toutefois, l'expérience est plus fluide chez Anthropic, qui offre une interface native plus fiable qu'OpenAI et son modèle Code interpreter. Les deux modèles peuvent avoir accès au web, mais GPT-4 nécessite l'utilisation d'un plugin tiers pour y parvenir.

Un pricing plus favorable chez Anthropic

Claude 2 offre un meilleur rapport qualité prix que son concurrent direct pour les professionnels désireux d'utiliser un accès par API. Pour Claude 2 le coût actuel est d'environ 0,0465 dollar pour 1 000 mots générés. Dans sa version classique (8k), GPT-4 coûte environ 0,03 dollar en entrée pour un prompt de 1 000 tokens et 0,06 dollar en sortie pour 1 000 tokens, soit environ 0,06 dollar pour 1 000 mots. Les modèles sont également accessibles depuis une interface web dédiée. Claude 2 est utilisable gratuitement dans la limite d'environ 15 messages, et GPT-4 nécessite la prise d'un abonnement à 20 dollars par mois. Claude 2 propose également un nouvel abonnement, Claude Pro, au même tarif.

La plus grande différence entre Claude 2 et GPT-4 au sein de l'Hexagone reste l'accessibilité. GPT-4 est disponible en France et en Europe alors que Claude 2 n'est disponible qu'aux Etats-Unis et au Royaume-Uni. Anthropic pourrait être frileuse à l'idée d'ouvrir un service commercial au sein du Vieux continent en raison des nombreuses législations locales strictes. Pour contourner ces restrictions, il est nécessaire de se connecter sur le site de Claude 2 avec une adresse IP de l'un des deux pays. En complément depuis début septembre, l'interface exige une vérification OTP par SMS, vous obligeant à disposer d'un numéro de téléphone portable américain ou britannique.

Claude 2 VS GPT-4 : duel d'IA au sommet

Des performances similaires ?

Un pricing plus favorable chez Anthropic

Guides

Repères