Traduction : quelle est la meilleure IA ?
GPT-4, Claude 3.5, Llama 3 et Gemini 1.5 Pro figurent sans surprise parmi les meilleurs modèles de langage de traduction.
Les LLM sont d'excellent traducteurs. C'est le constat de nombreux professionnels utilisant chaque jour les grands modèles de langue pour des tâches de traduction. Entraînés sur des corpus de textes volumineux, les LLM acquièrent une compréhension approfondie de la structure et du vocabulaire des langues. En résulte des traductions de très bonne facture adaptées au contexte et style initial et une gestion de la nuance, encore très grossière ces dernières années avec l'utilisation de système d'IA plus classique.
Claude, Llama, Gemini, Mixtral… Quel modèle est le plus pertinent pour des tâches de traduction ? Si la question n'a pas été entièrement tranchée, certains benchmarks dessinent de premières pistes. A commencer par WMT24.
Fidélité, sémantique… Comment les modèles sont-ils testés ?
WMT est la conférence annuelle dédiée aux systèmes de traduction automatique. WMT24 désigne l'évènement prévu à Miami en novembre. En amont de l'événement les organisateurs ont pour habitude de publier le classement préliminaire des meilleurs systèmes de traduction automatisés. Publié en juillet dernier, le classement de cette année apporte de précieuses informations pour choisir son LLM dédié à la traduction.
Pour établir ce classement, les organisateurs de la conférence ont développé une savante méthodologie. Sans rentrer dans les détails, le classement WMT24 se base sur une moyenne normalisée de deux métriques : MetricX et CometKiwi. MetricX, développée par Google, est une métrique basée sur des références. Elle fonctionne en comparant directement les traductions automatiques à des traductions de référence produites par des humains. CometKiwi, quant à elle, utilise un modèle (XLM-R XL) pour évaluer directement la qualité de la traduction sans la comparer à une version humaine. Cette approche permet d'estimer la cohérence, la fluidité et la précision sémantique de la traduction en se basant uniquement sur le texte source et la traduction produite.
L'analyse est produite sur onze paires de langues allant du duo anglais-chinois à des combinaisons plus rares comme le tchèque-ukrainien.
Une surprise à la tête du classement
Le WMT24 a notamment testé 8 des LLM les plus populaires, à savoir : Aya23, Claude-3.5-Sonnet,
Command R+, GPT-4, Gemini 1.5 Pro, Llama3 70B, Mistral-Large et Phi-3. Les résultats varient assez peu selon le couple de langue testé. En revanche et de manière plus surprenante, nombreux sont les LLM à performer dans des langues non supportées officiellement. Le classement final (moyenne des 11 paires testées, calculée par le JDN) dresse un classement intéressant : Unbabel-Tower70B arrive en tête (nous y reviendrons plus loin) suivi de Claude 3.5, GPT-4, Gemini 1.5 Pro et pour finir Command R+.
Classement |
Système |
1 |
Unbabel-Tower70B |
2 |
Claude-3.5 |
3 |
GPT-4 |
4 |
Gemini-1.5-Pro |
5 |
CommandR-plus |
Mais qui est donc Unbabel-Tower70B ? Développé par la plateforme spécialisée en traduction Unbabel, Tower70B ne semble pas avoir été encore dévoilé publiquement. Unbabel a bien présenté une famille de LLM spécialisés en traduction mais aucun modèle à 70 milliards de paramètres n'est évoqué. Il est fort à parier qu'Unbabel teste en avant-première un nouveau modèle avant de communiquer publiquement sur son existence. Et l'IA a de quoi séduire. Tower70B obtient de très bons résultats dans l'ensemble des 11 couples de langue présentés. Lorsque utilisable publiquement, il devrait être un modèle de choix pour les professionnels souhaitant se doter d'un modèle pour la traduction fine et précise.
Son rival le plus proche, Claude-3.5, fait preuve d'une polyvalence remarquable, se hissant systématiquement dans le top 3. Le modèle d'Anthropic montre de bonnes performances, même sur des paires de langues moins courantes comme l'anglais-islandais ou le tchèque-ukrainien. GPT-4, bien que légèrement en retrait, affiche une constance louable, se positionnant régulièrement dans le top 5, il n'en reste pas moins un excellent modèle, axé sur la polyvalence, comme nous l'avions précédemment démontré. Gemini 1.5 Pro, le petit dernier de Google, talonne ses concurrents avec des performances solides, mais manque encore du petit plus pour rivaliser avec les têtes d'affiche. Selon nos tests au cours des derniers mois le modèle de Google pèche régulièrement sur l'analyse purement textuelle.
Quel modèle faut-il privilégier ?
Si Unbabel-Tower70B se distingue nettement dans le benchmark WMT24, son indisponibilité le met pour l'instant hors course. Dans l'immédiat, Claude-3.5 d'Anthropic s'impose comme une option de premier plan, alliant polyvalence et robustesse, particulièrement sur des paires linguistiques moins courantes. GPT-4 d'OpenAI reste un choix solide, offrant des performances constantes et une grande versatilité. Gemini 1.5 Pro de Google, bien que légèrement en retrait, pourrait convenir pour des tâches moins complexes ou axées autour de la modalité (images, vidéos …).
Le choix final dépendra des besoins spécifiques : Claude-3.5 pour une traduction précise et nuancée, GPT-4 pour une polyvalence éprouvée, ou Gemini 1.5 Pro pour des tâches de traduction multimodales. Le mieux reste cependant de tester plusieurs modèles en définissant des KPI propres à votre cas d'usage et de choisir ensuite en tenant compte de la question fatidique du coût.
Modèle |
Forces |
Recommandé pour |
Considérations |
Unbabel-Tower70B |
Performance exceptionnelle |
Traduction textuelle précise, en contexte |
Actuellement indisponible au public |
Claude-3.5 |
Polyvalence, robustesse, précision sur langues rares |
Traduction précise et nuancée |
Excellent les langues moins courantes |
GPT-4 |
Performance constante, grande versatilité |
Tâches de traduction polyvalentes |
Choix solide pour une variété de besoins |
Gemini 1.5 Pro |
Performances correctes |
Tâches moins complexes, traduction multimodale |
Adapté pour des projets incluant différentes modalités |
A noter également que les résultats du WMT24 sont préliminaires et pourraient évoluer légèrement avant la conférence de novembre. L'évaluation finale, basée sur des annotations humaines, pourrait apporter quelques ajustements au classement, bien que les tendances générales devraient rester similaires.