Le fonctionnement actuel des moteurs de traduction

Un arbre construisant le résultat de la traduction © Systran

Un moteur de traduction comme celui de Systran est basé sur une analyse purement syntaxique du texte. Autrement dit, il commence par distinguer les éléments constituant la phrase, puis y applique un ensemble de règles et reconstruit ensuite la phrase source.

Le problème de cette démarche vient du fait qu'elle gère mal les exceptions. Or, dans toutes les langues, il en existe de nombreuses. Autre inconvénient, pour gérer les particularismes locaux et les évolutions de la langue, le moteur doit sans cesse connaître de nouveaux mots qui rajoutent autant de possibilités à traiter.

Cela en fait des systèmes complexes à maintenir. Aujourd'hui, une base Systran pèse entre 20 et 50 Go. Le moteur est capable d'analyser tout document de la suite Office de Microsoft, mais aussi les fichiers texte, HTML, PDF, XML et même les courriels. Le format XML reste toutefois privilégié.

Pause