L'écriture clonée par l'IA : un avenir sans diversité ?

L'IA pourrait-elle nuire à la diversité des contenus ? Explorons les risques d'une uniformisation causée par l'utilisation massive des LLM.

L’utilisation des modèles de langage comme co-auteurs soulève des questions sur l’uniformisation des contenus. Thibault Monteiro explore les effets de l’IA sur la diversité des idées et des styles d’écriture dans cette chronique.

Les modèles de langage avancés, comme ceux développés par OpenAI, transforment notre façon d'écrire et de créer. Mais ces outils, aussi puissants soient-ils, soulèvent des préoccupations quant à leur impact sur la diversité des contenus. Une étude récente, présentée lors de la conférence ICLR 2024 par Vishakh Padmakumar et He He de l'Université de New York, explore cette problématique en examinant l'influence de l'assistance de ces modèles sur la diversité lexicale et argumentative dans l'écriture. En prenant comme référence cette recherche, nous analysons les risques potentiels d'une uniformisation des contenus.

Pour autant, il ne faut pas négliger le potentiel des IA à stimuler notre imagination. Certaines approches montrent que ces outils peuvent élargir notre horizon créatif et nous inciter à explorer des idées nouvelles et variées, plutôt que de restreindre notre réflexion aux mêmes schémas.

Expérience : Un cadre rigoureux pour mesurer l'impact

Illustration du déroulement de l’expérience : un même sujet est donné à trois groupes distincts — un groupe sans assistance, un avec GPT-3 et un avec InstructGPT. La diversité des idées et le niveau d’homogénéité des essais produits par chaque groupe sont ensuite mesurés pour évaluer l’impact des modèles de langage sur le contenu. Thibault Monteiro explique en détail comment cette expérience révèle les effets potentiels des LLMs sur la diversité des contenus.

Les chercheurs ont mis en place une expérience contrôlée impliquant plusieurs groupes de participants rédigeant des essais argumentatifs. Les participants, recrutés via Upwork, étaient tous anglophones natifs et possédaient une expérience en rédaction ou en édition. Trois configurations d'écriture ont été testées :

  1. Écriture sans assistance : Les participants ont rédigé leurs essais sans recourir à un modèle de langage.
  2. Avec GPT-3 : Les participants ont utilisé le modèle GPT-3 de base pour recevoir des suggestions.
  3. Avec InstructGPT : Un modèle affiné par des retours humains, conçu pour fournir des suggestions plus précises et pertinentes.

Les sujets d'essai étaient issus de la série Student Opinion du New York Times, tels que « Quelles sont les choses les plus importantes que les élèves apprennent à l'école ? ». Les essais devaient comporter environ 300 mots, permettant ainsi une comparaison des contenus générés.

Résultats : Une uniformisation croissante des contenus

L'étude révèle des résultats inquiétants. Les essais rédigés avec InstructGPT étaient significativement plus similaires les uns aux autres que ceux rédigés avec GPT-3 ou sans assistance. En utilisant les métriques Rouge-L et BertScore pour évaluer la similarité sémantique et lexicale, les chercheurs ont constaté une homogénéisation accrue des contenus. Par exemple, les scores de similarité au niveau des points clés étaient de 0,1660 pour InstructGPT, contre 0,1536 pour les auteurs sans assistance. Cette uniformisation pourrait être liée à la capacité d'InstructGPT à fournir des suggestions plus cohérentes, mais moins diversifiées, comparées à GPT-3.

Boxplots des scores d’homogénéisation des groupes Solo, InstructGPT et GPT-3, calculés avec Rouge-L et BertScore, démontrant l’uniformisation croissante des contenus. © Thibault Monteiro

Analyse : Modèle et engagement utilisateur

Les résultats montrent également que les participants ont fortement interagi avec les modèles de langage. En moyenne, les auteurs ont sollicité les suggestions des modèles neuf fois par essai et accepté environ 70 % des propositions, modifiant souvent les suggestions avant de les intégrer. Le modèle a contribué à 35 % du texte final, ce qui souligne son rôle important dans le processus de rédaction.

Tableau illustrant les statistiques d'engagement des utilisateurs avec différents modèles de langage, mettant en évidence la fréquence d'interaction et l'acceptation des suggestions. © Thibault Monteiro

Cependant, malgré cette interaction élevée, aucun écart significatif n'a été observé entre GPT-3 et InstructGPT concernant le taux de requêtes ou d'acceptation, montrant que les utilisateurs trouvaient ces deux modèles également utiles.

La diversité des idées en question

L'étude a également examiné l'impact des modèles sur la diversité des idées, en mesurant le nombre de points de vue uniques dans les essais. Là encore, InstructGPT a montré une tendance à réduire la diversité des arguments, suggérant que l'amélioration de la qualité de génération pourrait se faire au détriment de la diversité des perspectives.

Point de vue de Thibault Monteiro : Vers une uniformisation de l'expression ?

Ces résultats soulèvent des questions importantes sur l'utilisation des modèles de langage dans la rédaction assistée par IA. L'amélioration de la cohérence et de la fluidité des textes grâce à InstructGPT semble se faire au prix d'une réduction de la diversité des contenus. Cette tendance pourrait avoir des implications profondes sur la diversité des voix dans le discours public.

L'impact des LLM sur la création de contenus est indéniable, mais ces outils nécessitent une utilisation réfléchie pour éviter de créer une monoculture algorithmique. Il est essentiel d'adopter une approche centrée sur l'utilisateur pour s'assurer que ces modèles ne suppriment pas l'expression individuelle dans des contextes nécessitant une diversité d'opinions.

Pour en savoir plus sur cette étude, consultez la recherche complète ici.

Références :

  1. Vishakh Padmakumar, He He. "DOES WRITING WITH LANGUAGE MODELS REDUCE CONTENT DIVERSITY?" — arXiv
  2. Tianyi et al. "BERTSCORE: EVALUATING TEXT GENERATION WITH BERT" — arXiv.