ChatGPT devient de plus en plus bête, prouve une étude

Les réponses générées par les modèles GPT-4 et GPT-3.5 d'OpenAI se sont dégradées ces derniers mois. Une étude menée par des chercheurs des universités de Stanford et Berkeley le confirme.

ChatGPT devient de moins en moins intelligent. Depuis plusieurs mois, de nombreux utilisateurs des services d'OpenAI se plaignent d'une baisse de la pertinence des réponses de l'intelligence artificielle. Bien que subjectives ces critiques trouvent aujourd'hui une résonance factuelle, selon une nouvelle étude publiée mardi 18 juillet 2023. Des chercheurs des universités de Stanford et Berkeley ont comparé les réponses de l'IA avec GPT-4 et GPT-3.5 en mars et en juin. Le résultat est sans appel : les réponses générées par les différents modèles sont moins qualitatives en juin qu'en mars.

GPT-4 sévèrement impacté

Pour parvenir à cette conclusion, les chercheurs ont évalué les réponses des modèles en prenant des prompts similaires en mars et en juin. La pertinence et la véracité des réponses ont ensuite été comparées. Pour tenter d'objectiver les résultats, les spécialistes ont varié les prompts. Plusieurs tests ont été menés : la résolution de problèmes mathématiques, la réponse à des questions sensibles ou dangereuses, la génération de code et enfin le raisonnement visuel. Dans la majorité des cas, les réponses de l'IA ont été plus décevantes en juin qu'en mars. On note toutefois la relative résistance de GPT-3.5 sur la résolution de problèmes mathématiques. Après avoir analysé les résultats de leurs tests, les chercheurs sont en mesure d'affirmer que "le comportement de GPT-3.5 et GPT-4 a varié de manière significative en une période relativement courte."

La version de GPT-4 de mars 2023 se distinguait par sa capacité à identifier les nombres premiers avec une précision de 97,6%. Cependant, sa performance a fortement diminué dans ce domaine en juin 2023, où sa précision n'était que de 2,4%. Parallèlement, il est intéressant de noter que GPT-3.5 a montré une amélioration significative entre mars et juin 2023 dans cette même tâche. Par ailleurs, GPT-4 a montré une réticence accrue à répondre aux questions sensibles en juin par rapport à mars. Finalement, aussi bien pour GPT-4 que pour GPT-3.5, les spécialistes ont observé une augmentation des erreurs de mise en forme dans la génération de code en juin par rapport à mars.

Les performances de GPT-3.5 et GPT-4 en mars et juin 2023.. © Stanford University / UC Berkeley

Contradiction de la version officielle

Les sociétés ayant intégré ces modèles dans leur workflow peuvent être impactées par ces changements sur un laps de temps aussi court. Les universitaires recommandent aux clients professionnels de mettre en place une analyse de surveillance similaire à celle menée dans l'étude. Afin de favoriser les recherches complémentaires sur le sujet, les données d'évaluation et les réponses de ChatGPT utilisées dans l'étude sont disponibles en accès public depuis GitHub. Ces premières conclusions contredisent la version officielle d'OpenAI.

Le 13 juillet dernier, Peter Welinder VP Product de la start-up assurait que les développeurs n'avaient pas "rendu GPT-4 moins intelligent." "Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente", avait-il ajouté.