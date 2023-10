La fonctionnalité "Vision" de ChatGPT est disponible en France depuis ce jeudi 12 octobre. De nombreux cas d'utilisation s'offrent aux utilisateurs, professionnels comme particuliers.

ChatGPT se dote d'un nouveau sens. Le modèle d'intelligence artificielle développé par OpenAI est aujourd'hui en capacité d'analyser et de comprendre les images qui lui sont soumises, comme un humain. Annoncée le 25 septembre dernier, la nouvelle fonctionnalité Vision a été progressivement déployée hors d'Europe avant d'arriver ce jeudi 12 octobre en France. En réalité, vision n'est pas qu'une simple fonctionnalité additionnelle greffée à ChatGPT, c'est un nouveau modèle. Nommé "GPT-4V", ce dernier est accessible uniquement aux utilisateurs premium, de ChatGPT Plus et ChatGPT Enterprise. Bien que très puissant, ce modèle offre des performances moindres lors de la reconnaissance (OCR) de caractères non-latin (Russe, Chinois, Arabe…), prévient OpenAI.

Avant de lancer GPT-4V publiquement, les équipes sous la direction de Sam Altman ont développé des garde-fous importants pour éviter que le modèle ne soit utilisé à mauvais escient. Des experts externes ont été consultés pour tester le modèle dans des domaines sensibles comme la médecine, les sciences, les stéréotypes, la désinformation. Selon nos test, le modèle refuse par exemple de traiter une photographie d'Emmanuel Macron. Toutefois, des défis subsistent concernant l'identification des personnes, les informations sensibles tirées des images et certains biais. Sous pression des régulateurs du monde entier, OpenAI prévoit d'améliorer la sécurité de GPT-4V en continu. Dans le cadre du déploiement en France de ChatGPT Vision, nous avons pu tester plusieurs cas d'usage très pratiques voire carrément bluffants (comme le dernier cas).

Explication rapide d'un schéma

La pertinence et la pédagogie de GPT-4 combinées à l'outil Vision offrent un potentiel éducatif et explicatif sans précédent. Par exemple, en donnant un schéma technique d'une solution de machine learning à l'IA, cette dernière est capable d'expliquer très simplement le tout. La force de Vision réside dans sa capacité à comprendre plus que le texte en interprétant également les éléments graphiques, en l'occurrence ici des pictogrammes.

ChatGPT peut vous aider à comprendre un schéma. © Capture d"écran

Description d'un circuit électronique

Toujours dans le cadre d'un usage éducatif, nous tentons de faire analyser à l'IA la photographie d'un circuit électronique complexe. GPT-4 comprend parfaitement l'agencement des composants et parvient à expliquer très simplement l'utilité exacte de ces derniers, avant de formuler l'hypothèse d'utilisation du circuit global.

Les circuits électroniques n'ont plus de secret pour GPT-4V. © Capture d'écran

Reconnaître une espèce animale ou végétale

De par son immense base de connaissance, GPT-4 est capable d'identifier avec précision le type d'insectes, d'animaux ou de plantes présents sur une photographie. Bien que des applications similaires existent déjà, GPT-4 semble plus pertinent. L'IA est également en capacité de décrire la caractéristique physique particulière de l'insecte qui lui est présenté.

ChatGPT peut reconnaître les espèces. © Capture d'écran

Du Reverse engineering avec Midjourney

La capacité descriptive de GPT-4 permet de trouver en quelques secondes le prompt à l'origine d'une image générée grâce à une intelligence artificielle. Dans le cas présent, nous tentons de retrouver le prompt Midjourney d'une photographie précédemment créée. L'IA parvient à produire assez fidèlement un prompt potentiel. Couplé à des informations sur le fonctionnement de Midjourney, il est fort à parier que GPT-4 puisse trouver un prompt précis permettant de reproduire avec détail l'image.

GPT-4V peut deviner le prompt d'une création Midjourney. © Capture d'écran

Compter une foule

GPT-4V est-il capable de compter, avec précision, le nombre de personnes présentes au sein d'une foule ? La réponse est oui et non. Selon nos tests, l'IA n'est pas capable de chiffrer avec détails le nombre exact d'humains présents dans une photographie quand la foule est trop dense. En revanche, avec un groupe de personnes moins important, les résultats sont tout de suite plus proches de la réalité.

GPT-4V peut compter les foules peu denses. © Capture d'écran



Préparer des recettes avec des ingrédients

Le cas avait été présenté par les équipes d'OpenAI lors de la sortie de GPT-4. Avec une simple photographie de l'intérieur de votre réfrigérateur, l'IA est capable de vous proposer plusieurs recettes sur la base des ingrédients présents à l'image. Attention toutefois, si la qualité n'est pas optimale ou si certains aliments ne sont pas correctement visibles, GPT-4 peut halluciner.

ChatGPT peut vous aider à cuisiner avec les ingrédients de votre frigo. © Capture d'écran

Analyser une vue aérienne

Sur une idée originale de Mathieu Crucq , nous avons testé la capacité de l'IA à trouver des piscines au sein d'une vue aérienne satellitaire. GPT-4 passe le test avec succès et détecte la majorité des piscines présentes sur la photographie. Une fonctionnalité utile déjà exploitée par l'administration fiscale française qui n'a pas attendu GPT-4V pour traquer les fraudeurs.

GPT-4V peut compter les piscines sur une image aérienne. © Capture d'écran

Déchiffrer un CAPTCHA

Les CAPTCHA sont-ils voués à disparaître ? GPT-4V les enterre un peu plus. L'outil vision est en effet très efficace pour reconnaître des lettres au sein d'un CAPTCHA vieille génération. Encore plus bluffant et selon nos tests, l'IA peut même résoudre les énigmes de la dernière version du ReCAPTCHA de Google. Couplé à une API, l'outil peut rapidement devenir le meilleur allié des cybercriminels et des fermes à clics.

Les CAPTCHA ne résistent plus à ChatGPT. © Capture d'écran

Génère le code HTML d'un site web

De l'interface au code en quelques secondes. Le nouvel outil vision peut interpréter le croquis d'un site web ou encore plus intéressant produire le code HTML / CSS d'un site web à partir d'une simple capture d'écran.

GPT-4V peut générer du HTML à partir d'une image. © Capture d'écran

Décrypter un message caché

Déchiffrer un message en "leet speak" ou "l33t speak", devient très facile avec GPT-4V. L'IA est capable de comprendre le texte caché derrière un message chiffré composé de lettres et chiffres. Exemple ici avec le texte "1n73ll1g3nc3 15 7h3 4b1l17y 70 4d4p7" qui correspond à la célèbre citation de Stephen Hawking "Intelligence is the ability to adapt to change."

GPT-4V comprend les messages chiffrés visuellement. © Capture d'écran

Interpréter des radiographies

GPT-4V permet à l'IA "d'interpréter" les radiographies d'un humain. Dans le cas présent, nous avons adressé à GPT-4V des radiographies d'un avant-bras présentant une fracture. L'IA est en capacité, elle aussi, d'identifier l'anomalie sur l'image et suggère qu'il pourrait s'agir d'une fracture.