ChatGPT Vision disponible en France : 11 cas d'usage à découvrir
ChatGPT se dote d'un nouveau sens. Le modèle d'intelligence artificielle développé par OpenAI est aujourd'hui en capacité d'analyser et de comprendre les images qui lui sont soumises, comme un humain. Annoncée le 25 septembre dernier, la nouvelle fonctionnalité Vision a été progressivement déployée hors d'Europe avant d'arriver ce jeudi 12 octobre en France. En réalité, vision n'est pas qu'une simple fonctionnalité additionnelle greffée à ChatGPT, c'est un nouveau modèle. Nommé "GPT-4V", ce dernier est accessible uniquement aux utilisateurs premium, de ChatGPT Plus et ChatGPT Enterprise. Bien que très puissant, ce modèle offre des performances moindres lors de la reconnaissance (OCR) de caractères non-latin (Russe, Chinois, Arabe…), prévient OpenAI.
Avant de lancer GPT-4V publiquement, les équipes sous la direction de Sam Altman ont développé des garde-fous importants pour éviter que le modèle ne soit utilisé à mauvais escient. Des experts externes ont été consultés pour tester le modèle dans des domaines sensibles comme la médecine, les sciences, les stéréotypes, la désinformation. Selon nos test, le modèle refuse par exemple de traiter une photographie d'Emmanuel Macron. Toutefois, des défis subsistent concernant l'identification des personnes, les informations sensibles tirées des images et certains biais. Sous pression des régulateurs du monde entier, OpenAI prévoit d'améliorer la sécurité de GPT-4V en continu. Dans le cadre du déploiement en France de ChatGPT Vision, nous avons pu tester plusieurs cas d'usage très pratiques voire carrément bluffants (comme le dernier cas).
Explication rapide d'un schéma
La pertinence et la pédagogie de GPT-4 combinées à l'outil Vision offrent un potentiel éducatif et explicatif sans précédent. Par exemple, en donnant un schéma technique d'une solution de machine learning à l'IA, cette dernière est capable d'expliquer très simplement le tout. La force de Vision réside dans sa capacité à comprendre plus que le texte en interprétant également les éléments graphiques, en l'occurrence ici des pictogrammes.

Description d'un circuit électronique
Toujours dans le cadre d'un usage éducatif, nous tentons de faire analyser à l'IA la photographie d'un circuit électronique complexe. GPT-4 comprend parfaitement l'agencement des composants et parvient à expliquer très simplement l'utilité exacte de ces derniers, avant de formuler l'hypothèse d'utilisation du circuit global.

Reconnaître une espèce animale ou végétale
De par son immense base de connaissance, GPT-4 est capable d'identifier avec précision le type d'insectes, d'animaux ou de plantes présents sur une photographie. Bien que des applications similaires existent déjà, GPT-4 semble plus pertinent. L'IA est également en capacité de décrire la caractéristique physique particulière de l'insecte qui lui est présenté.

Du Reverse engineering avec Midjourney
La capacité descriptive de GPT-4 permet de trouver en quelques secondes le prompt à l'origine d'une image générée grâce à une intelligence artificielle. Dans le cas présent, nous tentons de retrouver le prompt Midjourney d'une photographie précédemment créée. L'IA parvient à produire assez fidèlement un prompt potentiel. Couplé à des informations sur le fonctionnement de Midjourney, il est fort à parier que GPT-4 puisse trouver un prompt précis permettant de reproduire avec détail l'image.

Compter une foule
GPT-4V est-il capable de compter, avec précision, le nombre de personnes présentes au sein d'une foule ? La réponse est oui et non. Selon nos tests, l'IA n'est pas capable de chiffrer avec détails le nombre exact d'humains présents dans une photographie quand la foule est trop dense. En revanche, avec un groupe de personnes moins important, les résultats sont tout de suite plus proches de la réalité.

Préparer des recettes avec des ingrédients
Le cas avait été présenté par les équipes d'OpenAI lors de la sortie de GPT-4. Avec une simple photographie de l'intérieur de votre réfrigérateur, l'IA est capable de vous proposer plusieurs recettes sur la base des ingrédients présents à l'image. Attention toutefois, si la qualité n'est pas optimale ou si certains aliments ne sont pas correctement visibles, GPT-4 peut halluciner.

Analyser une vue aérienne
Sur une idée originale de Mathieu Crucq, nous avons testé la capacité de l'IA à trouver des piscines au sein d'une vue aérienne satellitaire. GPT-4 passe le test avec succès et détecte la majorité des piscines présentes sur la photographie. Une fonctionnalité utile déjà exploitée par l'administration fiscale française qui n'a pas attendu GPT-4V pour traquer les fraudeurs.

Déchiffrer un CAPTCHA
Les CAPTCHA sont-ils voués à disparaître ? GPT-4V les enterre un peu plus. L'outil vision est en effet très efficace pour reconnaître des lettres au sein d'un CAPTCHA vieille génération. Encore plus bluffant et selon nos tests, l'IA peut même résoudre les énigmes de la dernière version du ReCAPTCHA de Google. Couplé à une API, l'outil peut rapidement devenir le meilleur allié des cybercriminels et des fermes à clics.

Génère le code HTML d'un site web
De l'interface au code en quelques secondes. Le nouvel outil vision peut interpréter le croquis d'un site web ou encore plus intéressant produire le code HTML / CSS d'un site web à partir d'une simple capture d'écran.

Décrypter un message caché
Déchiffrer un message en "leet speak" ou "l33t speak", devient très facile avec GPT-4V. L'IA est capable de comprendre le texte caché derrière un message chiffré composé de lettres et chiffres. Exemple ici avec le texte "1n73ll1g3nc3 15 7h3 4b1l17y 70 4d4p7" qui correspond à la célèbre citation de Stephen Hawking "Intelligence is the ability to adapt to change."

Interpréter des radiographies
GPT-4V permet à l'IA "d'interpréter" les radiographies d'un humain. Dans le cas présent, nous avons adressé à GPT-4V des radiographies d'un avant-bras présentant une fracture. L'IA est en capacité, elle aussi, d'identifier l'anomalie sur l'image et suggère qu'il pourrait s'agir d'une fracture.
