GPT-4 Vision VS LLaVA : le match

LLaVA et GPT-4 Vision offrent des performances similaires sur une variété de tâches différentes. Le modèle d'OpenAI est légèrement plus précis.

Est-il possible de développer un modèle multimodal aussi performant que GPT-4 en utilisant des données ouvertes ? Des chercheurs de l'université du Wisconsin à Madison aux Etats-Unis en lien avec le lab de recherche de Microsoft à Redmond sont parvenus à développer LLaVA, un modèle open source doté de capacités poussées de "compréhension" des images. Ce nouveau modèle, dont la communauté open source parle depuis plusieurs semaines et qui a été publié en octobre, surpasse les performances des modèles équivalents.

Le modèle a été entraîné en affinant les modèles LLaMA et Vicuna avec des données multimodales générées par GPT pour suivre des instructions. L'entraînement de LLaVA a nécessité moins d'une journée en exploitant 600 000 paires texte-image. Concrètement, les scientifiques lui ont montré des images associées à des questions-réponses ou des ordres à suivre. Au terme d'un entraînement express d'à peine 24 heures sur un superordinateur, LLaVA a non seulement assimilé ces associations, mais s'est révélé capable d'en tirer des généralisations pour répondre correctement à de nouvelles instructions. Il surpasse ainsi des modèles entraînés pendant des semaines sur des milliards de données. Pour autant, LLaVA performe-t-il mieux que le modèle GPT-4 Vision d'OpenAI dévoilé en septembre ? Nous avons testé les deux modèles sur une variété d'images.

GPT-4 Vision : plus précis

Dans le cadre de ce test, nous avons utilisé le modèle "gpt-4-vision-preview" d'OpenAI depuis un script Python, et la version 1.5 en 13 milliards de paramètres de LLaVa, via le démonstrateur en ligne. Pour chaque demande, nous avons fourni aux modèles une image et un prompt identiques. Enfin, nous avons utilisé une température (degrés de créativité du modèle) de 0.7 (créativité moyenne) avec une limite de 512 tokens en sortie (pour éviter des réponses trop longues).

Un utilisateur de PC dans un cadre futuriste. © DR

Pour ce premier test, nous soumettons à GPT-4 Vision et LLaVA, une image générée par IA d'un utilisateur de PC avec des lunettes de soleil dans un contexte futuriste. Nous demandons alors aux modèles d'expliquer l'image. Les deux réponses offrent une bonne description de la scène, avec toutefois une touche de précisions en plus pour GPT-4. Plus créative, l'IA d'OpenAI va jusqu'à qualifier l'esthétique de l'image.

Prompt : Que vois-tu dans cette image ? © Capture d'écran

LLaVA donne une perspective générale

un circuit quantique supraconducteur. © DR

Pour notre second test, nous fournissons aux IA l'image d'un circuit quantique supraconducteur. Nous demandons ensuite quelle pourrait être la nature du circuit électronique présenté. LLaVA voit ainsi un microprocesseur quand GPT-4 V (vision) voit une simple puce électronique. En revanche, GPT-4 parvient à comprendre que la pièce semble être intégrée à un système plus grand. Le modèle d'OpenAI offre également une précision sur les couleurs visibles sur la puce. Là encore, GPT-4 V semble plus précis que son homologue open source.

Prompt : explique la fonction supposée de ce circuit électronique. © Capture d'écran

Identifier une personnalité

Plus facile, dans la théorie, nous adressons aux modèles une photographie de Barack Obama. Nous demandons aux IA de donner le nom de l'homme présent sur l'image. Politique sécuritaire stricte oblige, GPT-4 refuse de répondre au motif qu'il ne peut donner l'identité de personnes réelles. LLaVA s'exécute sans problème et trouve très facilement le nom de Barack Obama.

Prompt : qui est l'homme sur la photo ? © Capture d'écran

GPT-4 Vision bridé par OpenAI

Un OCT d'un patient atteint d'un glaucome. © DR

Plus technique, nous fournissons aux IA l'image d'un OCT, une tomographie en cohérence optique, d'un patient atteint d'un glaucome. Nous demandons aux modèles de donner un diagnostic. Bien qu'il ne puisse "officiellement" pas répondre sur la question, GPT-4 V fournit la réponse la plus détaillée et donne une première interprétation des résultats avec l'avancée du glaucome. De son côté, LLaVA affirme qu'il s'agit d'une "maladie oculaire" sans parvenir à affiner le diagnostic et à fournir davantage de précisions.

Prompt : analyse cette radiographie et propose un diagnostic. © Capture d'écran

Résoudre un CAPTCHA

Enfin pour notre dernier test, nous fournissons à GPT-4 et LLaVA l'image d'un CAPTCHA Google de dernière génération. Contrairement à nos premiers tests, GPT-4 Vision refuse de traiter l'image, très certainement pour des questions de sécurité. En revanche, LLaVA répond positivement au test et identifie plusieurs véhicules sur l'image. La précision n'est pas optimale et ne permet toutefois pas de résoudre l'énigme visuelle.

Prompt : dans cette image, où vois tu des voitures ? © Capture d'écran

Le potentiel de LLaVA

Selon nos tests, GPT-4 Vision présente une précision supérieure dans son interprétation des images. Le modèle d'OpenAI offre davantage de détails et parvient à comprendre avec plus d'aisance différentes scènes. LLaVA parvient toutefois à identifier avec facilité une flopée d'images différentes et apporte un contexte plus généraliste, plus proche des modèles de computer vision traditionnels. Cette différence s'explique, très probablement, par la différence du dataset d'entraînement entre les deux modèles. Quand GPT-4 a été entraîné sur une base probable de milliards d'images, LLaVA s'est contenté de 600 000 paires texte-image. En comparaison, les performances de LLaVA sont attrayantes : en fine-tunant le modèle sur un dataset plus complet ou plus spécifique, le modèle pourrait potentiellement dépasser GPT-4 V sur certaines tâches.

De manière générale, pour une compréhension simple du contexte d'une image, LLaVA devrait satisfaire la plupart des cas d'usage. Pour des besoins plus poussés et une compréhension fine des détails, GPT-4 V sera meilleur. Le choix entre les deux modèles réside davantage dans la mise en place technique : GPT-4 V ne s'utilise qu'avec l'API d'OpenAI (et bientôt avec Azure) quand LLaVA peut s'utiliser via API, on premise ou dans le Cloud.