Première mondiale : Facebook AI Research industrialise la reconnaissance d'images

Première mondiale : Facebook AI Research industrialise la reconnaissance d'images Une équipe de chercheurs franco-américaine du groupe démontre qu'il est possible de créer un modèle de vision auto-supervisé partant d'un data set d'apprentissage massif, aléatoire... et non-labellisé.

Les laboratoires en intelligence artificielle de Facebook basés à Paris et à New York sont parvenus à créer un modèle de reconnaissance d'images entrainé à partir d'un volume massif de données photographiques non-étiquetées. Un modèle dont les résultats sont étonnamment précis. Bâti à partir d'un data set d'apprentissage d'un milliard de photos piochées de manière aléatoire sur Instagram, il atteint un taux de reconnaissance de 84,2% en le confrontant à ImageNet, une base de données d'images de référence dans l'IA. Contre 81% atteint à périmètre équivalent sur une architecture de learning supervisé de dernière génération (basée sur RegNet) déployée par Facebook pour l'occasion. Mieux encore : en partant d'un entrainement sur seulement 1% des 14 millions de contenus stockés dans ImageNet, sa performance se hisse à 60,5% sur l'ensemble de la base du même nom.

"L'objectif était de démontrer la supériorité de l'apprentissage auto-supervisé sur l'apprentissage supervisé. Ce qui avait déjà été réalisé sur de petits data sets d'entrainement présélectionnés et filtrés, mais jamais sur des milliard d'images aléatoires. C'est désormais chose faite. D'autant que nous ne nous attendions pas à atteindre ce niveau de performance sur ImageNet", se félicite Armand Joulin, chercheur français au sein de FAIR Paris.

Baptisé SEER (pour SElf-supERvised), le modèle de Facebook combine le réseau de neurones convolutifs RegNet avec SwAV, un algorithme de clustering auto-supervisé conçu par FAIR.

Le modèle de Facebook associe un réseau de neurones (à gauche) à un algorithme en ligne de clustering auto-supervisé (à droite). © Facebook

"SwAV clusterise sur une même machine les images aux caractéristiques graphiques similaires", explique Armand Joulin. Grâce à une exécution dite "en ligne", le modèle s'entraine sans repasser une seconde fois sur les mêmes données. Au lieu de comparer toutes les photos entre elles à la manière d'un algorithme contrastif, il les compare au fur et à mesure de leur ingestion aux caractéristiques de chaque cluster. "Cette technique a permis d'aboutir à une phase de learning six fois moins longue comparé à l'état de l'art précédent en apprentissage auto-supervisé", argue-t-on chez Facebook. Armand Joulin ajoute : "Toute la difficulté consistait à savoir comment obtenir ces clusters, et comment les mettre à jour à la volée en tenant compte des nouvelles images. Le tout de manière efficace et à grande échelle."

"SEER s'applique à n'importe quelle base d'images, sans nécessiter de data préparation, tout en réduisant les biais"

Le principal défi technique du projet ? La taille du modèle. Pour atteindre le niveau de performance et de précision ciblé, il devait non seulement absorber des milliards d'images, soit un volume environ 100 fois supérieur à celui des méthodes supervisées, mais aussi atteindre un milliard de paramètres. C'est là où RegNet entre dans la danse. Doté d'une architecture à la hauteur en termes d'exécution et de gestion de la mémoire, le réseau de neurones convolutifs est en effet conçu pour gérer jusqu'à des trillions de paramètres.

L'auto-supervisé bat le supervisé

Au final, SEER parvient donc à dépasser la performance des méthodes d'apprentissage supervisé, tout en passant outre la labellisation du dataset d'entrainement. "En evitant l'étiquetage, on gagne beaucoup de temps et on évite de se focaliser sur un signal lié à l'annotation comme le type d'objet. Cela permet aux representations d'être plus générales", détaille Armand Joulin.

Autre bénéfice de SEER, et pas des moindres : il pourra permettre de développer des modèles dans des domaines où les data set sont limités, telle l'imagerie médicale par exemple. Un élément clé à l'heure où les laboratoires pharmaceutiques sont dans la course aux traitements et vaccins contre le Covid et ses variants. Mais au-delà de la santé, la découverte de Facebook peut répondre à beaucoup d'autres cas d'usage. On peut penser à la détection de produits défectueux sur les chaînes de montage, à l'identification des étalages nécessitant des réapprovisionnements en magasin, ou encore au repérage de mouvements suspects via la vidéosurveillance. La liste n'est évidemment pas exhaustive.

Vers un modèle universel de vision

Facebook publie en open source la bibliothèque (baptisée VISSL) mise au point pour bâtir SEER. Reposant sur PyTorch, sa célèbre librairie de deep learning, elle regroupe différentes méthodes auto-supervisées taillées pour optimiser la vitesse d'apprentissage tout en réduisant la consommation GPU nécessaire. Elles recourent notamment aux technologies open source Nvidia Apex, Torch.utils.checkpoint ou encore FairScale. Des scripts et exemples sont proposés pour gérer des process d'entrainement à différentes échelles, de quelques centaines de milliers à un milliard d'images. SEER est construit avec les mêmes outils que VISSL précise Facebook, mais combinés à un chargeur de données personnalisé pour PyTorch avec un débit plus élevé que la solution proposée par défaut dans la bibliothèque.

"La communauté va ainsi pouvoir s'emparer de notre découverte et appliquer notre modèle à des data set aléatoires à la fois plus volumineux et plus variés. L'avantage de SEER est de pouvoir fonctionner immédiatement avec n'importe quelle base d'images, sans nécessiter de data préparation, tout en réduisant les biais comme évoqué précédemment. Les projets tirant parti de VISSL devraient rapidement se multiplier", conclut Armand Joulin. Et pour la suite ? "La prochaine étape sera d'aboutir à un modèle universel de vision par ordinateur capable d'ingérer des quantités d'images encore plus importantes." On a hâte de voir ça !