Hive uberise le machine learning
La start-up américaine sous-traite la labellisation des datasets de ses modèles d'apprentissage via une app mobile. Elle revendique 700 000 contributeurs à travers le monde.
Originaire de San Francisco, Hive a fait des modèles de machine learning sa spécialisation. Fort de 30 millions de dollars levés, la start-up compte une centaine de salariés. Baptisé Hive Data, son produit phare génère les datasets d'entrainement nécessaires à la vision par ordinateur. L'enjeu est d'aboutir à des bases d'images (marques, produits ou autres objets) correctement identifiées. Des bases d'exemples sur lesquelles les algorithmes d'apprentissage peuvent ensuite s'adosser dans l'optique d'aboutir à des algorithmes généralisables, c'est-à-dire capables d'extrapoler et reconnaître des sujets au sein de clichés inédits. Or, l'étape en question, qui consiste à créer des correspondances entre des illustrations et ce qu'elles contiennent, ne peut se faire sans intervention humaine. Pour relever ce défi, Hive a lancé une app mobile (Hive Work). Comparable à un Uber du machine learning, elle compte pas moins de 700 000 contributeurs à travers le monde, rémunérés selon un barème complexe.
"Ce chiffre ne cesse d'augmenter. Pour l'heure, nos contributeurs sont principalement basés en Asie et en Amérique du Sud. Mais leur nombre en Europe devrait s'accroître significativement en 2019", estime Kevin Guo, CEO et cofondateur de Hive. "Pour garantir la qualité du processus, la labellisation fait l'objet d'une validation croisée entre plusieurs contributeurs. En plus, nous contrôlons la qualité de ces derniers en leur soumettant des images dont nous avons préalablement qualifié la labellisation pour voir s'ils ne se trompent pas." Résultat : via Hive Work, environ 10 millions de tags sont associés chaque jour à des contenus, avec à la clé un taux de précision atteignant 99%.
En aval, la jeune pousse commercialise un environnement (Hive Predict) pour personnaliser les modèles découlant des datasets créés. La start-up met également à disposition des algorithmes verticaux, par exemple pour identifier des logos ou des contenus jugés inappropriés dans des images (photos ou vidéos). Là encore, les résultats affichés atteignent des niveaux de précision records, jusqu'à 98%.
"Nous travaillons sur un algorithme de speech-to-text et sur un outil de publicité contextuelle"
Aux côtés de son offre standard, Hive propose une solution d'IA spécifique au monde des médias. Il s'agit d'une solution d'ad analytics qui permet aux acteurs du secteur de détecter (via sa techno de reconnaissance d'image) le passage de plus de 4 millions de marques sur pas moins de 160 chaînes de télévision. Grâce à un partenariat avec PlaceIQ, Hive corrèle la diffusion des publicités TV avec le niveau de fréquentation des boutiques des annonceurs situées à proximité de la localisation des téléspectateurs. Une manière d'évaluer le taux de transformation des campagnes.
En parallèle, l'éditeur accompagne des entreprises sur des problématiques plus spécifiques. Par exemple dans la création de modèles d'apprentissage visant à anticiper les pannes d'équipements industriels ou pour prédire les cycles de vente de produits. Mais la société s'attaque à beaucoup d'autres problématiques d'IA : l'estimation de l'âge d'une personne, du genre, la classification automatique de produits, la détection d'éléments suspects dans les flux vidéo (explosion, coups de feu), etc. "Nos clients sont principalement de grandes entreprises basées en Amérique du Nord et en Europe", précise Kevin Guo.
Sous le capot, Hive déploie sa plateforme sur un cloud privé. La société fait notamment appel au framework de deep learning open source Tenserflow de Google. Certains de ses datasets comptent des dizaines de millions d'exemples. Pour entraîner ses modèles, la start-up met en œuvre une infrastructure de cluster de calcul graphique (ou multi GPU) reposant sur un hardware fait maison. "Dans l'optique d'optimiser nos temps de traitement, il nous arrive de paralléliser nos processus de learning sur des grappes de 100 GPU", révèle Kevin Guo. Quant à la mise à disposition de l'IA finale, elle transite par une couche d'API mise à la disposition des clients.
Pour la suite, Hive entend améliorer ses modèles de learning existants mais aussi en développer de nouveau. "Nous travaillons sur un algorithme de speech-to-text (là encore, le réseau Hive Work sera mis à contribution pour la création des datasets, ndlr) et sur un outil de publicité contextuelle permettant de personnaliser les contenus promotionnels en fonction du contexte de l'utilisateur, de là où il se trouve", confie Kevin Guo. Une nouvelle levée de fonds "plus significative que la première" est également envisagée en 2019.