Reconnaissance vocale : les Gafa sont partis à la chasse aux start-up

Reconnaissance vocale : les Gafa sont partis à la chasse aux start-up Les quatre géants du net ont croqué neuf pépites du secteur entre 2010 et 2017 pour développer leurs assistants intelligents. Qui rachète qui et pourquoi ?

Les Gafa essayent de construire des appareils beaux parleurs, dotés d'une intelligence artificielle maîtrisant à la perfection l'art subtil de la conversation. Ces assistants vocaux peuvent être intégrés directement dans un smartphone ou une tablette, mais également sur des objets connectés installés dans la maison, au bureau, ou dans la voiture, comme les haut-parleurs intelligents d'Amazon et d'Alphabet, Echo et Google Home.

Pas besoin d'avoir les yeux rivés sur l'écran de son smartphone : l'internaute peut accéder au service d'Amazon ou au moteur de recherche Google pour consulter une recette de cuisine les mains pleines de farine. La maîtrise d'un système de commande homme/machine sans écran permet à ces multinationales de maximiser l'utilisation de leurs services et de collecter de nouvelles données sur leurs clients en pénétrant dans des zones de leur quotidien qui leur échappaient jusqu'alors, comme leur domicile ou leur véhicule donc.

Les quatre acquisitions d'Alphabet -Clever Sense, DNN Research, Emu et Dark Blue Labs- concernent des start-up de reconnaissance automatiques du langage naturel

Mais développer une intelligence artificielle capable d'entendre, de comprendre et de formuler une réponse pertinente pour un être humain est un challenge coriace, auquel les Gafa se sont attelés dès le début des années 2010 en rachetant des start-up du monde de l'IA. En mars et avril 2010 par exemple, Amazon et Apple mettent respectivement la main sur Yap et Siri. Apple sort l'année suivante la première version de son assistant personnel Siri, mais il est loin de répondre de manière satisfaisante aux questions parfois complexes que lui posent ses utilisateurs.

Car pour devenir une championne de la rhétorique, une machine doit intégrer quatre briques techniques différentes. Les deux premières concernent la réception d'un message sonore et les deux suivantes son émission. "Le logiciel doit tout d'abord effectuer un travail de reconnaissance vocale, qui consiste à comprendre quels mots ont été prononcés par une ou plusieurs personnes (transcription de sons en texte écrit). Ce n'est pas une étape facile car elle implique de maîtriser les accents dans différentes langues mais également de multiples rythmes et nuances de voix, quel que soit l'environnement sonore alentour", explique Pascal Arbault, le PDG de la société Davi qui conçoit des adjoints virtuels pour les professionnels. Etape numéro deux : analyser le sens du texte, mettre les phrases dans leur contexte grâce aux technologies de natural language processing (NLP), basées sur le machine learning, l'une des branches de l'intelligence artificielle.

Facebook et Apple se sont respectivement offert Wit.ai et Vocal IQ, qui développent des API pour que les développeurs intègrent leurs IA dans des objets connectés

L'appareil doit ensuite composer une réponse claire et compréhensible par l'Homme, sans qu'il n'ait à réaliser un pénible effort de traduction. Cette troisième brique technologique est également basée sur le NLP. Dans un quatrième temps, "l'IA prononce cette réponse grâce à une solution de synthèse vocale, qui doit être aussi naturelle que possible en traduisant un sentiment. Une phrase n'aura pas le même sens si elle est prononcée sur un ton informatif ou humoristique", souligne Pascal Arbault.

Reste une cinquième et dernière étape pour les Gafa, optionnelle cette fois-ci : s'emparer du marché de la commande vocale homme/machine (et des données qui vont avec). Pour cela, ils cherchent à intégrer leurs assistants vocaux dans un maximum d'applications mobiles et d'objets connectés développés par des tiers en les rendant accessibles aux développeurs via des API.

Comme le montre le tableau ci-dessous, Alphabet a particulièrement concentré ses acquisitions sur des start-up spécialisées dans la compréhension et l'émission de langage naturel. Les quatre acquisitions du géant (qui a sorti en juin 2012 et en mai 2016 ses deux assistants personnels vocaux Google Now et Google Assitant) concernent des start-up de reconnaissance automatiques du langage naturel. La multinationale s'est offert Clever Sense en décembre 2011, DNN Research (également spécialiste de la reconnaissance vocale) en mars 2013, Emu en août 2014 et Dark Blue Labs en octobre de la même année.

Les achats des Gafa en matière de start-up d'IA vocale
Gafa à l'origine du rachat Start-up Date du rachat Technologie Date de création de la start-up
Amazon Yap mars 2010 reconnaissance vocale mai 2006
Apple Siri avril 2010 traitement automatique du langage naturel (TALN) décembre 2007
Alphabet Clever Sense décembre 2011 TALN avril 2008
Alphabet DNN Research mars 2013 reconnaissance vocale et TALN 2012
Apple Nouvaris Technologies avril 2014 reconnaissance vocale juin 2005
Alphabet Emu août 2014 TALN février 2012
Alphabet Dark Blue Labs octobre 2014 TALN NC
Facebook Wit.ai janvier 2015 plateforme API octobre 2013
Apple Vocal IQ actobre 2015 plateforme API mars 2011

Après le rachat de Siri, Apple a cherché à travers ses acquisitions à développer la partie reconnaissance vocale de son intelligence artificielle. La firme à la pomme a mis la main sur le spécialiste Nouvaris Technologies en avril 2014, une start-up créée par John Bridle et Melvyn Hunt. Ces deux chercheurs avaient déjà développé le logiciel de dictée Dragon NaturallySpeaking, qui a été racheté par le principal acteur indépendant de la reconnaissance vocale, l'éditeur américain Nuance Communications. C'est également sur cette brique que s'est concentré Amazon lorsqu'il a acquis Yap en mars 2010, pour concevoir son IA Alexa, intégrée notamment dans son haut-parleur intelligent Echo.

Les groupes Facebook et Apple, à travers sa troisième et dernière acquisition connue dans le secteur de l'IA vocale, se sont ensuite respectivement offert Wit.ai en janvier 2015 et Vocal IQ en octobre 2015. Ces deux start-up développent des plateformes API pour permettre à un maximum de développeurs d'intégrer les assistants personnels de chacun des groupes à leurs objets connectés ou applications (Facebook a lancé en août 2015 M, un assistant personnel disponible sur son application de messagerie Messenger qui n'est pour l'instant que tapuscrit, mais travaille sur un système vocal).

La partie reconnaissance vocale de l'assistant d'Apple Siri a été construite à partir des technologies de l'éditeur indépendant Nuance

Attention, cela ne signifie pas que les Gafa ne travaillent pas sur les autres champs de l'IA vocale. Les géants du net sont très discrets sur leurs acquisitions, espérant garder autant que possible un avantage concurrentiel sur leurs compétiteurs. Certains rachats ont donc probablement été passés sous silence.

Ces multinationales développent également certaines briques technologiques en interne, même si elles essayent au maximum de ne pas réinventer la roue pour éviter de perdre du temps. Pour ce faire, elles embauchent des scientifiques dotés d'une solide expérience. Apple a par exemple recruté en octobre 2016 le canadien Russ Salakhutdinov pour diriger son pôle de recherche en intelligence artificielle. Ce chercheur star de l'université californienne de Carnegie Mellon est un spécialiste du machine learning, une branche de l'IA qui permet notamment d'améliorer la reconnaissance automatiques du langage naturel.

Même s'ils préfèrent rester discrets sur le sujet, les Gafa travaillent aussi avec des partenaires. Ces relations doivent être prises en compte pour avoir une idée juste de leur stratégie dans le secteur. La partie reconnaissance vocale de l'assistant d'Apple Siri a par exemple été construite à partir des technologies de l'éditeur indépendant Nuance. Comme la maîtrise de la chaîne de valeur de bout en bout reste le graal, surtout pour une société connue pour son goût des systèmes propriétaires comme Apple, l'information n'a été confirmée qu'en mai 2013, soit plus de deux ans après la sortie de Siri.