Big Data et Machine learning, ou pourquoi une vache connectée trouve l'herbe plus verte dans le cloud

Nous laissons tous une empreinte numérique derrière nous. Peut-on créer de la valeur avec cette source d’information ? Un usage créatif de ces données pourrait ouvrir un champ des possibles particulièrement excitant, pour nous... comme pour la race bovine !

Vous souvenez-vous du son strident qui accompagnait vos premières connexions internet ? Dans mon cas, âgé de 40 ans et père de deux enfants, lorsque j’entends à nouveau ce screeeeeeeechhhhhhhhhh je ne peux m’empêcher d’esquisser un sourire nostalgique. Ce son n’est pas sans me rappeler le cri d’un nouveau-né, et cela me fait désormais sourire car avec le temps, les bons souvenirs de la paternité ont éclipsé les couches pleines et les nuits blanches.

D’une certaine façon, le son de votre routeur était le cri d’un bébé internet, une époque durant laquelle se connecter était une profession de foi et avoir un logo enflammé sur sa homepage le comble de la créativité. Or depuis, le World Wide Web a bien grandi.

Petits pas vers Big Data

Ce son était – littéralement - le premier signal de nos empreintes numériques. Nous nous connections, et à ce même instant, la Big Data voyait le jour.

Que nous apprenaient ces signaux primaires ? Pas grand-chose, si ce n’est combien de personnes étaient en ligne et, très approximativement, où elles se trouvaient. Mais avec l’avènement de la toile de documents et le développement des moteurs de recherche, notre capacité à comprendre les internautes a décuplé. Nous pouvions dès lors mieux comprendre ce que vous aviez en tête. Après tout, vous recherchez des choses parfois si intimes que vous ne les partagez pas même avec vos amis les plus proches. Les requêtes sont, sur le plan personnel, une expression de vos désirs et au niveau global, une expression de la conscience collective. Ce que l'on appelle « l’esprit du temps », ou "Zeitgeist".

Bien qu’ayant passé les dix dernières années dans la publicité en ligne, je vais me concentrer dans cet article moins sur l’aspect marketing que sur l’architecture de l’information et l’apprentissage profond, pour explorer comment ils peuvent influencer notre avenir. Que pouvons-nous faire avec cette masse de données que nous produisons ? Au cours des douze derniers mois, j’ai interrogé nombre de personnes à travers l’Europe afin de savoir ce que la collecte de données leur inspirait. La réponse était empreinte de malaise et d’hésitation… Tout du moins, jusqu'à ce que leurs perspectives soient élargies. C’est l’ambition de cet article.

L’expansion des données

Revenons à notre histoire. Afin de comprendre la croissance exponentielle des données à laquelle nous contribuons tous, et par là même sa complexification, penchons-nous sur quatre macro-changements qui ont transformé les moteurs de recherche.

Tout d’abord, la fréquence de recherche. De quelques requêtes par jour à de multiples requêtes par heure, nous recherchons désormais sans cesse, et pas seulement nous, mais aussi les milliards de personnes qui se sont connectées à internet au cours de la décennie écoulée.

Deuxièmement, les points d’accès à la recherche. La plupart d'entre nous avait déjà un ordinateur de bureau il y a 20 ans. Mais un seul. Une boîte grise, froide, pratiquement scellée à votre bureau. Nous ne pouvions ni le mettre dans notre poche, ni l’emporter avec nous lors d’un dîner. Ici, je ne me limite pas uniquement aux ordinateurs. Pensez à tous ces outils connectés qui sont dotés de puissance de calcul : PC portable, tablettes, smartphones, TV, mais également votre voiture et maintenant votre réfrigérateur.

Le troisième changement est l’expression même de vos requêtes. Nous sommes passés d’un langage informatique qui nécessitait l’utilisation de caractères spéciaux comme & et autres guillemets pour générer des semblants de réponses pertinentes, à une expression plus naturelle, voire vocalisée. Par ailleurs, après avoir longtemps recherché « quoi », on veut désormais savoir « pourquoi... » et « comment... ». De fait, nous avons vu le nombre de requêtes commençant par pourquoi croître trois fois plus vite que les requêtes commençant par que ou qui. En somme, nous ne recherchons plus des informations, nous cherchons des réponses. Et nous faisons cela en corrélant nos recherches dans un réseau d’intentions connexes toujours plus complexe.

Enfin, l’intégration de la recherche avec d’autres infrastructures a profondément changé la donne. Longtemps, les moteurs de recherche furent traités comme un service isolé. Dorénavant, ils sont branchés sur le graphe social. Cela signifie que plusieurs univers sont interconnectés et avec eux une multitude de nouveaux signaux, des millions en fait, que seuls quelques super-ordinateurs sont capables de gérer, organiser, modéliser et restituer. Si, comme le décrivait John Battelle, les moteurs de recherche sont une base de données des intentions, les réseaux sociaux sont eux le dépositaire des sentiments. Nous avons donc désormais la capacité de traiter, d’analyser et de comprendre deux gigantesques sources d’informations historiques et instantanées.

La boule de cristal de la recherche

Or si nous pouvons analyser ce que les gens pensent et ressentent, si on peut modéliser ces tendances et faire des projections fiables, alors peut-on prédire les conséquences d’événements futurs ? C’est sur cette idée que Microsoft a développé un programme, Bing Predicts, qui modèle les données disponibles sur un sujet pour produire des prévisions extrêmement précises. Initialement, nous nous sommes penchés sur des programmes télévisés où le vote du public est déterminant, notamment American Idol, l’équivalent américain de La Nouvelle Star. Dans ce contexte, l’activité sur le web et les signaux sociaux sont hautement corrélés avec les intentions de vote. Si vous aimez un artiste, vous allez partager avec votre réseau vos impressions, vous voulez en savoir plus sur le chanteur, regarder son dernier clip… En prenant en compte ces données de recherche et les signaux sociaux publiques, Bing Predicts a pu anticiper avec exactitude qui serait éliminé chaque semaine et qui serait le vainqueur ultime.

De manière plus complexe, nous sommes ensuite tournés vers les événements sportifs. Lors de la Coupe du monde de football au Brésil par exemple, notre équipe a pronostiqué 100% des gagnants de la phase finale. Nous avions projeté la défaite du Brésil, et la victoire de l’Allemagne. Au cours de la dernière Coupe du monde de Rugby, nos prédictions sur l’ensemble du tournoi ont été 87% justes. Mêmes indices de qualité pour Wimbledon, la Ligue 1, le Calcio, la Liga ou le Tour de France. Surpris ?

Afin de prédire avec succès un résultat sportif, le nombre et le type de signaux que nous avons incorporés a quadruplé par rapport aux prédictions de vote. En effet, il est clair que la popularité seule ne permet pas de prédire si une équipe va gagner – désolé pour les fans, mais si c’était le cas, le RC Lens ou l’OM ne serait pas dans les tréfonds du football français. Les fans ont toutefois une valeur intrinsèque du fait de leur connaissance pointue des capacités, de l’état physique de leur équipe et de leur participation constante aux discussions à leur sujet. Nous pouvons donc surpondérer leurs signaux et adjoindre d’autres données comme les statistiques des joueurs et de leur équipe, les tendances du tournoi, l’historique de la compétition, les conditions topographiques et même météorologiques. Voilà comment nous avons réussi nos prévisions.

Enfin, nous avons tourné notre attention vers la politique et notamment le référendum écossais il y a deux ans. Les processus et les résultats ont été présentés à TEDxSuzhou (en anglais) et réappliqué pour des évènements comme le Brexit, les Primaires américaines… Mais il y a moyen d’aller encore plus loin, et que ce genre d’infrastructure de données ait un impact encore plus significatif, au niveau de la société, comme par exemple diagnostiquer un cancer et accroître les chances de rémission.

Au plus près

Tout cela est passionnant à une échelle globale ou nationale. Lorsque nous parlons de millions d’entrées, il n’est somme toute pas étonnant que ces prédictions soient justes. Après tout, il s’agit d’un énorme échantillon (20 millions d’utilisateurs uniques en France) sur lequel s’applique le jeu statistique. Mais quid d’exploiter les mêmes principes à un niveau plus individuel ? Est-il possible pour une machine d’apprendre suffisamment de choses sur vous pour pouvoir prédire avec exactitude votre prochain mouvement ? Ou anticiper vos besoins avant même d’en avoir formulé la demande ? C’est la promesse des assistants personnels numériques comme Siri, Viv ou Cortana.

Comme indiqué dans un précédent article, vous les configurez avec quelques informations de base sur vous-même, et ces applications vous aideront immédiatement dans la planification de vos rendez-vous, le rappel de tâches ou la recherche d’informations sur le web. Puis au fur et à mesure de vos interactions, l'assistant personnel va apprendre à vous connaître et sous peu vous enverra spontanément une alerte pour vous informer que vous devez quitter le bureau instamment pour être à l’heure pour votre prochain rendez-vous à République, parce qu’elle a trouvé des embouteillages sur votre itinéraire habituel.

Une nouvelle couche de données dans votre manteau

Ce genre de scénario est effectif dès à présent et il prend toute sa mesure avec les smartphones. Ces téléphones ne sont pas exactement des wearables, même si nous nous comportons parfois comme s’ils l’étaient, en les gardant sur nous en toutes circonstances. Or, les wearables ouvrent des perspectives encore plus attrayantes du fait du nombre encore plus grand de données générées et donc corrélables.

Lorsque je vous dis "wearables", vous pensez probablement à une smartwatch ou un de ces bracelets de fitness. Mais à nouveau, ce ne sont là que les premiers pas vers un potentiel qui reste à définir. Cette technologie est déjà aujourd’hui en mesure d’améliorer nos capacités, en tant qu’individus ou en tant que professionnels. En effet, les wearables peuvent capturer et communiquer des signaux tels que votre emplacement, l’heure de la journée, votre mode de transport – que vous soyez à pied ou en voiture –, vos plus récentes requêtes, votre itinéraire habituel pour rentrer du bureau, les conditions météorologiques ou votre état physiologique.

Ainsi, par exemple, si votre bracelet identifie que votre taux d’hydratation est faible, il pourrait prendre en considération votre position géographique, votre vitesse de déplacement, l’heure qu'il est et déclencher une notification vous informant que le café le plus proche de votre chaîne favorite est encore ouverte. Il pourrait même croiser cela avec votre récent engouement pour les "macchiatto" et le fait qu’il pleuve pour vous diriger vers un établissement avec plus de places couvertes et votre boisson favorite à la carte. Votre wearable pourrait même vous envoyer un coupon de ce café. Ce scenario est plausible et réalisable en l’état actuel des choses... Alors imaginez ce que l’on pourrait envisager demain.

Le futur est dans le pré

Tandis que la technologie des wearables se développe, les attentes envers l’expérience de cette technologie vont changer. Et pour le mieux. Après tout, à quoi bon accumuler des montagnes de données si vous n’en faites rien ? Que m’apporte de connaître mon nombre d’heures de sommeil ou le nombre de pas effectués dans la journée ? Si j’ai appris quelque chose de mon expérience dans le web, c’est qu’il n’y a guère de terrain plus fertile à la bonification créative des occasions inexploitées.

Je suis originaire des Alpes où j’ai passé la plupart de mes étés à arpenter la montagne avec ma grand-mère. Elle n’avait de cesse de me rappeler qu’à mon âge, elle ne regardait pas la télé ni ne jouait à la console. Elle s’occupait plutôt d’un troupeau de vaches dans ces alpages. Elle me racontait des histoires illustrant combien chacune de ses bêtes étaient presque comme un membre de sa famille. Elles avaient toutes un nom, et ma grand-mère pouvait dire quand quelque chose n’allait pas avec l’une d’entre elles.

Ces jours sont révolus. Aujourd’hui, une ferme ne compte plus une petite dizaine de têtes, mais des centaines. La relation personnelle avec chaque animal n’est plus une option. Or, cela soulève des questions logistiques énormes. Excusez le rappel de vos cours de biologie du collège, mais une vache a un cycle de fertilité très court. L’œstrus, c’est le terme technique, dure seulement 12 à 18 heures tous les 21 jours, et il se produit généralement entre 22 heures et 8 heures. Identifier ce moment précis serait donner aux agriculteurs une chance de succès accrue au moment d’inséminer leurs vaches. La technologie pourrait-elle aider ? Un agriculteur au Japon a sollicité Fujitsu et des chercheurs de l’Université de Kobe qui lui ont proposé une solution sous la forme d’un wearable, un podomètre pour être précis. Cela a permis de connecter les vaches au cloud, d’analyser les données et d’informer en temps réel l’agriculteur sur son smartphone.

Il s’avère que, quand une vache entre dans la phase d’œstrus, son pas s’accélère. En suivant la cadence de ses vaches, l’éleveur peut alors connaître le meilleur moment pour procéder à une insémination. La fiabilité de ce modèle prédictif est très forte : 95 % (les 5 % correspondent à des instances où la vache accélérait pour s’échapper de l’exploitation par une porte laissée ouverte).

Ce wearable est non seulement incroyablement précis, mais il a également permis de découvrir qu’il existe une fenêtre optimale pour la fécondation selon si vous désirez des veaux femelles ou mâles. Avec une probabilité de 70 %, un agriculteur doit féconder dans la première moitié de l’œstrus s’il veut accroître son cheptel de vaches à lait, ou dans la seconde moitié s’il a besoin de plus de taureaux. Mais cela ne s’arrête pas là : les chercheurs de Fujitsu ont ainsi pu aussi établir une corrélation entre la vitesse de marche du bovin et le risque accru de maladies génétiques et de pathologies.

C’est étonnant et excitant de voir ce que les données peuvent vous apprendre, si l’on sait comment les appréhender. Ce sont les joies de l’infrastructure de données. Nous pouvons faire des choses merveilleuses en capturant, analysant et restituant les données qui sont à notre disposition. Et vous, quelle était la dernière fois que vous avez trouvé une inspiration créatrice dans vos données ?