Prédire ses ventes grâce à l'IA : quelles données utiliser et comment les exploiter ?

En vue de construire le modèle prédictif, on distinguera les variables dites endogènes, dans le cas présent les ventes, des variables exogènes comme la concurrence ou la météo.

Dans le contexte actuel, mouvant et incertain, prévoir les volumes de vente selon la situation du moment s'avère être un précieux atout. Pour optimiser ses stocks, ajuster sa force de vente ou décider de l'ouverture de points de vente, le machine learning est capable de prédire les ventes avec précision. Pour cela, il doit s'appuyer sur de multiples variables et typologies de données. Quelles sont ces données et comment les exploiter ?

Données endogènes versus exogènes

Les variables dites endogènes sont directement liées à la prédiction désirée, dans le cas présent les ventes. Il peut s’agir du prix d’un produit, de l’emplacement d’un point de vente, du nombre de vendeurs, etc. Même si ces éléments sont connus et facilement accessibles, le défi consiste à les extraire de manière ciblée. En effet, même si le machine learning est capable de comprendre l’importance relative d’une variable par rapport à un objectif fixé, le cumul de données endogènes peut s’avérer contre-productif et fausser les résultats.

Pour la meilleure sélection des variables endogènes, il est indispensable de s’appuyer sur l’expertise métier et sectorielle.

Les données endogènes les plus fréquemment utilisées :

  • La saisonnalité : depuis la saison jusqu’au jour du mois (jour de paye en fin de mois), vacances scolaires, soldes, événements marquants type Black Friday…
  • Le produit : marque, catégorie, packaging, avis…
  • Le prix : réductions, évolution du prix, mécanisme promotionnel…
  • La force de vente : rémunération, qualification, nombre…
  • Le point de vente : localisation, taille, assortiment…
  • Le canal : physique, web, drive, livraison, relais colis…
  • Les promotions : budget publicitaire, merchandising, réseaux sociaux, catalogues…

Les variables exogènes, elles, sont des données externes à l’entreprise et décorrélées du ou des produit(s)/service(s) à vendre. Il s’agit par exemple de la météo, du trafic routier ou encore de la densité concurrentielle autour d’un point de vente. Ces données, si elles existent, ne se trouvent pas dans les bases de données de l’entreprise. Il faut donc aller les chercher ailleurs afin de les intégrer aux modèles prédictifs. Là encore, il faut être attentif à leur pertinence, car certaines améliorent la prédiction et d’autres induisent en erreur la modélisation, et génèrent ainsi du bruit.

Les données exogènes les plus fréquemment utilisées :

  • La concurrence : nature, densité, chevauchement des offres…
  • La météo
  • L'indicateurs macroéconomiques : salaire moyen, taux d’inflation, cours de bourse, taux de change…

Données maîtrisées versus subies

Dans l’ensemble des données récoltées, seule une partie des variables sont maîtrisées. Un point de vente maîtrisera le prix de ses articles, les emplacements dans les rayons ou la qualification de sa force de vente par exemple. D’autres données, en revanche, sont subies par le prévisionniste, qui ne peut avoir d’influence sur l’importance de chacune d’entre elles. Ce sont des éléments comme la météo, les événements locaux, le pouvoir d’achat des ménages ou encore la législation.

Ces données subies jouent sur la variance, autrement dit l’écart entre prévisions et résultats réels. Il est donc nécessaire de les prendre en considération tout en pondérant leur poids dans la construction du modèle prédictif.

La crise sanitaire liée au Covid-19 fait apparaître de nouvelles variables subies et temporaires qu’il faut prendre en compte : déconfinement régional, circulation du virus et niveau de contamination, ouvertures des écoles et restaurants scolaires, contraintes de déplacement, ouverture des frontières et nouvelles habitudes de consommation.

Quelles que soient les données à disposition, un système de prévision n’est jamais statique. Il doit constamment évoluer et intégrer de nouvelles données endogènes et exogènes. Généralement, le rafraîchissement intervient à l’occasion d’une ouverture d’un nouveau magasin, d’un lancement produit ou tout simplement de nouvelles ventes.

D’autres peuvent être issues de l’open data, par exemple les publications des informations liées à la fréquentation des trains par la SNCF ou la RATP.

Des variables spécifiques – et donc subies – permettent aux algorithmes de comprendre l’aspect particulier d’une période, une situation économique spéciale telle que celle que nous vivons actuellement. De même, certaines variables auparavant considérées comme du bruit, peuvent gagner en importance dans la construction des modèles, telles que la tendance du bio ou du Made in France.

Une fois la récolte des données finalisée, l’étape suivante consiste à bien différencier corrélation, causalité et coïncidence comme lien entre chaque variable. On entre à ce stade dans une nouvelle étape de la prédiction des ventes.