Impayés : la data et l'IA peuvent-elles prédire les risques clients ?

La crise risque de mettre à mal des portions importantes de vos segments de clientèles et incidemment générer des difficultés de trésorerie. Les équipes de management du risque et du recouvrement vont devoir redoubler d'efforts, voire faire appel à de nouveaux outils.

Si la tentation est grande de devenir plus flexible sur les conditions de souscriptions imposées aux nouveaux clients afin d’accélérer le business, il faut se garder de générer des impayés plus nombreux encore à court terme. Dès lors, bien prédire, ou mieux prédire, ses futurs mauvais payeurs devient incontournable à l’ère du post-Covid.

Les apports d’un score de fragilité et de risque d’impayé

La volumétrie des données clients et prospects accessibles devient de plus en plus importante. Ces gisements de données constituent donc une opportunité permettant à la fois une connaissance approfondie des clients et prospects, mais en même temps une difficulté accrue pour les équipes d’analyser les risques dans le respect des contraintes juridiques RGPD. Dès lors, la data science et le recours aux algorithmes de prédiction permet une analyse rapide et en temps réel d’une grande quantité d’informations pour proposer une aide à la décision objective et efficace à la vérification humaine des opérations à risque.

Les bénéfices immédiats sont observables sur toute la chaîne métier pour les équipes recouvrement. En aval, avec des dossiers d’impayés à relancer moins nombreux, ce qui désengorge le service. Mais aussi en amont, avec des ressources plus disponibles, notamment pour la partie analyse des risques et accompagnement des clients sur des services plus adaptés à leur situation économique. Côté clients, pour les moins fragiles, cela leur facilite également l’accès aux services (tout en optimisant le chiffre d’affaires et les rentrées rapides de revenus pour l’entreprise). En conséquence, l’image de l’entreprise en bénéficie aussi en retour par la fluidification des process de souscriptions et les gains de temps sur les contrôles.

Enfin, l’entreprise conserve un niveau de flexibilité bien plus important sur les arbitrages métiers en corrélant directement les niveaux de risque et de probabilité d’impayés aux outils de prévention traditionnels : avances sur consommation, limitations provisoires de service, accompagnement vers des niveaux de services plus adaptés, etc. Vous pouvez automatiser et systématiser l’analyse de risque, tout en diminuant la subjectivité des critères entre les conseillers effectuant l’évaluation et en augmentant l’homogénéité dans le temps de votre score.

Définissez votre objectif et l’indicateur métier que vous cherchez à prédire

En data science, l’expérience montre qu’il est souvent plus simple de classifier les clients en catégories plutôt que d’essayer de prédire directement une variable continue (par régression). Dans un premier temps, une méthode de classification binaire pourra donc être privilégiée. Donc pour commencer, il est essentiel de définir précisément d’un point de vue métier la notion de "bon payeur" ou "mauvais payeur". Quel niveau d’ancienneté sans impayés est requis pour déterminer un bon payeur ? A l’inverse, quel nombre ou montant d’impayés pour qualifier un mauvais payeur ? Y-a-t-il des exceptions à prendre en compte ? Par exemple, toutes les erreurs techniques de prélèvement SEPA génératrices d’impayés doivent-elles être mises de côté ?

Les réponses à ces questions permettront de définir précisément l’échantillon de données clients étiquetées et l’historique nécessaire qui servira d’entraînement à l’algorithme d’apprentissage.

Explorez vos données et sélectionnez les plus pertinentes

Prédire justement le caractère "mauvais payeur" suppose d’avoir les données les plus pertinentes possibles. Il conviendra donc de les croiser au maximum afin d’intégrer le plus de connaissance possible sur le client : historiques des ventes, données sociodémographiques, comportementales, financières, relances et recouvrements, etc. L’enrichissement avec des données externes macro-économiques ou épidémiologiques peut aussi permettre de faire ressortir des spécificités régionales et booster les résultats de vos algorithmes !

Une fois les variables pertinentes rassemblées, tout un travail d’exploration, de nettoyage et de sélection des informations les plus adaptées doit ensuite être effectué afin que l’algorithme de machine learning apprenne sur des données saines et prometteuses. Un outil d’agrégation, normalisation et nettoyage bien choisi pourra accélérer aussi la mise en place d’un workflow de transformation des données en toute transparence.

Choix de l’approche pour l’apprentissage automatique

De nombreuses méthodes de machine learning ont été développées au cours des dernières années et ayant chacune leurs spécificités. Il est donc recommandé de faire une présélection des méthodes adaptées au problème posé puis de les mettre ensuite en compétition.

Les réseaux de neurones sont régulièrement évoqués. Ils peuvent donner des résultats remarquables et modéliser des phénomènes très complexes lorsqu’une volumétrie de données conséquentes est à disposition. Mais ces méthodes sont souvent considérées comme des "boîtes noires" et ne sont pas toujours la meilleure solution. Pour une bonne explicabilité du modèle, il vaut mieux privilégier par exemple des méthodes ensemblistes qui permettent d’extraire l’importance de chaque variable dans la prédiction finale (Random Forest, Boosting) et donnent de très bons résultats.

Pour éviter les "effets tunnels", nous recommandons une approche pragmatique et itérative de test & learn. Celle-ci consiste en plusieurs cycles d’entraînement du modèle réalisé et test des résultats avec une métrique de performance permettant d’évaluer le niveau de confiance dans les prédictions retournées par l’algorithme.

Trois pièges à éviter

Si la démarche globale est simple et que des résultats rapides peuvent être atteints en deux mois seulement, pensez à vous faire accompagner sur les aspects sur lesquels vous vous sentez le moins à l’aise. Trois aspects courants sont à surveiller.

Tout d’abord, gardez-vous du "surapprentissage" de votre modèle prédictif ! Il apparaît lorsque qu’un algorithme d’apprentissage donne de très bons résultats sur les données d’apprentissage, en capturant très bien les subtilités de ce jeu de données, mais généralise très mal le problème à de nouvelles données.

Il peut aussi arriver que le jeu de données soit déséquilibré (unbalanced dataset) : les "bons payeurs" étant très majoritaires aux "mauvais payeurs". Le risque est que l’algorithme fasse une prédiction évidente qui consiste à taguer tous les clients comme "bons payeurs", tout en ayant de très bons résultats (les "mauvais payeurs" étant minoritaires, peu de clients seront mal classés).

Enfin, il peut exister un biais de sélection dans l’échantillon entre la population cliente existante (permettant l’entraînement du modèle) et la population de souscripteurs à évaluer. En effet, votre équipe risque fait sûrement déjà un travail d’analyse et de contre-mesures basé sur des critères bien déterminés. Ceci a pour effet de bloquer un certain nombre de souscriptions qui correspondent à ces critères de risque. La population cliente finale est donc biaisée et les facteurs de risques actuels sont sous-représentés.

Mais heureusement les data scientists sont plein de ressources et possèdent les outils nécessaires pour se prémunir de chacun de ces obstacles. Pour le dernier par exemple, des techniques dites de "débiaisage" permettront de pallier ce problème.