Comment le machine learning va transformer le secteur de l'assurance ?

Alors que l’utilisation du machine learning se démocratise dans l'assurance, quatre aspects semblent ressortir de l’adoption de cette technologie et de son potentiel de valeur ajoutée dans ce secteur.

Le machine learning va sans nul doute changer la façon dont les assureurs exercent leur activité. Le secteur des assurances se base sur des prévisions d’événements futurs et sur l’estimation de la valeur/de l’impact de ces événements, et utilise depuis quelque temps des pratiques de modélisation prédictive établies, surtout dans le domaine de la prédiction des pertes liées aux indemnisations. Avec le big data et les nouvelles sources de données, comme les capteurs/la télématique, les sources de données externes (Data.gov), le digital (interactions), ou encore les réseaux sociaux et le web (sentiment), les organisations n’ont jamais eu autant d’occasions d’appliquer les techniques de machine learning à de nouveaux aspects des opérations d’assurance.

Le machine learning est devenu essentiel pour les assureurs qui l’utilisent d’un bout à l’autre de la chaîne de valeur pour comprendre le risque, les demandes d’indemnisation et l’expérience client. Plus spécifiquement, cela confère aux compagnies d’assurance une capacité prédictive plus précise, applicable à des modèles plus flexibles et complexes. Contrairement aux méthodes statistiques traditionnelles, le machine learning tire profit de la puissance de la data analytics et permet de mettre en relation des jeux de données apparemment sans rapport, qu’ils soient structurés, semi-structurés ou non structurés.

A titre d’exemple, les modèles prédictifs basés sur le machine learning prennent désormais en considération :

Les données structurées : type de perte, montant de la perte, ID du médecin, etc.
Le texte : les notes, fichiers journaux, factures médicales, rapports d’accident, dépositions, données sociales, factures, etc.
Les données spatiales, graphiques : la position de l’accident, la position du lieu de travail, la relation entre les parties (médecin, l’assuré, services d’indemnisation), etc.
Les données temporelles : la séquence des événements/actions, la date de la demande d’indemnisation, la date de l’accident, la durée entre les événements/actions, etc. Plus que jamais, les assureurs sont capables d’évaluer des quantités massives de souscriptions/notes des demandes d’indemnisation et fichiers journaux (données non structurées), en plus de la documentation plus standard.

La tarification en fonction du risque, l’estimation des pertes et la détection de la fraude sont des aspects critiques auxquels le machine learning peut s’appliquer. Les assureurs introduisent principalement les algorithmes de machine learning pour gérer l’analytique de similarité des risques, la propension au risque et les fuites de primes. Ils s’en servent aussi pour analyser la fréquence/sévérité des demandes d’indemnisation, pour gérer les dépenses, pour la subrogation (assurances générales), pour les litiges et la fraude.

L’un des use cases les plus impactants du machine learning concerne la possibilité de se nourrir des audits de dossiers réglés, puisque pour la toute première fois le risque de fuite devient contrôlable par l’assureur. Les audits des demandes d’indemnisation reposent traditionnellement sur un processus manuel. Toutefois, les techniques de machine learning permettent d’apprendre tout au long du cycle de vie des demandes grâce à des méthodes optimisées de notation et de traitement.

Ces algorithmes de traitement des demandes peuvent aussi servir à surveiller et détecter la fraude ; toutefois, ces algorithmes sont directement dépendants du nombre de cas de fraudes aux demandes d’indemnisation/instances qu’une compagnie d’assurance détecte, car les sets de données sont fondamentaux pour construire des modèles traditionnels et de machine learning.

Le machine learning permet une identification plus précoce de la fraude, ainsi qu’une amélioration des techniques de lutte contre la fraude. Le point d’attention principal pour les assureurs consiste à réduire les résultats positifs erronés et à appliquer les algorithmes de machine learning de façon à déterminer quelles sont les demandes potentiellement frauduleuses parmi les demandes légitimes.

Les compagnies d’assurance qui appliquent cette technique réduisent la fraude de deux façons : par l’identification plus précoce de la fraude et l’allocation de plus de main d’œuvre aux investigations de fraudes. La satisfaction client progresse également puisque de cette façon les demandes valides sont réglées plus rapidement.

Rien ne démontre mieux l’impact d’une technologie que son application concrète comme dans les cas de fraude aux assurances. Au moyen du machine learning, les assureurs peuvent charger les données des demandes d’indemnisation (structurées, non structurées et semi-structurées) dans un immense référentiel, que l’on appelle souvent un datalake. Cette méthode diffère des modèles prédictifs traditionnels qui n’exploitent que des données structurées. Les notes des demandes d’indemnisation, fichiers journaux et documents sont incontournables pour détecter la fraude et développer des modèles de fraude. En cas de détection d’une fraude, la procédure se décline comme suit :

Phase d’apprentissage : il s’agit d’apprendre à partir de « données d’entraînement » ou de demandes d’indemnisation frauduleuses et valides. Cela consiste en un traitement préalable (normalisation, réduction de dimensions, traitement d’image si l’on utilise des photos, images aériennes, etc.), en un apprentissage (supervisé, non supervisé, minimisation, etc.) et en une analyse d’erreurs (précision, rappel, surapprentissage ou overfitting, test/validation croisée, etc.).
Phase de prédiction : on utilise ici le modèle de la phase d’apprentissage que l’on applique à de nouvelles données et que l’on déploie pour détecter et repérer la fraude.
Phase d’apprentissage continu : cette phase recalibre continuellement vos modèles avec de nouvelles données et de nouveaux comportements.

En plus du machine learning, l’Analytique graphique (Graph Analytics) gagne en popularité grâce à sa capacité de visualisation des scénarios de fraude.

L’utilisation de Graph Analytics est une nouvelle méthode qui permet d’utiliser un réseau neuronal et les réseaux sociaux, ce qui est primordial dans l’analyse de la fraude aux demandes d’indemnisation. Cette méthode tend à prendre le pas sur les méthodes plus traditionnelles de notation des demandes ou les règles métier (que l’on appelle « modèle de repérage ») qui peuvent générer trop de résultats positifs erronés.

Une technique Graph Analytics peut vous aider à comprendre les relations entre les données et permet aussi de mener des investigations sur des cas individuels de fraude aux demandes d’indemnisation. Cette méthode permet aux compagnies d’assurance de visualiser plus rapidement les scénarios de fraude par rapport aux modèles de notation traditionnels.