Avant de les multiplier, apprenons à protéger les modèles d’intelligence artificielle

Les réseaux de neurones profonds, sont les modèles d’apprentissage IA les plus performants. Ce sont aussi ceux que l’on retrouve dans la majorité des environnements critiques, tels que les voitures autonomes, le diagnostic du cancer, la surveillance, la détection de fraude...


Pourtant, des recherches scientifiques démontrent qu'ils peuvent être facilement dupés. On imagine alors les conséquences néfastes, voire tragiques, de ces attaques. De quelles natures sont-elles et peut-on s'en prémunir ?
Différents types de vulnérabilité  

On distingue deux types de tromperie pouvant affecter l’apprentissage et ainsi les résultats finaux des réseaux de neurones : l’une provenant du monde numérique et l’autre du monde physique.

Provenant du monde numérique, il existe les algorithmes d’attaque adverse, surtout appliqués au domaine de l’apprentissage par vision par ordinateur. Ainsi, les études démontrent qu’un seul pixel manquant ou modifié peut tromper l’ensemble d’un modèle d’apprentissage basé sur la reconnaissance d’images. Il en est de même pour la perturbation audio, utilisée dans le cadre de la reconnaissance de la parole. Une infime modification du champ audio perturbe la totalité du rendu.

Il existe également le risque d’empoisonnement des données. Une pratique assimilable à un hacking informatique et durant laquelle une fraction des données d’apprentissage est contrôlée par un tiers et manipulée de manière à subvertir le modèle d’apprentissage. Cet empoisonnement est assez fréquent dans le cas de filtres anti-spam, de détection de programmes malveillants ou de reconnaissance manuscrite de chiffres.

Lorsqu’elles proviennent du monde physique, les attaques ou tromperies sur les modèles d’intelligence artificielle sont très évolutifs en raison des modifications de l’environnement (bruits, changement de lumière…). Néanmoins, prenons le cas d’un système de voiture autonome qui utilise les réseaux de neurones pour identifier les panneaux de signalisation routiers. Des perturbations, telles que des stickers de taille modeste collés sur le panneau ou un reflet lumineux, suffisent à mal interpréter le sigle en question.

Autre exemple avec les systèmes biométriques de reconnaissance faciale, largement utilisés en surveillance et en contrôle d’accès. Il a été démontré qu’une usurpation d’identité pouvait être réussie à l’aide d’une monture de lunettes imprimée en 2D. De même, les experts en sécurité vietnamiens de Bkav ont battu avec succès le Face ID de l’iPhone X avec un masque 3D coûtant moins de 200 $.

La meilleure défense… c’est l’attaque !
 

Comme illustré précédemment, il est clair qu’un certain nombre d’attaques peuvent entraîner un dysfonctionnement des réseaux de neurones et les inciter à se tromper. Dans certains cas, cela pourrait sérieusement compromettre la sécurité de ces systèmes et donner lieu à des conséquences graves. Par exemple, la mauvaise vision d’un véhicule autonome, un contenu illicite ou illégal peut contourner des filtres de contenu, ou des systèmes d'authentification biométrique peuvent être manipulés pour permettre un accès inapproprié.

Il est donc primordial de tester la robustesse des réseaux de neurones mis en œuvre dans les grandes organisations. Pour s’en assurer, la meilleure défense reste l’attaque !

En effet, les algorithmes d’attaque adverse, permettent d’envisager la plupart des offensives auxquelles les réseaux de neurones peuvent être soumis et d’en identifier les défenses adéquates. Ces cas pratiques sont répertoriés sur des plateformes à destination des data-scientists, dont certaines en open source, et fournissent des implémentations de référence d’attaques et de défenses. Ces bases de données ont permis en outre de définir des métriques pour calculer la vulnérabilité des réseaux de neurones.

Ces scénarios d’attaque sont caractérisés selon leur stratégie offensive, leur taux de perturbation, leur taux de succès et les coûts de calcul qu’ils nécessitent. Néanmoins, chacune de ces approches à ses inconvénients et aucune méthode de défense n’est, à ce jour, complètement satisfaisante.

La vulnérabilité des modèles de Deep Learning a été introduite et étudiée pour la première fois en 2013. Depuis, si de nombreuses plateformes open source existent pour proposer des mécanismes défensifs, cela ne suffit pas. Car parallèlement à la croissance exponentielle des modèles d’apprentissage qui surpassent de nos jours l’être humain dans de nombreux
domaines, la vulnérabilité devient de plus en plus critique et donne lieu à des débats juridiques et éthiques sur les domaines à risques.

Pour limiter la propagation et la naissance d’attaques d’un nouveau genre, il est nécessaire que les data-scientists, les laboratoires de recherche et les entreprises technologiques prennent en main et communiquent sur ce sujet autant que sur l’éthique ou l’explicabilité. Les acteurs de l’IA se doivent d’échanger et de partager les bonnes pratiques qui favoriseront la construction de modèles robustes et de mécanismes de défense qui ont fait leur preuve.

Car sans mécanisme de défense, même la plus évoluée des intelligences artificielles n’a aucun avenir.


5 plateformes open source qui répertorient les mécanismes d’attaque et de défense des réseaux de neurones : DeepSec platform, ART (IBM), AdvBox, Foolbox, Cleverhans