Comment Cloudflare pousse l'IA générative en mode edge

Le réseau de diffusion de contenu a déployé une panoplie de services conçus pour exécuter les assistants intelligents en frontière de réseau, au plus proche des utilisateurs finaux.

Cloudflare surfe sur l'intelligence artificielle générative. Principal concurrent d'Akamai, le réseau de distribution de contenu ou content delivery network (CDN) affiche une infrastructure comptant 310 points de présence à travers la planète. L'enjeu ? Rapprocher les données et applications de l'utilisateur final en vue, in fine, d'en optimiser les temps de latence. Suite à l'émergence de la genAI dans le sillage de ChatGPT, l'opérateur a décidé assez logiquement d'ajouter cette corde à son arc en intégrant les modèles d'IA sous-jacents à son environnement.

"Des cartes graphiques NVidia taillées pour l'IA générative sont déjà déployées sur 100 de nos points de présence, dont celui de Paris", confie Boris Lecoeur, directeur France de Cloudflare. D'ici fin 2024, l'ensemble de l'infrastructure du groupe sera équipée. Les cartes graphiques en question sont combinées à des commutateurs Ethernet NVidia. A ces équipements vient se greffer le logiciel d'inférence full stack du constructeur américain du même nom. Une pile qui combine NVidia TensorRT-LLM au serveur d'applications NVidia Triton. Objectif : optimiser au mieux l'accélération des modèles.

Llama 2 au cœur du réseau

"Nous avons pour vocation de supporter à terme l'ensemble des grands modèles d'IA générative du marché", assure Boris Lecoeur. Pour l'heure, Cloudflare se limite au large language model (LLM) généraliste Llama 2 de Meta. L'opérateur exécute aussi nativement plusieurs LLM spécialisés. Au programme : Whisper d'OpenAI dans la retranscription de texte, M2M100 (également signé Meta) dans la traduction ou encore DistilBERT-SST-2 dans l'analyse de sentiment. Pour la reconnaissance d'image enfin, Cloudflare propose ResNet de Microsoft. "Nous collaborons en ce moment avec Mistral pour implémenter les LLM de cet éditeur français", ajoute Boris Lecoeur.

"Beaucoup d'acteurs de l'IA générative utilisent nos services pour se protéger et éviter que des concurrents viennent exploiter leurs données"

Disponible sur tous les points de présence de l'opérateur, le service Workers AI permet aux développeurs de packager leurs propres modèles d'IA en vue de les déployer en mode serverless sur le réseau de Cloudflare. Autre service disponible : la base de données vectorielles Vectorize. Grâce à cette brique, l'entreprise californienne cible la génération augmentée de récupération ou retrieval-augmented generation (RAG). Une technique qui permet d'injecter directement de nouveaux contenus dans les grands modèle d'IA par le biais d'invites. Principal avantage de cette méthode : elle évite un réentrainement complet ou partiel. Une fois les contenus intégrés, le modèle peut ensuite y glaner directement ses réponses.

"Vectorize bénéficie de la puissance du réseau mondial de Cloudflare, qui permet l'exécution des requêtes vectorielles au plus près des utilisateurs, réduisant ainsi la latence et le temps d'inférence global", insiste Boris Lecoeur. La solution s'intègre également à l'écosystème IA au sens large, permettant aux développeurs de stocker les intégrations générées via les solutions d'OpenAI ou de Cohere.

En coulisse, Vectorize s'adosse à R2, le service de stockage de Cloudflare. Une offre qui, à la différence d'Amazon S3, ne tarifie pas la bande passante sortante. Un point important sachant que l'opérateur ne couvre pas les infrastructures d'apprentissage. Ce traitement devra de facto s'appuyer sur les ressources d'autres providers, engendrant des flux sortants importants.

Sécuriser les usages

Dernier étage de l'édifice, Cloudflare prend en charge l'IA générative au sein de sa solution de cybersécurité Zero Trust. "D'après IDC, 50% des salariés affirment recourir à l'IA générative et 30% sans en informer leur employeur. Cette solution permet de contrôler l'usage qui est fait des différentes IA génératives en entreprise. Elle permet aussi de s'assurer que seules les personnes habilitées à y accéder peuvent les utiliser", commente Boris Lecoeur. En parallèle, Cloudflare a enrichi son offre de DLP (pour data loss prevention) en vue de contrer les fuites de données confidentielles ou critiques lors de l'utilisation des assistants intelligents. "L'IA générative a un tel impact qu'elle entraîne une explosion de la demande en matière de technologies zero trust", observe Boris Lecoeur.

Pour compléter ses outils de zero trust, Cloudflare commercialise un outil d'observabilité. Baptisé AI Gateway, il est dessiné pour gérer les potentielles menaces pouvant recourir à la genAI comme vecteur d'attaque. "Beaucoup d'acteurs de l'IA générative à travers le monde (dont OpenAI avec ChatGPT, ndlr) utilisent par ailleurs nos services pour se protéger et éviter que des concurrents viennent exploiter leurs données", complète Boris Lecoeur. Pour répondre à ce cas d'usage, Cloudflare s'attache à détecter les éventuels bots venant crawler les assistants intelligents. Histoire de protéger le patrimoine informationnel de ses clients.

Comment Cloudflare pousse l'IA générative en mode edge

Llama 2 au cœur du réseau

Sécuriser les usages

Guides

Repères