Le Big Data au service de l'optimisation marketing AT Internet mise sur des appliances SQL Server pour ses exécutions temps réel

Editeur de solutions en ligne d'analyse d'audience sur les sites Web (classiques et mobiles), AT Internet enregistre 3 milliards de nouveaux événements par jour en provenance des plates-formes de ses clients, correspondant à 600 téras de données. Une information qui est ensuite restituée en temps réel sous forme d'indicateurs et de rapports par le biais de ses services de restitution et de visualisation de données. Pour mettre en musique ces processus de traitement massifs, l'éditeur s'est doté d'une véritable usine de données. Son principal défi ? Rendre l'ensemble de l'infrastructure totalement transparente pour ses clients. "Google est devenu la référence du marché dans ce domaine. Nous devons être capables de faire aussi bien que lui", martèle Julien Larribe, architecte de datawarehouse chez AT Internet.

julien larribe et david boyrie sont respectivement architecte de datawarehouse
Julien Larribe et David Boyrie sont respectivement architecte de datawarehouse et responsable recherche et développement chez AT Internet. © AT Internet

Au cœur de son système, AT Internet a construit une base de données répartie sur deux serveurs relationnels SQL Server Fast Track Data Warehouse (HP) en grappe. Elle est chargée d'héberger les entrepôts de données dédiés à chaque client. En amont, une trentaine de serveurs de calcul HP/Dell (de milieu de gamme) en cluster actif-actif se chargent des opérations de collecte et de chargement des informations (ETL) dans ces entrepôts. En aval, d'autres serveurs prennent en charge la couche de Business Intelligence. Tout comme l'outil d'ETL, ce système d'analyse qui s'articule autour d'un moteur analytique multidimensionnel a été entièrement conçu en interne.

"Nous avons décidé de partir sur un développement interne (Microsoft .Net) du fait de nos contraintes d'exécution temps réel de plusieurs milliards de lignes en quelques secondes. Nous souhaitions également mettre en place un dispositif pour modifier à chaud la structure du datawarehouse de chaque client, en générant de nouveaux agrégats, en fonction des types d'analyse et indicateurs générés par celui-ci", explique David Boyrie, responsable recherche et développement chez AT Internet. Pari tenu, l'éditeur a mis en effet en place un système de supervision de ces usages, dont les indicateurs permettent d'adapter en temps réel la structure des entrepôts. "L'idée est toujours d''optimiser la rapidité de l'ensemble en collant au mieux aux besoins des clients, en termes de tris et filtres qu'ils mettent en œuvre pour créer leurs tableaux de bord", ajoute David Boyrie.

Une architecture massivement parallèle type Hadoop jugée peu adaptée

Au total, le cloud de données d'AT Internet est composé de quelque 300 serveurs. Pourquoi avoir opté pour une appliance de datawarehouse pour la brique centrale du système ? "Ce produit apporte une couche matérielle avec une base SQL Server pré-installée et optimisée pour un usage décisionnel. Elle nous garantissait de bonnes performances en termes de vitesse d'écriture sur disque et d'équilibrage", indique David Boyrie. Le caractère packagé du produit a également permis à AT Internet de gagner du temps, un premier serveur Fast Track ayant été déployé en 2 à 3 jours. Autre argument en faveur de Microsoft : les compétences dont disposait AT Internet autour de SQL Server qui se trouve être la principale base utilisée historiquement par l'éditeur (depuis 12 ans).

"Nous n'avons pas opté pour une architecture massivement parallèle, de type Hadoop", note Julien Larribe. Les tests réalisés par l'éditeur sur ce terrain montrent que cette configuration n'est pas forcément toujours adaptée. "Certains traitements sont en effet plus difficilement parallélisables", poursuit Julien Larribe, prenant l'exemple du calcul d'un nombre de visiteurs uniques sur une période donnée. Raison invoquée : la phase de réconciliation des traitements répartis peut allonger le temps d'exécution. Autre crainte de l'équipe technique : la difficulté, dans le cadre d'architecture de calcul massivement parallèle, d'intégrer des serveurs matériels hétérogènes. "Dans cette configuration, on se base souvent sur les capacités de la machine la moins puissante pour avoir un temps de traitement prédictible", note Julien Larribe. 

Le choix d'une pile logicielle complète Microsoft

A l'inverse pour un cluster de boîtiers d'entrepôt de données, qui permet d'ajouter des appliances à loisir, dotées de puissances machines disparates et même éventuellement construites par des fournisseurs différents. La solution d'entrepôt (comme ici SQL Server Fast Track dans le cas d'AT Internet) équilibre en effet les traitements au plus proche des performances précises de chaque boîtier. Cette souplesse rend le système d'AT Internet d'autant plus évolutif. Mais l'éditeur ne rejette pas pour autant l'idée d'avoir recours à Hadoop, notamment pour compléter certains indicateurs de son offre de Web Analytics. "Cette solution ne peut remplacer notre cube OLAP, mais nous pourrions par exemple l'utiliser pour réaliser des calculs en batch, par exemple dans l'analyse de sentiment sur les réseaux sociaux",

Pour l'heure, AT Internet prend en charge 400 entrepôts de données de clients, sur deux serveurs SQL Server Fast Track Data Warehouse en grappe. Ils reposent sur SQL Server 2008 R2 Enterprise avec Windows Server 2008 R2 Enterpris. Un troisième serveurs viendra compléter le système en 2013.

La technologie d'entrepôt de données d'AT Internet
Source : AT Internet
Datawharehouse / persistance des données Brique SQL Server : bi octocoeur, 64Go de mémoire. Brique Fast Track : 25 To quadri hexa cœur (40 coeurs), 320 Go de mémoire. Stockage : 1.1 Po (Fiber, SSD, Flash)

Big Data / Décisionnel