A re:Invent 2024, AWS surprend encore dans le big data

A re:Invent 2024, AWS surprend encore dans le big data Lors de son événement mondial, le cloud américain met à jour son service de stockage de données Amazon S3 ainsi que sa base de données Aurora. Objectif : aller vers plus de simplification.

A l'occasion de son événement mondial re:Invent, qui se tient du 2 au 6 novembre à Las Vegas, AWS a annoncé, au-delà de nombreuses nouveautés dans l'IA, des évolutions dans ses services de gestion de données. Sur ce terrain, des nouveautés ont été dévoilées autour de ses deux principales data platforme que sont Amazon S3 et Aurora.

Amazon S3 figure parmi les services d'AWS les plus utilisés avec les instances EC2 et les containers. "Il stocke plus de 450 000 milliards d'objets. Sachant que nous avons plusieurs milliers de clients qui stockent plusieurs pétaoctets de données, et certains plusieurs exaoctets", commente Julien Lépine directeur architectes solutions au sein d'AWS en France. "Nous restons concentrés sur les fondamentaux qui ont fait le succès de cette plateforme, c'est-à-dire la performance, la simplicité d'utilisation et la sécurité.

A l'occasion d'AWS re:Invent, Amazon S3 s'adjoint le support natif d'Apache Iceberg et de ses tables. Objectif : faciliter l'analyse de données. "Auparavant, nos clients devaient déployer et maintenir la solution open source Parquet en vue de mettre en œuvre leur lac de données sur S3. Il opérait par-dessus Apache Iceberg pour donner à leurs data un sens en structurant ces dernières au sein de tables requêtables par le biais du langage SQL", explique Julien Lépine.

Gérer les métadonnées

Ce mille-feuille technologique a été simplifié via les S3 Tables. "Nous conservons la simplicité du service de stockage historique tout en masquant la complexité de mise en œuvre d'Iceberg. Via un appel unique, les clients auront accès à des pétaoctets de données stockées dans leurs tables", poursuit Julien Lépine. Au final, la nouvelle version du service se veut trois fois plus rapide tout en permettant de lancer 10 fois plus de transactions par seconde.

En plus de cette évolution, Amazon S3 s'enrichit d'un service de gestion de métadonnées. Baptisé S3 Metadata, il est conçu pour stocker automatiquement les métadonnées relatives aux objets stockés dans S3. Pilotées via les S3 Tables, elles ouvrent des perspectives en termes de cas d'usage : recherche sur d'informations structurées ou non-structurées, géolocalisation, etc.

"Nos serveurs son synchronisés par satellites via une horloge atomique en vue d'aboutir à une précision de l'ordre de la microseconde"

"Avec ces deux nouveautés, Amazon S3 devient un data lake as a service. Ce qui évitera aux clients d'embaucher des équipes pour maintenir ce type d'infrastructure", souligne Julien Lépine.

En parallèle, Amazon Aurora, qui reste le service d'AWS à plus forte croissance en termes d'adoption, est désormais disponible en mode actif-actif sur toutes les régions cloud d'Amazon. Traduction : au lieu d'avoir 10 appels en base de données à exécuter en parallèle dans cette configuration, Aurora, grâce au nouveau module Aurora DSQL, concatènera ces appels en un seul. Problème : les transactions en question lancées via fibres optiques à la vitesse de la lumière devront être ordonnancées correctement. "Pour ce faire, les serveurs sous-jacents sont synchronisés par satellites via une horloge atomique. L'objectif étant d'aboutir à une précision de l'ordre de la microseconde", confie Julien Lépine.

Aurora pourra donc garantir de bénéficier des mêmes données au même moment sur plusieurs régions cloud différentes, avec à la clé des transactions exécutées simultanément.

A l'occasion de la keynote du 3 décembre, JPMorgan Chase est venu témoigner de son utilisation d'Aurora. Cette banque américaine a lancé une nouvelle plateforme multirégion basée sur ce service, En ligne de mire : permettre à ses applications bancaires, où qu'elles se trouvent à travers le monde, de ne jamais perdre une transaction. "Actuellement, JPMorgan Chase opère ce process via des systèmes maison. Avec Aurora DSQL, nous leur fournissons une brique technologique qui leur apportera nativement une garantie de synchronisation", se félicite Julien Lépine.

Sagemaker : un analytics pour tous

Amazon réplique ce modèle dans l'univers noSQL par le biais d'Amazon DynamoDB. Une nouveauté également annoncée lors d'AWS re:Invent 2024. A l'instar d'Aurora, la base de données disposait déjà d'un mode de réplication multirégion. Elle est désormais elle-aussi équipée d'un dispositif d'écriture quel que soit l'emplacement des réplicas au sein du cloud d'Amazon.

"Nous avons par ailleurs annoncé Sagemaker next generation qui, au-delà de la création de modèles de machine learning, intègre tous nos services d'analytics : catalogage de données, gouvernance de données, requêtage, notebooks unifiés...", ajoute Julien Lépine. Cette nouvelle version s'articule autour de l'environnement Amazon Sagemaker Unified Experience. "Il fournit une console extrêmement simple à prendre en main qui s'adapte aux besoins des clients, et qui permet de récupérer les données disponibles dans un bucket Amazon S3 pour les mettre à disposition. Nous avons ainsi concentré et simplifié l'expérience à destination des développeurs, des ingénieurs et data scientists", égraine Julien Lépine. C'est là la dernière brique qui vient couronner l'édifice.