Comment PostgreSQL est devenue une base de données incontournable dans l'IA
Alors que PostgreSQL fêtera ses quarante ans en 2026, le système de gestion de bases de données relationnel orienté objet (SGBDRO) ne s’est jamais aussi bien porté. Plus de 55% des développeurs l’utilisent selon la dernière enquête annuelle de Stack Overflow, devant MySQL, SQLite et Microsoft SQL Server. Le taux d’adoption avoisine même les 60% chez les professionnels travaillant sur des projets d’intelligence artificielle. En termes de popularité, PostgreSQL arrive quatrième derrière Oracle Database, MySQL et Microsoft SQL Server d’après le célèbre classement DB-Engines.
Comment expliquer un tel engouement ? Les atouts de Postgre, comme l’appellent ses afficionados ne manquent pas. Il s’agit tout d’abord d'une base de données véritablement open source et communautaire sans l’ombre d’une société privée derrière à la différence de MySQL (Oracle), MariaDB (fonds d'investissement K1) et MongoDB (développé par la société du même nom). PostgreSQL est publié sous la licence maison PostgreSQL. Une licence, similaire à BSD ou MIT, qui offre plus de protection que Server Side Public License (SSPL). Elle oblige à rendre accessible le code source quand les modifications ou les nouvelles fonctionnalités sont proposées à des tiers en tant que service.
PostgreSQL s’appuie, par ailleurs, sur une communauté particulièrement riche et organisée. Elle compte plusieurs milliers de contributeurs à travers le monde dont des employés des géants de la tech, comme Amazon ou Google. En France, l’association PosgreSQLFr a mis en place un groupe de travail inter-entreprises qui réunit Air France, Carrefour, EDF, la Maif, Orange ou la SNCF. Le "core team" est constitué de sept membres qui font autorité dont Peter Eisentraut et Bruce Momjian de la société EDB ou Magnus Hagander de Redpill Linpro. Le global development group approuve la publication d’une nouvelle version majeure une fois par an, intégrant de nouvelles fonctionnalités, et des versions mineures, pour les correctifs, au moins une fois par trimestre. Sorti le 25septembre, PostgreSQL 18 améliore notamment la performance des charges de travail grâce à un nouveau sous-système d'entrées-sorties.
Ce mode de gouvernance est, pour Adrien Nayrat, expert PostgreSQL en freelance, un gage de confiance. "La priorité a toujours été la fiabilité et la robustesse du moteur. Si certaines fonctionnalités manquent de cohérence avec la feuille de route établie, elles sont rapidement écartées. Ainsi, le code ne souffre pas d’ajouts précipités ou mal intégrés." Cette préférence donnée à la fiabilité pouvait nuire aux performances, PostgreSQL ayant un temps été pointé du doigt pour sa lenteur. MySQL, par exemple, répondait aux besoins de performances élevées en lecture d'une application ou d'un site web. PostgreSQL prenait le relais quand les critères de robustesse, de stabilité et de conformité aux règles SQL devenaient essentiels.
Ce n’est plus le cas aujourd’hui, selon Lætitia Avrot, practice leader PostgreSQL & security chez EDB. "PostgreSQL n’a pas à rougir de ses performances. Dans des projets de migration, elle dépasse ou égale Oracle dans 90% des cas." Au fil des années, l’écart s’est en effet rétréci entre Oracle Database et son alternative open source. Une raison parmi d’autres qui explique pourquoi on retrouve la base de données dans presque toutes les organisations, quelle que soit leur taille. Les hyperscalers (AWS, Google Cloud ou Microsoft Azure) proposent dans leur cloud une version de PostgreSQL en service managé. L’adoption PostgreSQL est aussi facilitée par le fait qu’il soit aussi largement utilisé pour des usages personnels.
Une architecture conçue pour être extensible
PostgreSQL permet, par ailleurs, de manipuler de gros volumes de données complexes et hétérogènes, y compris pour des cas d'usage critiques. Le SGBDRO supporte les formats de stockage JSON et JSONB. Autre atout clé : l’architecture de PostgreSQL a été conçue dès son origine pour être extensible. "Ce qui facilite le développement de fonctionnalités avancées et lui permet s’adapter aux nouveaux usages, à commencer par ceux de l'intelligence artificielle", avance Lætitia Avrot. Parmi les extensions proposées, une sort véritablement du lot. Comme son nom l’indique, pgvector permet à PostgreSQL de stocker, d'indexer et d'interroger des données vectorielles.
"Le principe consiste à représenter l’information, un texte ou une image, sous forme de vecteurs numériques de grande dimension", explique Adrien Nayrat. Cette vectorisation et la création d’index spécifiques permettent des calculs de distances approximatives entre les données. Cette approche ouvre la voie à la recherche par similarité. Classiquement, une LLM va rechercher les images similaires à celle qui lui a été présentée.
Pour illustrer les capacités de pgvector, Lætitia Avrot cite le célèbre "Chihuahua Challenge", dont l’objectif est de distinguer la photo d’une tête de chihuahua de celle d’un muffin, la ressemblance entre les deux pouvant prêter à confusion. La recherche par similarité trouve des cas d’usage dans le monde professionnel. Parmi les algorithmes les plus utilisés dans l’e-commerce, la méthode de recherche du voisin le plus proche (k-NN) permet à un site marchand de suggérer des produits similaires à ceux achetés par un client. Pgvector ouvre la voie à d’autres cas d’usage comme la détection des cas de fraude dans le domaine bancaire ou la détection d’anomalies lors d’analyse d’images médicales.
La centralisation des données complexes et vectorielles rendues possible est un élément clé aux yeux d’Adrien Nayrat. "Stocker ces données au même endroit minimise les risques d’incohérences liés à la synchronisation entre différentes sources. Toute modification est automatiquement répercutée. Les mises à jour, les montées de version ou les opérations de maintenance et de sauvegarde sont également facilitées." Il n’est ainsi plus besoin d’utiliser à côté une base de données vectorielle comme Pinecone. PostgreSQL proposant, par ailleurs, des fonctions de recherche en texte intégral, la question de le faire cohabiter avec un moteur spécialisé comme Elasticsearch ne se pose plus.
Une plateforme de choix pour le RAG
Lancée en 2021, l’extension pgvector a acquis une solide réputation au sein de la population des développeurs, comme en témoignent ses plus de 18 000 étoiles sur GitHub. Malgré cette popularité, il est peu probable qu’elle soit intégrée nativement à PostgreSQL. Ce processus d’intégration très exigeant est rarement accordé. pgvector n’est pas la seule extension orientée IA dans l'écosystème PostgreSQL. Comme son nom l’indique, pgvectorscale améliore les performances et la scalabilité des recherches sur des données vectorielles. Développée par Timescale, l’extension pgai permet, elle, d’intégrer des capacités d’IA directement au sein de la base de données, comme autoriser des appels à des LLM en utilisant simplement des commandes SQL.
Cette gestion embarquée des fonctionnalités peut imposer PostgreSQL comme la plateforme de choix pour les systèmes de génération augmentée par récupération ou RAG (Retrieval-Augmented Generation). Une autre extension, pgrag, vise à créer des pipelines dédiées à ces RAG sans quitter l’environnement PostgreSQL. Ces trois dernières extensions restent expérimentales et sont loin d’atteindre le niveau de maturité et d’adoption de pgvector.
PostgreSQL présente, bien sûr, quelques ombres au tableau. Comme toute solution open source, son installation, sa configuration, et sa maintenance peuvent s’avérer complexes pour des organisations de taille modeste qui n’ont pas de compétences dédiées. Bien que sa communauté soit active, son support ne peut égaler le service commercial d’une solution propriétaire comme Microsoft SQL Server. Si PostgreSQL propose des fonctionnalités de sécurité avancées, il lui maque le Transparent Data Encryption (TDE), soit le chiffrement des données au niveau de la couche de stockage. Ce que propose de combler des sociétés comme EDB ou Percona.
Mais les autres bases de données n’ont pas dit leur dernier mot. Le 24 octobre dernier, MariaDB annonçait ainsi la disponibilité de MariaDB Enterprise Platform 2026, qu’elle présente comme "la plateforme de référence pour créer la nouvelle génération d’applications intelligentes". Cette version majeure intègre notamment des pipelines RAG et des agents IA qui viennent interagir avec les données en langage naturel. La bataille des bases de données à l’ère de l’IA est lancée.