PostgreSQL : pourquoi Météo-France a parié sur l’open source ?

Face au défi du développement durable, météorologie et climat sont l’objet d’une attention croissante. Une prévision au meilleur de l’état de l’art est une nécessité. Les choix logiciels et matériels effectués par l’organisme français de météorologie ont été déterminants pour atteindre ce niveau de qualité.

Pour valider a posteriori le choix stratégique en faveur d’une technologie, ainsi que l’investissement financier et humain qu’il a requis, l’analyse porte autant sur la pérennité du service rendu que sur la constance du niveau de qualité au fil des années en dépit même de l’inévitable accroissement des besoins.

D’après ces critères, je peux affirmer que le choix effectué il y a plus de 10 ans par Météo-France d’un système de gestion de bases de données relationnel open source en remplacement de systèmes “traditionnels” propriétaires était judicieux.

Dès les prémices de l’implémentation du système de gestion de bases de données relationnel open source PostgreSQL à l’horizon 2001, l’ambition était claire : d’une part se libérer de la dépendance à un fournisseur technologique de plus tout en limitant les coûts de licence, et d’autre part conserver une maîtrise totale des coûts liés aux bases de données.

La quantité et la qualité des données recueillies sont les piliers du métier de Météo-France

L’activité de Météo-France repose essentiellement sur l’acquisition massive et en temps réel de données d’observations issues d’une variété de systèmes et de techniques tels que les stations en surface, les satellites et les radars météorologiques, les radiosondages, les capteurs embarqués, etc.

Une fois ces données recueillies, référencées à l’aide de métadonnées et insérées dans des bases, le travail de Météo-France consiste à effectuer une assimilation des données dans les modèles de prévision.

Pour y parvenir, plusieurs aspects essentiels sont à prendre en compte : la puissance de calcul mais aussi la quantité et la qualité des données à traiter.

Il est impératif, pour affiner les prévisions et la précision géographique, de disposer de moyens de calcul conséquents. Météo-France s’est dotée en 2014 de deux supercalculateurs dont la tâche principale est de réaliser des prévisions en temps réel. Ils sont sollicités pour reconstituer les conditions climatiques passées à partir d'archives d'observations. Ces supercalculateurs sont également utilisés dans la recherche sur les phénomènes atmosphériques. Enfin ils effectuent régulièrement des projections climatiques qui participent aux travaux du GIEC (Groupe d'experts intergouvernemental) sur l’impact du changement climatique. Par ailleurs, au-delà des prévisions, ces nouvelles infrastructures devraient s’avérer déterminantes pour la mise en place d'outils d'aide à la décision, notamment dans les contextes de vigilance pour lesquels il faut pouvoir quantifier les risques locaux.

Sur le plan logiciel, sachant que Météo-France privilégie à ce jour une approche de type SQL (données structurées), s’applique le challenge assez classique “volume, variété et vitesse”. Il faut pouvoir absorber et insérer rapidement dans la base, à des fins d’analyse en temps réel, les données issues des observations. Puisqu’il n’est pas question de supprimer les anciennes données car en météorologie les données historiques ont autant de valeur que les données actuelles, nous sommes soumis à une obligation d’augmenter régulièrement le volume de stockage disponible.

Open source : un choix financier et stratégique pertinent sur le long terme

Ces différents aspects ont été envisagés tôt et ont influé sur la réflexion long terme de Météo-France. Dès le début des années 2000, l’établissement a fait le pari des standards ouverts en optant pour des logiciels open source de classe entreprise supportés par du matériel lui aussi standard (à savoir des serveurs x86). Ainsi les bases de données PostgreSQL sont associées à des systèmes d’exploitation Red Hat et CentOs.

Ce choix repose largement sur des considérations économiques imposant de maîtriser les coûts sur le long terme sans compromis sur la qualité du service rendu.

Dix ans après la mise en production des premiers serveurs PostgreSQL, on peut dire que non seulement l’objectif a été atteint, mais aussi que le choix reste pertinent. A vrai dire, il l’est plus que jamais puisque la densité des observations s’accroît pour “nourrir” les supercalculateurs et améliorer les prévisions. Les volumes de données ont augmenté ces dernières années et la tendance va se confirmer. Dans ce contexte, le choix de PostgreSQL met Météo-France à l’abri des effets de seuil propres aux fournisseurs de solutions propriétaires : nous sommes capables de calculer précisément les coûts qui seront engendrés par ces nouvelles volumétries, tant vis-à-vis de l’acquisition de matériel (serveurs, stockage), que des services de support. Météo-France conserve le contrôle de ces différents aspects et n’est pas à la merci des changements de licence, de tarification, des fins de support.

Le respect des normes et des standards : un pas en avant vers une collaboration plus efficace

Si ces différents bénéfices étaient attendus dès le départ, d’autres avantages ont découlé de ce choix open source. Le partage de connaissances fait partie des missions que s’est fixé Météo-France en accord avec son contrat d’objectif.

Bien que le respect des standards ouverts ne soit pas l’apanage des solutions open source, ces dernières encouragent une approche vertueuse en matière de qualité des données.

Par exemple, l’approche consistant à intégrer des données géo-référencées dans le cadre d’une utilisation PostgreSQL associé à PostGIS (qui ajoute le support d'objets géographiques à la base de données PostgreSQL) et Quantum GIS (logiciel de SIG bureautique libre), s’avère très pertinente dans le cadre du respect du standard ISO 19115:2003.

Par ailleurs, la gratuité des logiciels favorise dans une certaine mesure la réutilisation des données de Météo-France, dont certaines (on citera par exemple les données d’observation SYNOP) sont accessibles gratuitement sur le site de l’institut conformément à sa démarche Open Data. Cette réutilisation peut servir non seulement la collaboration internationale pour une meilleure compréhension des mécanismes globaux complexes qui régissent le climat, mais aussi dans des contextes de recherches universitaires, académiques ou dans une volonté de curation des données.

Ainsi, l’ouverture tend à s’inscrire durablement dans l’ADN de Météo-France. Elle ne concerne pas seulement le code source des logiciels utilisés, mais s’inscrit dans une démarche plus large. L’ouverture y est aussi synonyme d’un décloisonnement visant à stimuler le partage de données, le partage de connaissances pour de meilleures prévisions et une compréhension plus fine des phénomènes météorologiques.

Développement durable / Stockage