Beaucoup de centres de recherche
se contenteraient sans doute d'une grille de 600 serveurs,
surtout s'il s'agit de biprocesseurs sous Linux. Mais
pour le CNRS, le projet Datagrid n'est qu'une mise en
bouche avant un repas gargantuesque : "notre
objectif est de relier plusieurs centaines de milliers
de machines à l'horizon 2007" annonce Guy
Wormser, Directeur du Centre de Recherches sur la Physique
Nucléaire et des Particules (IN2P3). Du coup, le
CNRS fait des tests in vivo : "pour le projet
DataGrid, nous avons confié une grille de 600 serveurs
à trois divisions du CNRS, choisies parce qu'elles
avaient des exigences assez différentes".
Pourquoi
pas un supercalculateur ? "D'ici 2007, nos
besoins en puissance vont exploser sous la demande des
physiciens des particules.
Pour être
à la hauteur, il faudrait que nous multipliions
par dix notre budget de calcul, puis que nous centralisions
toutes les capacités dans un seul pays :
deux conditions impossibles à réunir.
Comparativement à un supercalculateur, la grille
nous coûtera bien moins cher, et elle permettra
de conserver notre modèle décentralisé,
à cheval entre le Japon, les Etats-Unis et l'Europe".
Revenons en au présent :
la DataGrid déjà opérationnelle
n'est pas un projet de grille comme les autres. On pressent
dans les choix du CNRS l'ombre de la grille future :
l'architecture est conçue pour fonctionner dans
des environnements très complexes.
L'autogestion
à son paroxysme
La grille du CNRS n'a pas d'amarre. Pas de service qui
reçoive les demandes de calcul de l'utilisateur,
pas de base de données scientifiques centralisée,
pas de serveurs de calculs standardisés ...
La grille se charge elle-même de prendre les commandes,
d'agréger les données en provenance de
partout dans le monde, et de trouver la machine disponible,
avec le bon OS et le programme de calcul qui convient ...
Il lui arrive même d'installer un de ces programmes
à distance.
La grille du CNRS doit
donc être capable de coordonner une multitude
de tâches. Un gros travail d'intégration :
"nous avons mis beaucoup de temps à tout
faire fonctionner correctement - à implémenter
le noyau de la grille, à développer des
connexions vers chaque serveur, chaque application spécifique,
chaque îlot de données".
Un travail payant :
"le laboratoire d'observation de la Terre doit
l'une de ses publications récentes à la
grille. Datagrid a permis d'accélérer
les calculs, bien sûr, mais là n'est pas
l'essentiel. Les chercheurs ont surtout pu croiser des
statistiques qu'ils étaient incapables de croiser
car elles étaient stockées sur deux machines
distinctes".
Puissance
et données
D'où le "Data" de "Datagrid" :
la grille du CNRS donne la même importance à
la mutualisation des données qu'à la mutualisation
des ressources. En d'autres termes, l'intégration
des informations est l'une des vertus cardinales de
Datagrid.
Quels logiciels sont utilisés
? "Globus, Condor et 50 % de développements
propriétaires. Nous avons placé 5 serveurs
dédiés qui 'écoutent( les 600 serveurs
de la grille. Quand l'un d'entre eux signale qu'il est
inactif, les serveurs centraux lui envoient une tâche
et acheminent les informations nécessaires. Grâce
à ce principe, les serveurs tournent à
90 % de leurs capacités". Le réseau
a été particulièrement soigné :
"il fallait relier neuf sites en France. Nous avons
opté pour du Gigabit Ethernet dont nous surveillons
attentivement la qualité de service".
Tout le monde n'a pas
accès aux mêmes capacités de calcul :
"un portail permet à chacun de s'identifier,
et donne accès à certains droits. Chaque
chercheur se voit attribuer un niveau de priorité.
Les tâches disposant du plus haut niveau de priorité
sont traitées devant les autres".
Un futur
glorieux
Le chantier est loin d'être terminé :
"il y a encore une vingtaine d'informaticiens qui
travaillent sur la qualité de service et l'enrichissement
des fonctionnalités. Lorsqu'on lance un calcul,
il y a 90 % de chances qu'il aboutisse : c'est
honorable, mais nous visons mieux évidemment".
Viendra bientôt la
deuxième vague : "Nous
avons fait appel à IBM pour préparer la
V2. Pour l'instant,
seuls trois programmes de calcul sont accessibles sur
la grille. Et pour cause : il faut ajouter une
couche de code sur chaque nouveau programme intégré
pour qu'il puisse parler à la grille. Notre souhait,
c'est de standardiser et d'automatiser ces connexions
grâce aux web services. Dans un à deux
ans, nous espérons bien y parvenir" conclut
Guy Wormser.
|