|
Expériences
/ Intranet |
Mardi
21 mai 2002
|
Comment
le CNRS détecte les galaxies antiques avec des clusters
sous Red Hat
Le Laboratoire d'Astrophysique de l'organisme de recherche français s'appuie sur des technologies Linux pour distribuer ses calculs complexes au sein d'une grappe de ressources partagées. Un vibrant plaidoyer en faveur du libre. -->
|
|
S'il est un secteur de l'économie
qui fait la part belle aux technologies Open Source depuis
plusieurs années, c'est bien celui de la recherche,
en particulier la recherche fondamentale. Il y a près
de deux ans, le Laboratoire
d'Astrophysique de l'observatoire Midi-Pyrénées
à Toulouse et Tarbes, rattaché au Centre
National de la Recherche Scientifique (plus précisément
à l'Institut
National des Sciences de l'Univers) et à l'université
Toulouse
III, s'est équipé de la distribution
Linux Red Hat. Aujourd'hui, l'OS libre accapare près
de 80 % de son parc de cent PC environ, les 20 %
autres étant maintenus sous Windows à des
fins bureautiques.
"Notre choix de Linux a été évidemment
conduit pour des raisons financières", déclare
Sylvie Roques, directeur de recherche au CNRS
et directeur-adjoint du laboratoire d'astrophysique. "Nous
sommes partis de décisions quasi-individuelles
et collégiales. En général, les laboratoires
de recherche sont sous Linux. La première cause
reprend l'aspect financier. La deuxième est que
l'on peut développer des logiciels scientifiques
plus rapidement et plus simplement que sous Windows."
En même temps, ce ne sont pas les distributions Linux
qui manquent. Et parfois, l'on entend plus volontiers
parler de Debian comme favorite dans certains centres
de recherche, que de Red
Hat.
Dans le cas du laboratoire d'astrophysique, Sylvie Roques
précise que "nombre de téléscopes
internationaux comme au Canada ont choisi Red Hat, et
du fait que nous travaillons ensemble, nous avons été
amené à opter pour la même distribution".
Cette condition s'inscrit dans un cadre plus restreint
que les 80 % du parc matériel sous Linux,
qui compte également des distributions SuSe malgré
le fait que les nouvelles installations soient effectuées
avec Red Hat. Grâce à un procédé
de clustering (mise en grappe), environ 10 % de la
totalité des PC du laboratoire sont considérés
comme un seul calculateur.
Deux
premières mondiales grâce au calcul distribué
Pour
Jean-Paul Kneib, astrophysicien spécialisé
en cosmologie et président de la commission informatique
du laboratoire, "ce qui nous intéresse est
notamment de rechercher la formation des premières
galaxies dans l'univers. Nous remontons donc à
des époques de 10 à 14 milliards
d'années afin d'essayer de comprendre comment elles
se sont formées. Pour y parvenir, nous exploitons
un 'truc' que les autres n'ont pas. En plus des téléscopes
au sol, nous utilisons ce que nous appelons des téléscopes
naturels. Ce sont des regroupements ou amas de galaxies
dans l'univers qui présentent une densité
importante et qui jouent le rôle de loupe. Mais
nous avons d'abord besoin de caractériser la distribution
de masse dans l'amas de galaxies
qui va permettre de définir les paramètres
de la loupe pour tenir compte du grossissement et des
déformations. Nous essayons donc de comprendre
quels sont ces effets, sur la base de calculs assez complexes
avec un processus itératif qui demande pas mal
de temps de traitement."
Dans ce cas, pourquoi ne pas avoir opté pour un
super-calculateur ultra puissant ? Certains d'entre eux,
en particulier chez IBM, peuvent être livrés
avec un système d'exploitation Linux en standard...
Pour des raisons de coût évidemment, mais
cette raison est loin d'être la seule. La réponse
est fournie par Jean-Paul Kneib : "si l'on passe
par des grappes, on arrive à des performances plus
importantes que ce que peut apporter un calculateur. Les
laboratoires n'ont pas des moyens très élevés,
et ce procédé nous permet d'atteindre un
résultat très honorable. Or, ce genre de
structure n'existe que sous architecture Linux et notamment
Red Hat."
Du reste, les enjeux parlent d'eux même. "Plusieurs
de nos découvertes sont déjà passées
dans la presse", indique le chercheur en cosmologie.
"Notre groupe, en collaboration avec d'autres équipes
aux Etats-Unis, détient notamment les records des
galaxies les plus jeunes et les plus lointaines. Ces découvertes
ont été médiatisées en octobre
2001 et en janvier 2002." A la première date,
il s'agissait d'une micro-galaxie de 13,4 milliards d'années.
A la deuxième, de la galaxie la plus éloignée
jamais détectée par l'homme (lire l'article
de Liberation). Or, ce projet en cours depuis plus
d'un an commence à peine à bénéficier
du nouveau calculateur virtuel. Et les attentes du laboratoire
sont assez prometteuses pour l'avenir de la recherche.
4 mois/homme tout compris dont les 3/4 sur Mosix
Si le choix initial de Red Hat a effectivement eu lieu
il y a deux ans, le projet d'informatique parallèle,
quant à lui, est beaucoup plus récent puisqu'il
a démarré en septembre-octobre 2001. L'architecture
devait impérativement être opérationnelle
pour la fin avril 2002. Au total, quatre mois auront suffi
à un ingénieur en CDD pour finaliser les
développements. Et encore, avec des difficultés
au départ dans la mise en cohérence de l'architecture
matérielle.
"Il nous a fallu un mois pour régler ces problèmes",
témoigne Cathy Mendibourre Slye, ingénieur
informaticien à l'observatoire d'astrophysique.
"Les trois autres mois ont été consacrés
aux tests de logiciels de partage de ressources et de
parallélisation, qui ont abouti au choix de Mosix,
et à son installation. Il faut rajouter que des
développements particuliers ont été
menés localement sur la gestion des noeuds (chaque
PC impliqué, ndlr). En particulier, la gestion
de la visibilité des noeuds esclaves depuis les
maîtres. Celle-ci est automatique grâce aux
mécanismes qui ont été développés.
Enfin, nous avons aussi renforcé les aspects de
visualisation de la charge répartie entre les noeuds,
une charge qui intègre à la fois les processeurs,
la mémoire et les disques."
Les avantages de Mosix ? Selon les tests, ce logiciel
de clustering téléchargeable en ligne, programmé
par un développeur d'une université israélienne,
serait le seul à permettre la répartition
des charges en toute transparence pour l'utilisateur non
informaticien. Et ce, en laissant tout de même la
possibilité à la personne plus compétente
de prendre la main pour réattribuer une partie
des ressources de son PC à d'autres tâches.
"Mosix laisse le choix à la grappe de distribuer
elle-même la charge de calcul", souligne Jean-Paul
Kneib.
25 000 euros,
exclusivement sur l'achat de matériels
Les logiciels choisis ayant
aussi l'avantage d'être libres, les seuls investissements
consentis l'ont été sur la partie matérielle :
des PC et du matériel réseau, dont des commutateurs
de marque Enterasys
Networks. Le total des dépenses d'équipement
se monte à près de 25 000 euros.
Le réseau IP, quant à lui, existe depuis
longtemps. La connaissance d'Internet par le laboratoire
d'astrophysique remonte à l'époque de Renater,
le premier réseau français de ce type, entre
universités et centres de recherche.
Quant à savoir si les économies réalisées
sont conséquentes, la réponse "paraît
assez nette du point de vue matériel" dixit
Cathy Mendibourre Slye. Auparavant, d'après son
collègue astrophysicien, "nous effectuions
les gros calculs sur un système Digital Unix Tru64
(qui a été repris par Compaq et sera progressivement
abandonné par HP, ndlr). Du point de vue de l'installation
logicielle, de la mise à jour et de la maintenance,
ce n'est pas la panacée. Non seulement ce type
de système fait preuve d'une certaine lourdeur,
mais de plus les mises à jour se font tous les
six mois, et enfin il existe peu de support pour Unix.
Alors que pour Linux, on trouve tout ce dont on a besoin
sur la toîle. Et si nous avons une question très
pointue à poser, il est tout à fait possible
de prendre contact avec le concepteur."
Pour la suite du programme, "nous nous sommes aperçus
que nous aurions intérêt à augmenter
le nombre de noeuds pour accroître la puissance
de calcul", dévoile Cathy Mendibourre Slye.
"Nous pourrions même rajouter des ressources
à l'infini dans la grappe, mais actuellement, nous
n'avons pas une bande passante de 2 Gbps et nous
sommes donc conditionnés par nos capacités
réseaux. Notre effort devra porter là-dessus
dans les années à venir."
Et ce n'est pas fini. Extension logique d'une architecture
de clustering, le recours à des technologies de
grille pourrait encore accroître la taille des grappes
en passant outre les limites du réseau de l'observatoire
d'astrophysique pour paralléliser le partage des
ressources à une échelle qui peut être
mondiale. L'orientation est à l'étude, même
si elle "n'est pas encore tout à fait définie"
selon l'ingénieur informaticien. "Cela ne
se fera pas avant un an. A partir de ce moment-là,
nous pourrons partager des ressources distantes et créer
un méga-calculateur." Sur le site de Mosix,
le développeur du logiciel de clustering évoque
un projet sur lequel il travaille, baptisé U-Mosix.
Prévu pour une date non précisée,
celui-ci devrait être disponible sur une variété
de dérivés d'Unix, incluant des Kernels
(noyaux) spécifiques de Linux, FreeBSD et Sun Solaris.
|
[François Morel, JDNet]
|
|
|
|
|