Documents ouverts : un pont entre bureautique et gestion de contenus

Avec Microsoft, et son format Open XML, la question des documents ouverts s’est polarisée et politisée. Mais à quoi peuvent servir ces formats ouverts, quels en sont vraiment les enjeux, et en quoi annoncent-ils une révolution ?

Les blogs ont chauffé en fin d'année dernière lorsque Microsoft a fait adopter le format Open Xml d'Office 2007 comme standard de l'ECMA, causant la colère des partisans de l'Open Document Format (ODF), le format supporté en particulier par OpenOffice, et déjà standard ISO.

Avec l'entrée en lice de Microsoft, la question des documents ouverts s'est polarisée et politisée. Mais à force de s'enflammer pour l'éternel remake de "Microsoft contre reste du monde", on en oublie à quoi peuvent servir ces formats ouverts, quels sont vraiment les enjeux, et en quoi ils annoncent une révolution.

Car, pour beaucoup, la question est seulement de savoir si un document sauvegardé avec Office 2007 pourra être relu avec OpenOffice, et réciproquement. Une bête affaire de compatibilité.

Ce n'est pas du tout cela. La question de compatibilité est à peu près résolue depuis plusieurs années, et OpenOffice peut lire des documents Microsoft Office, ou sauvegarder à ce format.

On cite souvent comme premier bénéfice des formats ouverts la pérennité, l'assurance de pouvoir lire son document dans 20 ans, dans 99 ans, sans dépendre du bon vouloir de tel ou tel éditeur et de sa capacité à préserver la chaîne de compatibilité sur de telles durées. Une exigence absolument fondamentale dans quantité de secteurs soumis à une obligation d'archivage.

Mais ce n'est pas tout. Ce que promettent les formats ouverts, c'est aussi de détruire la muraille qui sépare la bureautique du reste du monde. Voyons comment.

Les nouveaux formats de documents basés sur le XML sont appelés "ouverts". Que signifie "ouvert" ? La meilleure définition est celle du monde réel : un document est ouvert comme une maison est ouverte : lorsqu'on peut y entrer librement.

En informatique, l'ouverture a deux conditions. L'une est pratique : que le format soit parfaitement documenté (la clé), l'autre est juridique : que l'on puisse l'utiliser librement (le droit). Par exemple, le MP3 est un format parfaitement documenté, mais n'est pas un format ouvert, car soumis à licences d'utilisation dans différents pays.

Jusqu'ici, un document bureautique était un objet fermé, et même tout à fait opaque : le document est écrit par une application et ne peut être relu que par cette même application. Pour les autres programmes, le document n'est qu'un fichier binaire dénué de sens, impénétrable. Il peut être copié, déplacé, renommé, téléchargé, mais il n'est toujours qu'un paquet opaque.

Bien sûr, il existe quelques contournements, des passages secrets dans la muraille : piloter Microsoft Word en OLE depuis une application .Net, produire du Rtf, un format déjà presque ouvert mais très rustique, utiliser Open Office comme outil de traduction, utiliser des bibliothèques telles qu'Apache POI, qui permettent d'entrouvrir les formats fermés.

Mais, au fond, c'est du bricolage. En l'absence de véritable ouverture, les documents bureautiques de Microsoft étaient surtout décortiqués par reverse-engineering, c'est à dire en essayant à tâtons de comprendre la logique cachée du format.

Avec les formats bureautiques ouverts, que ce soit Office Open XML (OOXML) ou Oasis OpenDocument (ODF), toutes sortes d'applications peuvent enfin ouvrir la boîte, entrer dans le document, le lire, le modifier et, bien sûr, créer de nouveaux documents.

Le document bureautique n'est plus le domaine réservé des seules applications bureautiques. Parce qu'il peut être pénétré, maîtrisé, utilisé par différentes applications, le document devient une passerelle entre des domaines jusqu'ici disjoints : la bureautique et les applications métier, mais surtout la bureautique et la gestion de contenus.

Il est une catégorie d'applications particulièrement concernée par cette ouverture : la gestion de contenu et de documents. En l'absence de formats ouverts, les applications CMS et GED ne pouvaient guère faire mieux que de manipuler des fichiers opaques, auxquels elles ajoutaient leur propre surcouche d'information, leurs méta-données : auteur, version, état de validation, date de validité, thématiques, résumé... Ces outils étaient un peu comme un banquier qui a en charge des coffres-forts dont seuls ses clients ont la clé : le mieux qu'il puisse faire est de coller une étiquette sur chaque coffre.

Les outils CMS sont donc les premiers intéressés par la révolution des documents ouverts, et c'est une vague importante de nouvelles fonctionnalités qui s'annonce. Ils pourront au minimum accéder aux méta-données intégrées au document, tant en lecture qu'en écriture. Ils pourront accéder aussi à l'historique des changements, au versionning, aux paramètres de sécurité... à toutes ces informations nécessaires à une bonne gestion de documents, qui restaient du domaine privé de la suite bureautique et que le CMS gérait donc de son coté, de manière redondante.

Mais ils pourront aussi accéder au contenu lui même : extraire le paragraphe de résumé, extraire la table des matières, ajouter un paragraphe. Aujourd'hui déjà, un outil comme eZ publish peut recevoir des documents OpenOffice, et les analyser afin d'en extraire un contenu structuré. C'est un avant-goût de ce que promettent les documents ouverts. Et cela, qu'ils soient OO ou OX, peu importe.

Au-delà de la gestion de contenus, beaucoup d'autres applications en tireront également bénéfice.

Une application décisionnelle pourra ainsi construire un document composite, intégrant des tableaux de synthèse, et des graphiques, une gestion commerciale produira un document Word dans lequel on aura inséré les données extraites de la base client... Le besoin peut exister en écriture (produire un document nouveau à partir d'une application), comme en lecture (recevoir un document bureautique et en tirer des informations. Comme la possibilité n'existait pas, on a fini par en prendre son parti, se résigner à une muraille infranchissable entre bureautique et applications.

Les formats ouverts vont aussi rivaliser avec le PDF, qui a longtemps été le seul format ouvert réellement répandu, mais qui est un format de description de pages plus que de documents et qui, bien sûr, est en lecture seule. C'est sans doute pour cette raison qu'Adobe a annoncé, le 29 janvier dernier, sa volonté de faire de PDF 1.7 un format ISO.

On le voit, c'est une vraie révolution qu'annoncent les documents ouverts, et il faut s'en réjouir.

Pour finir, revenons un peu au format Microsoft.

Certains ont craint qu'en introduisant un nouveau format, Microsoft ne sème un trouble qui - à dessein ou non - nuise à l'ensemble des formats ouverts. A quoi Microsoft répond qu'ODF ne couvrait pas tous ses besoins, en particulier de compatibilité avec les versions passées de la suite Office.

C'est probablement vrai car, de version en version, Office est devenu une vraie usine à gaz. D'ailleurs, la vraie critique que l'on peut adresser à OOXML n'est pas d'être un standard concurrent mais d'être beaucoup trop complexe, et d'être pollué par des fonctionnalités mal documentées. Car il ne suffit pas d'être réputé ouvert, il faut encore être utilisable dans la pratique.

Malgré tout, il faut se réjouir. Lorsque Microsoft a introduit ses premières versions de navigateur, ce n'était pas avec un nouveau standard qui aurait concurrencé le HTML. Le rapport de force à l'époque ne l'aurait pas permis. Donc Microsoft a fait un navigateur qui disait respecter le standard existant, mais de manière un peu différente sur de nombreux points. Un procédé qui a pesé pendant des années sur le développement Web, et n'a pris fin que tout récemment avec la sortie de IE7.

En matière de standard de documents ouverts aussi, le pire aurait été que Microsoft fasse une suite Office qui utilise ODF, mais d'une manière un peu particulière. Une manière de pourrir le standard de l'intérieur en somme.

C'est pourquoi, le nouveau format ouvert de Microsoft Office est sans conteste une bonne chose. Il est plus facile de vivre avec deux standards qu'avec deux interprétations d'un standard.