Maintenance des centrales nucléaires EDF : le défi de la gestion documentaire Des langages métiers à prendre en compte pour interpréter les requêtes

D'autre part, chaque métier a des pratiques, voire un langage, spécifiques. Ce langage nourri d'abréviations et de référentiels d'identification doit être pris en compte pour améliorer l'interprétation des requêtes donc la qualité de la réponse à celles-ci.

L'appel à des ressources terminologiques comme un dictionnaire d'abréviations, un thésaurus... ou à des scripts d'interprétation d'expressions régulières pour pallier les écritures hétérogènes des codes d'identification ont ainsi été introduits. Cependant l'usage de ceux-ci peut générer du bruit et de la confusion auprès des utilisateurs qui sont noyés d'informations inutiles. Par exemple, le dictionnaire d'abréviations contient l'acronyme SAP qui, selon le contexte, peut signifier production d'air comprimé ou sonde axiale particulière. De même l'identification du repère fonctionnel de la vanne d'isolement de l'enceinte file A du système SEP peut prendre indifféremment la forme 1SEP1003VA ou 1 SEP 1003 VA ou 12 SEP 1003VA/250...

le moteur de recherche doit prendre en compte les spécificités des vocabulaires
Le moteur de recherche doit prendre en compte les spécificités des vocabulaires techniques, et implémenter des règles de traitement sémantique visant à réduire le bruit, c'est-à-dire les réponses inutiles. © Julien Rousset - Fotolia.com

L'utilisation de scripts du type "si un mot de la requête contient 1 ou 2 chiffres suivis de 3 lettres et de 4 chiffres alors c'est un repère et donc il faut aussi chercher la même expression avec des espaces entre chaque groupe alphanumérique" ramènera certainement des documents où figurent différentes dates du mois de septembre, ce qui risque de retourner des documents inadaptés à la requête de l'utilisateur.

Le recours aux ateliers composés d'utilisateurs de tous métiers a permis de jauger la manière dont ceux-ci pouvaient s'affranchir d'un certain bruit en utilisant la recherche avancée ou les filtrages. A l'inverse, ces ateliers ont mis en évidence le mécontentement des utilisateurs ne retrouvant pas un document qu'ils savaient exister. Plusieurs échanges avec les utilisateurs ont été nécessaires pour caler au mieux le curseur de l'appel aux ressources linguistiques et terminologiques. Souvent les imprécisions de celles-ci ont été compensées par une présentation riche des résultats qui permet tri, filtrage et suggestion de recherche.

Utiliser le filtrage par critères pour éliminer le bruit et les réponses inutiles

Citons le cas d'une recherche réalisée par un ingénieur radioprotection sur l'expression "DT 218". Les ressources linguistiques et terminologiques implémentées ont permis de présenter en résultat tous les documents contenant D.T. 218, DT218 ainsi que les documents contenant les extensions : détecteur, disposition transitoire, directive technique, demandes de travaux. En filtrant sur les sources de données dédiées à la radioprotection et à l'environnement, sur le type de document, les dates, les auteurs et les termes associés, notre ingénieur en radioprotection a pu trouver facilement la directive technique 218 qu'il cherchait sans avoir été troublé par le bruit généré au départ.