L’impact de la technologie des moteurs de recherche sur les bases de données

Il existe une alternative à l'approche "matérielle" des bases de données : l'approche logicielle. Cette dernière tire parti des avancées des technologies des moteurs de recherche.

Il est révélateur de constater que les préoccupations principales des administrateurs  de bases de données sont les mêmes que celles des concepteurs de moteurs de recherche à savoir, l'amélioration des temps et la précision des réponses.

La gestion par les bases de données : de fortes implications

Les bases de données servent à stocker les informations structurées que contiennent les catalogues, les annuaires, les inventaires, etc. Dans une base bien organisée, l'information n'est placée qu'à un seul endroit, sécurisant ainsi au maximum les mises à jour.  

Pour retrouver une information, la structure de la base de données impose des requêtes complexes entraînant une augmentation des délais. Plus les informations sont hétérogènes, plus la structure se complexifie et plus la richesse des requêtes entraîne une augmentation des temps de réponse.

Une solution est de modifier les interconnexions entre les données (schéma relationnel) pour introduire de la redondance dans les tables. Dans cette optique, ce sont les mises à jour qui deviennent de plus en plus complexes et de plus en plus lentes jusqu'à nécessiter l'ajout de serveurs, de  processeurs et de mémoire.

L'entreprise peut également effectuer de coûteux investissement dans des outils de surveillance et d'optimisation des performances et embaucher des administrateurs de bases de données pour régler tous ces outils. Ceci implique souvent une nouvelle optimisation du schéma des bases de données et donc la réécriture des programmes de mise à jour.

Enfin, l'entreprise peut choisir de changer de Système de Gestion de Bases de Données pour investir dans des bases de données spécialisées dotées de mécanismes très sophistiqués de mise en cache automatique.

En résumé, pour assurer la qualité et la rapidité de son système d'accès à la connaissance, l'entreprise entreprend des opérations ayant un impact organisationnel, matériel et financier très lourd.  

La solution logicielle
Il existe une alternative à cette approche « matérielle », c'est l'approche logicielle qui tire parti des avancées des technologies des moteurs de recherche. Le but est  de s'appuyer sur la technologie de recherche de données non structurées afin d'améliorer l'efficacité  des requêtes sur les données structurées des bases de données.

La structure comme moyen de sélection et de tri
Les moteurs de recherche sont capables de retrouver de manière quasi-instantanée un ou plusieurs mots se trouvant dans des centaines de millions ou même des milliards de documents quel qu'en soit le format.

Pourquoi ne pas considérer un enregistrement d'une base de données (donnée structurée) comme un document d'un « format » un peu particulier ? Les moteurs de recherche gèrent déjà des données structurées, de fait les pages Web qu'ils indexent le sont partiellement, de par leur format HTML : c'est ainsi que l'on peut distinguer un titre de document, des titres de sections, des découpages en paragraphes, etc...

Un lien entre ces données Web faiblement structurées et les bases de données est le format XML, plus générique. Pour le moteur de recherche, la gestion des données XML en entrée, consiste à approfondir et systématiser les mécanismes mis en place pour le traitement du HTML.

Pour le gestionnaire d'une base de données, générer un import au format XML est une option sans difficultés techniques majeures. Le moteur de recherche est donc en mesure de devenir un point d'accès unique et central à l'ensemble des données.

Une requête unique permet ainsi de retrouver l'information contenue à la fois dans les champs structurés d'une base de données de GED, par exemple, et dans le texte non structuré des documents numérisés associés à l'enregistrement de la base de données. La structure devient une information comme une autre qui n'est plus jamais un obstacle à la recherche mais devient, utilisée à bon escient, un outil de sélection et de tri.

Autour du même sujet