Pages 1 | 2
| 3 | 4
Autant le dire tout de suite, le but de cette série
n'a pas la prétention de faire de l'ombre à Google...
Loin s'en faut.
Le but ici est de se construire un petit moteur de recherche basique,
capable de faire remonter les pages de notre site correspondant
au(x) critère(s) de recherche (seul le singulier s'appliquera
dans un premier temps).
Il nous faut pour cela adopter une politique d'indexation du contenu
de nos pages, c'est l'objet du présent tutoriel.
Le poids des mots...
Nous effectuerons nos tests sur cinq tutoriels issus du site JDN
Développeurs, certains se trouveront à la racine de
notre site de test, tandis que d'autres seront placés dans
des sous-répertoires.
Il sera souhaitable, dans le futur, de se construire une interface
permettant d'automatiser l'indexation pour un site ou un répertoire
donnés, capable de gérer également les sous-répertoires.
Pour ce premier tutoriel de la série, cette interface n'est
pas disponible, aussi c'est "en dur" que sera inscrit
le nom du fichier HTML à indexer.
De nombreux traitements sont à effectuer sur ce fichier HTML.
Le but est en effet d'obtenir à la fin de ce tutoriel une
liste de mots issus de ce fichier, d'au moins trois lettres, avec
leur fréquence d'apparition, le tout dans une base de données.
Celle-ci comportera (sous réserve de modification ultérieure)
5 champs :
(table "moteur")
- "id", la clef primaire...
- "mot"
- "occurence", stocke le nombre d'apparition du
mot dans le fichier concerné
- "origine" emplacement du fichier concerné
- "titre_page"
Revenons sur les deux derniers champs : "origine" et
"titre_page". Le premier permet d'identifier de manière
unique le fichier auquel se rapporte un mot et son nombre d'occurences,
le second stocke le titre de la page.
De plus, nous accordons l'équivalent de 10 occurences pour
un mot qui apparaît dans le champ "title" du fichier
HTML, c'est un choix arbitraire mais paramétrable. Nous estimons
en effet qu'un mot apparaissant entre les tags <TITLE></TITLE>
possède une connotation particulière qu'il convient
de prendre en compte.
Pages 1 | 2
| 3 | 4
|