Extraire des données présentes dans des pages Internet
Décrivez votre astuce en détail. N'hésitez-pas à inclure des portions de codes.
En utilisant "HTML Tidy" (http://www.w3.org/People/Raggett/tidy/) pour convertir une page HTML en XHTML, il devient possible de transformer la page au moyen d'une feuille de style XSLT et de requêtes XPath.
Le lancement de Tidy doit se faire avec les options "--output-xml yes --doctype omit --quote-nbsp no --numeric-entities yes" pour garantir une conversion sans écueil.