Auteurs
Résumé
Une majorité de travaux de Recherche d’Information dans les collections de documents semi-structurés se focalise sur le traitement de bases homogènes et ne sont pas utilisables sur des corpus de documents hétérogènes issus du Web par exemple. Nous présentons ici la mé- thode ISM (Incremental Structure Mapping) permettant la conversion de documents XML issus de sources hétérogènes dans un schéma de médiation. ISM est centrée document et permet la prise en compte simultanée de la structure et du contenu des documents. Elle ne nécessite pas de spécifier des correspondances entre schéma manuellement et utilise des méthodes d’appren- tissage automatique, l’utilisateur n’ayant qu’à fournir au système un ensemble de documents exprimés conjointement dans leur schéma initial et dans le schéma de destination. Contraire- ment aux méthodes existantes, ISM possède une complexité très faible et permet de traiter de grands corpus de documents. Les résultats des expériences sur différents corpus montrent que l’algorithme est capable d’apprendre des transformations complexes, notamment pour la tâche de conversion du format HTML vers un format XML sémantiquement riche.
Abstract
We propose here the method called ISM-Incremental Structure Mapping- which al- lows one to convert XML documents from heterogeneous sources to a mediated schema. Unlike existing methods, ISM is document centric and takes into account both the structural informa- tion and the content information. It does not need to specify manually correspondences between schema and is based on Machine Learning methods in order to transform documents to the me- diated schema. The method learns the transformation using a set of documents expressed in both the input schema and the output schema. At last, ISM has a low complexity and can be used with very large XML collections. This methods is experienced here on a set of corpus and different tasks. The results show that the algorithm is able to learn complex transformations and to transform large corpora, particularly for the conversion of HTML documents to semantically rich XML documents.