Auteurs
Résumé
Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documen- taire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de documents XML en fonction de leur régularités structurelles. Nous proposons de modéliser la structure des documents XML par un réseau bayésien qui permet de prendre en compte différentes dépendances entres les unités structurelles du document. Nous présentons les résultats de nos différents mo- dèles sur le corpus INEX et voyons ensuite comment un de nos modèles permet de déterminer un représentant de chacune des classes obtenues sous forme d’une DTD probabiliste.
Abstract
The widespread use of XML has urged the need to develop tools to efficiently store, access and organize XML corpus. The INEX initiative has resulted in major improvements in XML retrieval systems, but today, related tasks, like categorization or structure matching, should be investigated. We consider here the problem of clustering XML documents using their structure. In this paper, we propose a Belief networks-based stochastic model which is able to describe different kind of relation between structural elements. We show how these models can be used for the clustering task. We test them both using the INEX corpus and an artificial corpus of XML documents.