Classification de Structures Arborescentes : Cas de Documents XML

01-01-0001

Actes de CORIA 2009

PDF

Auteurs

Ali Aïtelhadj, Mohamed Mezghiche, Fatiha Souam

Résumé

Cet article présente une méthode de classification structurelle de documents XML. Notre approche consiste d’abord à extraire automatiquement la structure arborescente de chaque document XML à classer, et ensuite à utiliser cette structure comme modèle de représentation pour la classification du document XML correspondant. L’appariement de ces structures est fondé sur un calcul de leurs similarités. Pour l’expérimentation nous avons utilisé un corpus INEX.

Abstract

In this paper we present a clustering method for XML documents. Our step is two- phase based: we first automatically extract the structure from the document; we then use it as model of representation to classify the document that it represents. The matching of the documents’ structures is based on the calculation of their similarities. For the experimentation we used the INEX.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.