Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML.

01-01-0001

Actes de CORIA 2011

PDF

Auteurs

Cyril Laitang, Karen Pinel-Sauvagnat

Résumé

La recherche d’information sur documents semi-structurés de type XML (RIS) permet de renvoyer à l’utilisateur des granules documentaires se focalisant sur les besoins exprimés. La requête et les documents structurés pouvant être vus comme des hiérarchies d’éléments imbriqués, nous considérons que leur proximité structurelle peut être évaluée au travers de la similarité entre leurs arborescences respectives. Dans ce cadre, nous proposons un modèle de RIS combinant au calcul de score sur le contenu une mesure de similarité structurelle basée sur la distance d’édition (le coût minimal d’opérations pour transformer un arbre en un autre). Nous propageons et combinons les scores ainsi obtenus en prenant en compte le voisinage de chacun des noeuds dans l’arborescence de nos arbres document. Nous avons évalué notre approche au travers de la tâche SSCAS de la campagne d’évaluation INEX 2005 et nos premiers résultats montrent l’intérêt d’une telle approche.

Abstract

Information retrieval on semi-structured documents like XML (SIR) allows the user to narrow his search down to the document element level. Queries and semi-structured documents could be seen as hierarchically nested elements. We consider that their structural proximity could be evaluated over their trees similarity. Our SIR approach combines both content and structure scores, the latter being based on tree edit distance (minimal cost of operations to turn one tree to another). We then propagate and combine our score based on the neighbourhood of each of our nodes in the tree document structure. Our approach was evaluated over the SSCAS INEX’s 2005 task and our first results show the interest of such an approach.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.