ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Cyril Laitang, Karen Pinel-Sauvagnat, Mohand Boughanem

Résumé

La recherche d’information structurée (RIS) sur documents de type XML permet de retourner des parties de documents répondant plus précisément aux besoins des utilisateurs. Ces derniers, parfois exprimés sous forme de requêtes structurées, peuvent tout comme les documents être représentés sous forme d’arbres. Notre approche utilise ces représentations arborescentes et mesure la pertinence des éléments XML au travers de la distance d’édition. Cette dernière se définit comme la somme des coûts minimaux d’opérations de suppression, d’insertion et de substitution permettant de rendre les arbres isomorphes. Attribuer un coût à ces opérations a donc une conséquence directe sur la qualité de l’appariement. C’est ce problème que nous nous proposons d’étudier dans cet article. Nous avons évalué notre approche au travers de la tâche SSCAS d’INEX 2005 et sûr la tâche DATACENTRIC d’INEX 2010. Les résultats que nous obtenons montrent son intérêt.

Abstract

Structured information retrieval (SIR) on XML documents allows to retrieve focused parts of documents that match the user needs. These needs can be expressed throught content and structured queries, that as well as XML documents can be represented as trees. Our ap- proach uses these trees through tree edit distance to estimate the relevance of XML elements. Tree edit distance is the minimum set of insert, delete, and replace operations to turn one tree to another. The effectiveness of tree edit distance strongly relies on these costs. In this paper we will study the estimation of these costs in the context of SIR. Our model was evaluated over the SSCAS INEX’s 2005 task as well as the INEX’s 2010 Datacentric track and our first results show the interest of such an approach.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.