ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2009
PDF

Auteurs

Youen Péron

Résumé

Cet article contient une présentation de notre travail en cours de dévelop- pement dans le domaine de la recherche d’informations dans des bases de documents semi-structurées. Nous cherchons à construire un système d’interrogation u dénommé 6IR pour Structure based IndeX Information Retrieval u qui fournisse une liste de documents similaires au contenu et à la structure d’une requête ramifiée. L’extraction des documents est basée sur l’identification de points communs entre leur structure et celle de la requête. Nous détaillons le processus d’indexation qui consiste à extraire des documents de la base tous les points d’accrochage exploitables dans le processus d’in- terrogation. Nous montrons comment parvenir à maîtriser l’explosion combinatoire de la taille de l’index en paramétrant la taille des points d’ancrage et les propriétés qui en découlent pour les documents candidats obtenus lors du processus d’interrogation.

Abstract

This paper contains a presentation of our work in progress in the domain of information retrieval in base of semi-structured documents. We try to build a querying engine u called 6IR for Structure based IndeX Information Retrieval u which provides a list of documents similar in content and structure of a twig query. The extraction of documents is based on the identification of structure pattern. We detail the indexing process that consists of extracting all the patterns of the documents of the base useable for the process of interrogation. We show how to control the combinatorial explosion in the size of the index by setting the size of the patterns and the properties that followed on the documents obtained during the interrogation.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.