Auteurs
Résumé
Cet article contient une présentation de notre travail en cours de dévelop- pement dans le domaine de la recherche d’informations dans des bases de documents semi-structurées. Nous cherchons à construire un système d’interrogation u dénommé 6IR pour Structure based IndeX Information Retrieval u qui fournisse une liste de documents similaires au contenu et à la structure d’une requête ramifiée. L’extraction des documents est basée sur l’identification de points communs entre leur structure et celle de la requête. Nous détaillons le processus d’indexation qui consiste à extraire des documents de la base tous les points d’accrochage exploitables dans le processus d’in- terrogation. Nous montrons comment parvenir à maîtriser l’explosion combinatoire de la taille de l’index en paramétrant la taille des points d’ancrage et les propriétés qui en découlent pour les documents candidats obtenus lors du processus d’interrogation.
Abstract
This paper contains a presentation of our work in progress in the domain of information retrieval in base of semi-structured documents. We try to build a querying engine u called 6IR for Structure based IndeX Information Retrieval u which provides a list of documents similar in content and structure of a twig query. The extraction of documents is based on the identification of structure pattern. We detail the indexing process that consists of extracting all the patterns of the documents of the base useable for the process of interrogation. We show how to control the combinatorial explosion in the size of the index by setting the size of the patterns and the properties that followed on the documents obtained during the interrogation.