ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2008
PDF

Auteurs

Michel Beigbeder

Résumé

La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d’information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d’expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d’efficience en espace et en temps.

Abstract

Structured information retrieval needs storing of the document structures in the index. If many methods are known and widely used for the compression of flat document index, the efficient storage of structure has received little attention. We present a structure representation scheme dedicated to structured information retrieval. Then we propose a compression method of this representation scheme. We present experimental results conducted on the INEX 2006 and 2007 Wikipedia collection (5.8 gigabytes, 659 388 documents) both in space and time efficiency.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.