ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2011
PDF

Auteurs

Romain Deveaud, Florian Boudin, Eric SanJuan, Patrice Bellot

Résumé

Les livres numérisés accessibles sur Internet constituent une importante source d’in- formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d’Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l’impact sur une tâche de recherche de livres. Nous décrivons également une série d’expériences sur l’enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu’utiliser un grand nombre de mots ainsi qu’une répartition adéquate des poids entre la requête initiale et l’enrichissement apporte une amélioration significative par rapport à l’état de l’art.

Abstract

Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.