ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Quang Anh Bui

Résumé

La recherche de mots ou de groupe de mots pour la navigation dans des collections de documents anciens numérisés est un sujet de recherche actif dans la communauté internatio- nale. En raison en particulier de la qualité médiocre de ce type de documents et de l’utilisation d’un langage ancien ou rare, appliquer un simple OCR sur ces documents ne suffit pas, d’autant que certains alphabets ne disposent d’aucun système de reconnaissance automatique. Afin de contourner ces difficultés, nous proposons un système générique, omni-langage et interactif de recherche de mots dans des collections de documents anciens. Cette approche permet de tra- vailler sur n’importe quelle collection de documents anciens, utilisant n’importe quel alphabet, pictogrammes ou idéogrammes. Dans ce contexte, l’utilisateur peut composer sa requête et il n’a pas besoin de maîtriser le langage ni de détecter préalablement une occurrence du mot-clé.

Abstract

Word retrieval for browsing old digitized document collections is an active field of research. Indeed, because of the bad quality of this type of documents and the use of an ancient language, applying a basic OCR is not enough in general. In order to circumvent these diffi- culties, we are currently working on a generic, omni-language and interactive word retrieval system for browsing old document collections. This approach enables the user to retrieve words in any old collection of documents, whatever the alphabet, pictographs or ideograms used, with- out previously detecting an occurrence of the word in the collection, and even without mastering the language.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.