ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Ahmed Ben Salah

Résumé

Dans cet article, nous étudions deux pistes afin d’améliorer le processus de numérisa- tion des documents de la Bibliothèque nationale de France en vue de leur OCRisation. Dans la première partie, nous étudions les corrélations qui existent entre les données bibliographiques du document et les décisions de sélection des documents. Dans la deuxième partie, nous pré- sentons une méthode basée sur la précision et le rappel qui va nous servir à estimer le taux de reconnaissance caractères pour vérifier les résultats de l’OCRisation sans recours à une vérité terrain. Nous présentons également un état de l’art des méthodes de segmentation dans le but de vérifier la qualité de celle issue de l’OCRisation.

Abstract

In this paper, we investigate how to improve the digitization process at the French na- tional Library. We propose in the first part a study on the relationship between the bibliographic data of the document and the selection decisions of the documents to help in this task. In the second part, we present an existing approach to estimate precision and recall without ground truth that could be used to estimate the OCR recognition rates. Finally, we present a short state of the art of segmentation methods that can help us to validate the quality of the segmentation.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.