Génération d'images semi-synthétiques de documents anciens à des fins d'évaluation de performances et d'apprentissage.

01-01-0001

Actes de SDNRI 2014

PDF

Auteurs

Van Cuong Kieu, Maroua Mehri, Vincent Rabeux, Nicholas Journet, Muriel Visani

Résumé

Dans cet article, nous étudions comment des données semi-synthétiques permettent d’évaluer finement les performances d’algorithmes ou de fournir des données d’apprentissage à un système de traitement ou d’analyse d’images de documents. Les images semi-synthétiques que nous générons reproduisent fidèlement les défauts des documents anciens liés aux moyens d’impression anciens ou à la dégradation de l’encre des caractères. La première expérimenta- tion réalisée dans cet article vise à comparer les performances de différents descripteurs texture dans l’optique d’une segmentation d’images. La seconde expérience met en évidence le fait que l’utilisation d’images semi-synthétiques permet d’enrichir quantitativement et qualitativement une base d’apprentissage utilisée par une méthode de prédiction de résultats de binarisation d’images de documents et d’améliorer les résultats de 15%.

Abstract

In this article, we study the advantages of using semi-synthetic data for evaluat- ing and re-training document image analysis systems. We focus on semi-synthetic data that reproduce defects commonly encountered in old document images having an impact on texts and graphics. First, semi-synthetic images are used to efficiently evaluate and compare the performances of three different texture-based segmentation approaches in an image segmenta- tion system. Second, these images are added into the training set to improve about 15% of the accuracy of a binarisation prediction system.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.