Auteurs
Résumé
Dans cet article, nous étudions comment des données semi-synthétiques permettent d’évaluer finement les performances d’algorithmes ou de fournir des données d’apprentissage à un système de traitement ou d’analyse d’images de documents. Les images semi-synthétiques que nous générons reproduisent fidèlement les défauts des documents anciens liés aux moyens d’impression anciens ou à la dégradation de l’encre des caractères. La première expérimenta- tion réalisée dans cet article vise à comparer les performances de différents descripteurs texture dans l’optique d’une segmentation d’images. La seconde expérience met en évidence le fait que l’utilisation d’images semi-synthétiques permet d’enrichir quantitativement et qualitativement une base d’apprentissage utilisée par une méthode de prédiction de résultats de binarisation d’images de documents et d’améliorer les résultats de 15%.
Abstract
In this article, we study the advantages of using semi-synthetic data for evaluat- ing and re-training document image analysis systems. We focus on semi-synthetic data that reproduce defects commonly encountered in old document images having an impact on texts and graphics. First, semi-synthetic images are used to efficiently evaluate and compare the performances of three different texture-based segmentation approaches in an image segmenta- tion system. Second, these images are added into the training set to improve about 15% of the accuracy of a binarisation prediction system.