Détection et segmentation des blocs de texte manuscrits et imprimés dans des documents complexes.

01-01-0001

Actes de SDNRI 2014

PDF

Auteurs

Philippine Barlas, Clément Chatelain, Sébastien Adam, Thierry Paquet

Résumé

Dans cet article, nous présentons un système de segmentation des zones de texte imprimées ou manuscrites dans des documents complexes. La méthode réalise une première classification des composantes connexes en tant que texte/non-texte, puis un deuxième étage discrimine les composantes manuscrites des composantes imprimées. Les composantes de texte sont ensuite regroupées en blocs homogènes à l’aide d’un algorithme basé sur la détection des rectangles blancs. Nous présentons les résultats obtenus par le système lors de la première campagne MAURDOR.

Abstract

This paper presents a Document Image Analysis (DIA) system able to extract homo- geneous typed and handwritten text regions from complex layout documents of various types. The method is based on two connected component classification stages that successively dis- criminate text/non text and typed/handwritten shapes, followed by an original block segmenta- tion method based on white rectangles detection. We present the results obtained by the system during the first competition round of the MAURDOR campaign.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.