ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de SDNRI 2014
PDF

Auteurs

Mehdi Felhi, Salvatore Tabbone, Maria V. Ortiz Segovia

Résumé

Dans cet article, nous présentons une nouvelle approche hybride pour la segmenta- tion de pages basée sur les composantes connexes et sur l’analyse de régions. Nous décrivons d’abord notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l’image du document binarisée. Ensuite, un modèle de contours actifs est appliqué pour segmenter le reste de l’image en photos et arrière plan. Cette classification est vérifiée par l’étude de la variation de chacune des régions détectées. Enfin, les candidats de texte sont classifiés à l’aide de la technique du clustering “mean-shift’ en fonction de leurs tailles et nous présentons une approche adaptative d’analyse du profil de projection pour re- cueillir séparément les régions de texte horizontales et verticales. Cette méthode est appliquée pour la segmentation des images réelles des documents numérisés (journaux et magazines) qui contiennent du texte, lignes et des régions de photos. Nous évaluons les performances de notre approche en la comparant avec les méthodes existantes qui ont participé à la compétition de segmentation de pages “ICDAR page segmentation competition'.

Abstract

In this paper we present a new hybrid page segmentation approach based on con- nected component and region analysis. We first describe our stroke descriptor that detects text and line component candidates using the skeleton of the binarized document image. Then, the active contour Chan and Vese model is applied to segment the rest of the image into photo and background regions. This classification is verified by studying the variation of each detected region. Finally, we cluster the text candidates using mean-shift analysis technique according to their corresponding sizes and we present our multiscale projection profile approach to gather separately horizontal and vertical text regions. We evaluate the performances of our approach by comparing it to the existing methods that participated in ICDAR page segmentation compe- tition.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.