ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de SDNRI 2014
PDF

Auteurs

Pascal Bourquin, Jean-Yves Ramel

Résumé

Cet article décrit un nouveau moteur d’extraction d’éléments de contenu et d’analyse de structures de pages numérisées. Cette nouvelle méthode se base sur un mécanisme original d’appariement séquentiel et de transformation de sous-arbres. Les sous- arbres permettent la description des structures à localiser dans l’état courant de l’interprétation du document représenté également par une structure arborescente. Un algorithme de recherche d’appariements sous contraintes de sous-arbres pouvant être exploité de manière incrémental permet la mise en place interactive de scénarios d’analyse cherchant à répondre aux besoins spécifiques de chaque usager. Ainsi, l’originalité de notre approche réside dans l’opportunité que nous offrons aux utilisateurs de pouvoir construire de manière interactive des scénarios d’analyse incrémentale d’images à moindre coût. Le but est de laisser l’utilisateur concevoir comme bon lui semble sa chaine de traitement en faisant évoluer une représentation des images sous forme d’arbre d’éléments de contenu de manière progressive.

Abstract

This paper describes a new framework dedicated to layout analysis and content extraction in digitized documents. This new method is based on an original sub-tree transformation and matching algorithm that includes a constraint verification step. The sub- tree structures represent the elements of content to be extracted as well as the current state of the interpretation process. The sub-tree transformation and matching algorithm can be used incrementally in order to build adaptive processing chains making the tree corresponding to the whole document evolving. The originality of the proposed framework comes from the possibility provided to the users to generate interactively, and as they wants, many different image analysis scenarios by just applying sequentially some specific transformations on a tree structure that represents the layout of the document images

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.