ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2017
PDF

Auteurs

Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou, Christian Viard-Gaudin

Résumé

Ce travail s’intéresse à l’extraction d’informations dans les registres comptables de la Comédie-Italienne du XVIII e siècle. Ces derniers renferment des informations précieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l’acculturation des acteurs italiens de cette époque. L’extraction d’informations, dans des documents anciens non encore étudiés, est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation en blocs, lignes ou mots, extraction de caractéristiques, reconnaissance d’écri- ture manuscrite. Les réseaux de neurones récurrents, de type BLSTM, avec un décodage CTC constituent une des méthodes les plus prometteuses en reconnaissance d’écriture, pour réaliser l’étiquetage d’une séquence donnée en entrée et produire un résultat de reconnaissance. Cet article présente une étude préliminaire de l’utilisation de ce type de réseau de neurones pour une première tâche : la reconnaissance des titres des pièces de théâtre, dans des documents historiques multilingues (français et italien) utilisant un vocabulaire fermé et essentiellement composé d’entités nommées.

Abstract

This work cares about information retrieval in accounting registers of Italian com- edy of the 18 th century. These documents contain precious information for human and social science researchers interested in the integration of the Italian actors during this century. Infor- mation retrieval in old documents which have never been studied before, is a long and difficult process. Each step asks an expertise : detection and segmentation into blocs, lines or words; extraction efficient features; and handwriting recognition. The BLSTM recurrent neural net- work with CTC decoding is the most popular solution which outperforms others for alignment between a transcription and an input sequence. This paper explains a preliminary investigation using this kind of recurrent neural network for the following task : identify the play’s titles in multilingual historical documents using closed vocabulary that mainly contains named entities.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.