Utilisation du Web pour la reconnaissance de mots manuscrits hors vocabulaire.

01-01-0001

Actes de SDNRI 2014

PDF

Auteurs

Cristina Oprean, Laurence Likforman-Sulem, Adrian Popescu 0001, Chafic Mokbel

Résumé

Les systèmes de reconnaissance de l’écriture manuscrite s’appuient sur des diction- naires prédéfinis obtenus à partir de corpus d’entraînement. La taille de ces dictionnaires ré- sulte d’un compromis entre le taux de reconnaissance des mots du vocabulaire (DV) et la cou- verture du dictionnaire. Si la taille est limitée, beaucoup de mots hors vocabulaire (HV) restent non reconnus. Pour améliorer la reconnaissance des mots HV, sans augmenter le dictionnaire, nous introduisons une étape supplémentaire qui exploite des ressources Web. Après une pre- mière classification des séquences des caractères en DV-HV, Wikipédia est utilisée pour créer des dictionnaires dynamiques pour chaque mot HV. Un décodage final est effectué sur le diction- naire dynamique afin de déterminer le mot le plus probable pour la séquence HV. Nous validons notre approche avec des expériences menées sur la base RIMES. Les résultats montrent que des améliorations sont obtenues par rapport à la reconnaissance avec un dictionnaire statique.

Abstract

Handwriting recognition systems rely on predefined classifiers. Small and static dic- tionaries are usually exploited to obtain high in-vocabulary (IV) accuracy at the expense of cov- erage. Thus the recognition of out-of-vocabulary (OOV) words cannot be handled efficiently. To improve OOV recognition while keeping IV dictionaries small, we introduce a multi-step ap- proach that exploits Web resources. After an initial IV-OOV classification, external resources are used to create OOV sequence-adapted dynamic dictionaries. A final CTC-based decoding is performed over the dynamic dictionary to determine the most probable word for the OOV se- quence. We validate our approach with experiments conducted on the RIMES dataset. Results show that improvements are obtained compared to standard handwriting recognition.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.