ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2016
PDF

Auteurs

Wassim Swaileh, Kamel Ait-Mohand, Thierry Paquet

Résumé

Dans cet article nous introduisons un nouveau modèle syllabique pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée du Français est proposé pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipedia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède à un décodage en deux passes en exploitant le modèle syllabique proposé. L’évaluation est réalisée sur la base RIMES en analysant les performances pour différents taux de couverture du modèle syllabique. Nous comparons le modèle proposé à un modèle lexical ainsi qu’à un modèle de caractères. L’approche proposée permet d’atteindre des performances intéressantes grâce à sa capacité à couvrir une proportion importante des mots hors lexique en travaillant avec un lexique de syllabes de taille limitée combiné à un modèle de n-gram d’ordre raisonnable.

Abstract

In this paper, we introduce a new syllabic model for handwriting recognition. We propose a supervised syllabification approach of the French language for building a vocabulary of syllables. A statistical n-gram language model of syllables is trained on a Wikipedia corpus. The handwriting recognition system, based on optical character HMM, performs a two pass decoding, integrating the proposed syllabic model. Evaluation is carried out on the RIMES dataset by analysing the performance for various coverage of the syllable model. We also compare the model with lexicon and character n-gram models. The proposed approach achieves interesting performance thanks to its capacity to cover a large amount of out of vocabulary words working with a limited amount of syllables combined with statistical n-gram of reasonable order.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.