Auteurs
Résumé
Dans cet article nous introduisons un nouveau modèle syllabique pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée du Français est proposé pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipedia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède à un décodage en deux passes en exploitant le modèle syllabique proposé. L’évaluation est réalisée sur la base RIMES en analysant les performances pour différents taux de couverture du modèle syllabique. Nous comparons le modèle proposé à un modèle lexical ainsi qu’à un modèle de caractères. L’approche proposée permet d’atteindre des performances intéressantes grâce à sa capacité à couvrir une proportion importante des mots hors lexique en travaillant avec un lexique de syllabes de taille limitée combiné à un modèle de n-gram d’ordre raisonnable.
Abstract
In this paper, we introduce a new syllabic model for handwriting recognition. We propose a supervised syllabification approach of the French language for building a vocabulary of syllables. A statistical n-gram language model of syllables is trained on a Wikipedia corpus. The handwriting recognition system, based on optical character HMM, performs a two pass decoding, integrating the proposed syllabic model. Evaluation is carried out on the RIMES dataset by analysing the performance for various coverage of the syllable model. We also compare the model with lexicon and character n-gram models. The proposed approach achieves interesting performance thanks to its capacity to cover a large amount of out of vocabulary words working with a limited amount of syllables combined with statistical n-gram of reasonable order.