Auteurs
Résumé
Cet article s’intéresse à la problématique de la catégorisation automatique de docu- ments manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de recon- naissance de l’écriture en-ligne et leur version originale électronique. Les résultats montrent qu’aucune perte significative des performances n’est à signaler lorsque 78 % des termes d’in- dexation sont correctement reconnus dans les documents à catégoriser. Nous montrons égale- ment que lorsque plus de la moitié de ces termes sont mal reconnus, l’utilisation d’une liste de candidats mots permet d’améliorer le taux de classification.
Abstract
This paper deals with the automated categorization of on-line handwritten documents. We experimentally show the effects of word recognition errors on a categorization engine using machine learning algorithms. We compared the performances of a categorization system over the texts obtained through on-line handwriting recognition and the same texts available as ground truth. Results show that no significant accuracy loss is expected when about 78% percent of indexation terms are correctly recognized. Results also show that using the top n recognition-candidates increases categorization rates of texts where more than 50% of indexa- tion terms are incorrectly recognized.