ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2009
PDF

Auteurs

Sebastián Peña Saldarriaga, Emmanuel Morin, Christian Viard-Gaudin

Résumé

Cet article s’intéresse à la problématique de la catégorisation automatique de docu- ments manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de recon- naissance de l’écriture en-ligne et leur version originale électronique. Les résultats montrent qu’aucune perte significative des performances n’est à signaler lorsque 78 % des termes d’in- dexation sont correctement reconnus dans les documents à catégoriser. Nous montrons égale- ment que lorsque plus de la moitié de ces termes sont mal reconnus, l’utilisation d’une liste de candidats mots permet d’améliorer le taux de classification.

Abstract

This paper deals with the automated categorization of on-line handwritten documents. We experimentally show the effects of word recognition errors on a categorization engine using machine learning algorithms. We compared the performances of a categorization system over the texts obtained through on-line handwriting recognition and the same texts available as ground truth. Results show that no significant accuracy loss is expected when about 78% percent of indexation terms are correctly recognized. Results also show that using the top n recognition-candidates increases categorization rates of texts where more than 50% of indexa- tion terms are incorrectly recognized.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.