Auteurs
Résumé
La discrimination entre les langues est l’une des premières étapes dans le problème de reconnaissance automatique des documents de textes. Dans de nombreux documents, tels que les chèques bancaires et les formulaires, les textes imprimés et manuscrits sont mélangés. Dans cet article, nous proposons un système d’identification automatique des mots arabes et français dans les deux formes: manuscrite et imprimée. Ce système est basé sur les modèles de mélanges gaussiens (GMMs). Pour l’extraction des caractéristiques, nous utilisons une fenêtre glissante de longueur fixe. Des expérimentations utilisant quelques parties des bases gratuitement disponibles AHTID/MW, APTI et RIMES montrent une performance remarquable de l’approche proposée.
Abstract
The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fixed-length sliding window was used for the feature extraction. Experiments using some parts of the freely available AHTID/MW, APTI and RIMES databases show a remarkable performance of the proposed approach.
