Auteurs
Résumé
Utilisée dans un contexte industriel, la classification d’images de documents néces- site le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes. Cette approche permet alors d’introduire de nouvelles classes sans contraindre le système à un nouvel apprentissage. Pour cela, nous calculons un vecteur de ca- ractéristiques générique qui sera ensuite spécialisé en classant les caractéristiques selon un score de stabilité. Finalement, un classificateur monoclasse de type K plus proche voisins est entrainé en utilisant ce vecteur. Les expérimentations menées révèlent de bons taux de classifi- cation prouvant une adaptabilité de notre système sur des problèmes complexes.
Abstract
Document image classification in an industrial context requires to respect some con- straints such as dealing with a large variability of documents and/or number of classes. In this article, we answer this problem by presenting a new methodology focused on an idea of special- izing the features and the classifier for each class, whereas most methods deal with all classes at the same time. The benefit of this approach is to enable the industrial system to introduce a new class without re-training the current classifier. We first compute a generalized vector of features in order to specialize it by ranking the features according a stability score. Finally, a one-class K-nn classifier is trained by using the specific features for a chosen class. Conducted experiments reveal good classification rates proving the ability of our system to deal with a large range of classes of documents.