Identification de documents par classification monoclasse.

01-01-0001

Actes de SDNRI 2014

PDF

Auteurs

Nicolas Sidere, Jean-Yves Ramel, Sabine Barrat, Vincent Poulain D'Andecy, Saddok Kebairi

Résumé

Utilisée dans un contexte industriel, la classification d’images de documents néces- site le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes. Cette approche permet alors d’introduire de nouvelles classes sans contraindre le système à un nouvel apprentissage. Pour cela, nous calculons un vecteur de ca- ractéristiques générique qui sera ensuite spécialisé en classant les caractéristiques selon un score de stabilité. Finalement, un classificateur monoclasse de type K plus proche voisins est entrainé en utilisant ce vecteur. Les expérimentations menées révèlent de bons taux de classifi- cation prouvant une adaptabilité de notre système sur des problèmes complexes.

Abstract

Document image classification in an industrial context requires to respect some con- straints such as dealing with a large variability of documents and/or number of classes. In this article, we answer this problem by presenting a new methodology focused on an idea of special- izing the features and the classifier for each class, whereas most methods deal with all classes at the same time. The benefit of this approach is to enable the industrial system to introduce a new class without re-training the current classifier. We first compute a generalized vector of features in order to specialize it by ranking the features according a stability score. Finally, a one-class K-nn classifier is trained by using the specific features for a chosen class. Conducted experiments reveal good classification rates proving the ability of our system to deal with a large range of classes of documents.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.