Classification active de flux de documents avec identification des nouvelles classes.

01-01-0001

Actes de SDNRI 2014

PDF

Auteurs

Mohamed-Rafik Bouguelia, Yolande Belaïd, Abdel Belaïd

Résumé

Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d’apprentis- sage non supervisé, permet de repérer les documents les plus informatifs à l’aide d’une mesure d’incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d’un graphe à topologie dynamique dont les noeuds sont des représentants de docu- ments étiquetés, formant ce qu’on appelle l’’espace couvert par les classes connues’. Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d’une nouvelle classe ou d’une classe connue, selon qu’il se trouve à l’extérieur ou à l’intérieur de l’espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu’elle atteint des performances comparables aux méthodes supervi- sées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés.

Abstract

In this paper, we propose a stream-based semi-supervised active learning method for document classification, which is able to query (from an operator) the class labels of documents that are informative, according to an uncertainty measure. The method maintains a dynamically evolving graph topology of labelled document-representatives, which constitutes a covered fea- ture space. The method is able to automatically discover the emergence of novel classes in the stream. An incoming document is identified as a member of a novel class or an existing class, depending on whether it is outside or inside the area covered by the known classes. Experi- ments on different real datasets show that the proposed method requires a small amount of the incoming documents to be labelled, in order to learn a model which achieves better or equal accuracy than to the usual supervised methods with fully labelled training documents.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.