Regroupements non-disjoints de mots pour la classification de documents.

01-01-0001

Actes de CORIA 2004

PDF

Auteurs

Guillaume Cleuziou

Résumé

La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article, nous proposons une méthode de regroupement de mots, basée sur l’algorithme PoBOC (Pole-Based Overlapping Clustering) autorisant les recouvrements entre les groupes. Ainsi, chaque mot initial peut appartenir à un ou plusieurs attributs terminaux. Les expérimentations menées sur le corpus Reuters-21578 ont permis de montrer que cette méthode de regroupements non-disjoints induit, sous de bonnes conditions, une amélioration de la précision du classifieur.

Abstract

Nowadays, automatic document categorization is an important challenge in the Information Retrieval (IR) and Processing field. From a supervised point of view, this task consists in training a categorization model (classifier) on a corpus of documents. The major problem concerns the representation of the documents in a feature space of reasonable dimension. In this paper we propose a new method to cluster words in overlapping groups. This approach is based on the PoBOC (Pole-Based Overlapping Clustering) algorithm which allows a word to appear in one or several features. Experiments on the Reuters-21578 corpus show that overlapping features lead to an improvement in classification accuracy, on well defined conditions.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.