Auteurs
Résumé
La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article, nous proposons une méthode de regroupement de mots, basée sur l’algorithme PoBOC (Pole-Based Overlapping Clustering) autorisant les recouvrements entre les groupes. Ainsi, chaque mot initial peut appartenir à un ou plusieurs attributs terminaux. Les expérimentations menées sur le corpus Reuters-21578 ont permis de montrer que cette méthode de regroupements non-disjoints induit, sous de bonnes conditions, une amélioration de la précision du classifieur.
Abstract
Nowadays, automatic document categorization is an important challenge in the Information Retrieval (IR) and Processing field. From a supervised point of view, this task consists in training a categorization model (classifier) on a corpus of documents. The major problem concerns the representation of the documents in a feature space of reasonable dimension. In this paper we propose a new method to cluster words in overlapping groups. This approach is based on the PoBOC (Pole-Based Overlapping Clustering) algorithm which allows a word to appear in one or several features. Experiments on the Reuters-21578 corpus show that overlapping features lead to an improvement in classification accuracy, on well defined conditions.