ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2008
PDF

Auteurs

Young-Min Kim, Jean-François Pessiot, Massih-Reza Amini, Patrick Gallinari

Résumé

Dans cet article nous proposons une technique à base d’apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypo- thèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec l’al- gorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite représentés dans l’espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous mon- trons la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l’espace sac-de-mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur deux collections standard de WebKB et de Reuters.

Abstract

We present in this paper an unsupervised learning method for dimensionality reduc- tion of text data. This technique is based on the hypothesis that terms co-occuring in the same context with the same frequency are semantically related. On the basis of this hypothesis we first find term clusters using a classifiant version of the EM algorithm. Documents are then rep- resented in the space of these term clusters. We evaluate this method on the task of document clustering and show the effectiveness of our approach on two standard classification collections of WebKB and Reuters.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.