Auteurs
Résumé
La classification non supervisée (ou clustering) de documents permet d’organiser thématiquement une collection de documents de façon à faciliter l’accès à l’information, ou à proposer une vue synthétique du contenu d’un ensemble de documents. Néanmoins, quand la collection considérée contient des documents de type différent, cette hétérogénéité perturbe les résultats du clustering, en regroupant plus volontiers les documents selon leur type que selon leur thème. Nous présentons dans cet article une approche simple pour la prise en compte de l’hétérogénéité de la collection dans le clustering, en utilisant une sélection des traits de représentation qui s’appuie sur les différences de distributions des termes selon les types de document. Nous montrons l’intérêt de l’approche proposée en proposant une évaluation sur un corpus hétérogène constitué spécifiquement pour cette tâche.
Abstract
The goal of document clustering is to organize a collection of documents according to their topics, in order to facilitate the information access or to propose a synthetic view of the informational content of a collection of text. However, when the considered collection contains different types of documents, the clustering results tend to be impacted, because the similarity between the documents will rely as much on the type of the documents as on their topics. We present in this article a simple approach designed to take into account the type of documents in the document clustering task, using a feature selection method that exploits the type of the documents. We show the interest of this approach with an evaluation on a heterogeneous corpus specially designed for this task.