ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Aurélien Lauf

Résumé

Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voisins partagés dans un graphe de cooccurrences. Nos thématiques peuvent se chevaucher (partager des mots) et ne sont pas uniquement des ensembles de mots : le forma- lisme de la théorie des graphes nous permet d’exprimer concrètement des relations sémantiques fines entre les mots de chaque thématique. Les premiers résultats sont très encourageants.

Abstract

This paper deals with document clustering in the context of strategic and competitive intelligence on the Web (medium-sized corpora). Our goal is to assist the user with the following tasks: 1. find topics within collected textual data; 2. put each document in one or more of these topics. We present a corpus linguistics approach, using shared nearest neighbors within a cooccurrence graph. The topics we build may overlap (i.e. share many words) and are not only set of words: using graph theory formalism, we are able to express subtle semantic relations between words within each topic. First results are quite satisfying.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.