Auteurs
Résumé
Le but de cet article est d’étudier l’apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l’hypothèse qu’ajouter des syntagmes à la représentation des documents– pour lesquels ne sont traditionnellement considérés que les mots simples– permettrait d’améliorer la qualité d’un modèle de thèmes, en l’occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un corpus catégorisé de 20 000 résumés d’articles scientifiques. Il s’agit d’une étude de cas qu’il conviendrait de reproduire sur un corpus plus conséquent.
Abstract
The goal of this paper is to study whether using word syntagms (nominal, adjectival and verbal) is useful for topic modeling. We experiment the hypothesis that adding word syn- tagms to document representations u for which only single words are usualy considered u would improve a topic model quality, LDA in this experiment. Significative differences are expected on topics with common vocabulary. We present results on a categorized corpus of 20 000 scientific article abstracts. This is a case study which should be reproduced for further generalisation.