ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2019
PDF

Auteurs

Amaury Delamaire, Michel Beigbeder, Mihaela Juganaru-Mathieu

Résumé

Le but de cet article est d’étudier l’apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l’hypothèse qu’ajouter des syntagmes à la représentation des documents– pour lesquels ne sont traditionnellement considérés que les mots simples– permettrait d’améliorer la qualité d’un modèle de thèmes, en l’occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un corpus catégorisé de 20 000 résumés d’articles scientifiques. Il s’agit d’une étude de cas qu’il conviendrait de reproduire sur un corpus plus conséquent.

Abstract

The goal of this paper is to study whether using word syntagms (nominal, adjectival and verbal) is useful for topic modeling. We experiment the hypothesis that adding word syn- tagms to document representations u for which only single words are usualy considered u would improve a topic model quality, LDA in this experiment. Significative differences are expected on topics with common vocabulary. We present results on a categorized corpus of 20 000 scientific article abstracts. This is a case study which should be reproduced for further generalisation.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.