ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari

Résumé

Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d’un nouveau genre présentant de forts enjeux économiques et scienti- fiques. L’exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d’opinion est également d’affiner les profils d’uti- lisateurs et d’utiliser les sources ouvertes du web pour effectuer des sondages. Les algorithmes classiques de classification de documents ne fonctionnent pas de manière optimale sur ces don- nées, ce qui explique la dynamique de recherche actuelle sur le sujet. Nous comparons dans cet article différents descripteurs textuels sur la tâche de classification supervisée de polarité et nous montrons l’intérêt des descripteurs complexes (N-grammes, sous-séquences) par rapport aux unigrammes. Ces représentations riches aboutissent à une très grande dimensionnalité qui pose problème lors de l’apprentissage: nous proposons une nouvelle méthode de régularisa- tion basée sur la pénalisation des termes fréquents qui permet d’exploiter efficacement de tels espaces. Nous montrons l’intérêt de cette approche sur les données Amazon et Movie Reviews.

Abstract

As web 2.0 is spreading, users get used to give their opinion on forums, blogs and e-commerce websites. This is a valuable piece of information for many applications such as consumer modeling, sales prediction or opinion survey. According to the literature, the ef- ficiency of opinion mining tools will mainly relies on the ability of discriminating texts that express positive sentiments from texts that express negative ones. Previous experiments show that this task is difficult. We compare various classical descriptors and point out the interest of large representations of texts (N-grams, sub-sequences) for this task. The dimensionality of the data causes problems during the learning step: we demonstrate the inefficiency of the classical regularization framework as well as the interest of penalizing frequent terms. We demonstrate the efficiency of our approach on classical Movie Reviews and Amazon data-sets.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.