Auteurs
Résumé
La classification de sentiments multi-domaines est un problème complexe: en effet, les distributions de caractéristiques sont alors différentes dans les ensembles d’apprentissage et de test. Différentes propositions permettent de limiter la baisse de performance inhérente à ce cadre. Cependant, la classification de sentiments est une tâche particulière car le web participatif nous donne accès à une quasi-infinité de données étiquetées. Cela soulève de nou- velles questions: à partir de quel volume de données les distributions d’apprentissage et de test convergent elles? Quand est ce que l’intérêt des techniques de transfert disparait? Dans cet ar- ticle, nous étudions le taux de reconnaissance en sentiments par rapport la taille des ensembles d’apprentissage.
Abstract
Multi-domain sentiment classification is known to be a difficult task in the literature since the feature distributions are different on training and testing sets. Thus, different transfer learning techniques have been proposed to cope with the induced lack of performance in recent years. But, the sentiment classification task is a particular supervised task where the labeled data are almost infinite (on the web 2.0). As a consequence, a new question emerged: if we have enough labeled data, does the train distribution converge to the test distribution? When does the transfer learning benefit vanish? In this article, we study the sentiment classification accuracy wrt the learning set size on the Amazon dataset.