Auteurs
Résumé
De nombreuses méthodes automatiques de fouille d’opinion s’appuient sur un lexique dans lequel à chaque entrée est associé un degré de polarité. La construction de telles ressources linguistiques est donc devenue un champ de recherche important en linguistique computationnelle. Des techniques automatiques, basées sur les similarités sémantiques entre les mots dont on veut estimer la polarité et des mots dont la polarité est connue, ont été développées ces dix dernières années et leur efficacité a été confirmée. La présente recherche propose d’étendre de telles procédures à l’analyse de n-grammes de mots et de déterminer les éventuels bénéfices apportés par cette extension. Une expérience menée sur la base d’un vaste corpus de critiques de films indique non seulement que les n-grammes semblent être des indicateurs plus fiables de polarité que les mots simples, mais aussi que leur combinaison avec ces mêmes mots simples permet une meilleure prédiction de la polarité de textes. Soulignant le caractère exploratoire et les limitations de la présente étude, la conclusion propose quelques pistes pour des recherches futures.
Abstract
None