Auteurs
Résumé
La taille des tweets est limitée à un nombre maximum de caractères. Cette contrainte liée à la taille du message entraîne l’utilisation d’un vocabulaire particulier rendant le tweet difficile à comprendre. La tâche de contextualisation des tweets vise à fournir, automatique- ment, un résumé qui explique un tweet donné, ce qui permet au lecteur de bien le comprendre. Nous proposons pour cela différentes méthodes basées sur deux énormes sources de connais- sances à savoir, Wikipédia et Dbpedia. L’efficacité de notre méthode est prouvée par une étude expérimentale menée sur la collection d’INEX 2014.
Abstract
Bound to 140 characters, tweets are short and not written maintaining formal gram- mar and proper spelling. These spelling variations increase the likelihood of vocabulary mis- match and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understand it. We propose different tweet expansion approaches based on Wikipeda and Dbpedia as external knowledge sources. These proposed approaches are divided into two steps. The first step consists in generating the candidate terms for a given tweet, while the second one consists in ranking and selecting these candidate terms using a similarity measure. The effectiveness of our methods is proved through an experimental study conducted on the INEX 2014 collection.