Auteurs
Résumé
Nous nous intéressons dans cet article à la recherche d’information dans les microblogs. Les modèles de RI classiques, conçus pour des textes plus longs que les 140 caractères d’un microblog, ne sont pas forcément adaptés pour ces derniers. Une analyse de leurs résultats nous a permis d’identifier la différence de vocabulaire entre les microblogs et la requête comme étant la raison principale de leur manque de performance. Pour améliorer la qualité de la recherche, nous proposons d’étendre les microblogs grâce au texte des URL qu’ils contiennent, et également d’étendre les requêtes avec WordNet ou en utilisant des articles de presse. Les résultats montrent l’intérêt de l’extension des tweets, celui de l’extension des requêtes restant à prouver.
Abstract
This paper deals with information retrieval in microblogs. Classical IR models were originally designed for texts longer than 140 characters (i.e., the maximum microblog length). They fail to perform well with microblog corpora. The failure analysis we conducted shows that the vocabulary mismatch is the main problem we have to deal with. We thus propose to extend tweets with the text of the URL they contain, and to extend queries in two ways (WordNet and news articles). Results show the interest of tweet extension, whereas interest of query expansion is still to be proved.