RI dans les microblogs : que manque-t-il aux approches classiques ?

01-01-0001

Actes de CORIA 2013

PDF

Auteurs

Firas Damak

Résumé

Nous nous intéressons dans cet article à la recherche d’information dans les microblogs. Les modèles de RI classiques, conçus pour des textes plus longs que les 140 caractères d’un microblog, ne sont pas forcément adaptés pour ces derniers. Une analyse de leurs résultats nous a permis d’identifier la différence de vocabulaire entre les microblogs et la requête comme étant la raison principale de leur manque de performance. Pour améliorer la qualité de la recherche, nous proposons d’étendre les microblogs grâce au texte des URL qu’ils contiennent, et également d’étendre les requêtes avec WordNet ou en utilisant des articles de presse. Les résultats montrent l’intérêt de l’extension des tweets, celui de l’extension des requêtes restant à prouver.

Abstract

This paper deals with information retrieval in microblogs. Classical IR models were originally designed for texts longer than 140 characters (i.e., the maximum microblog length). They fail to perform well with microblog corpora. The failure analysis we conducted shows that the vocabulary mismatch is the main problem we have to deal with. We thus propose to extend tweets with the text of the URL they contain, and to extend queries in two ways (WordNet and news articles). Results show the interest of tweet extension, whereas interest of query expansion is still to be proved.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.