Auteurs
Résumé
La supervision d’événements à travers les réseaux sociaux ont connu un engouement certain ces dernières années. Cependant, le nombre considérable de messages publiés rend dif- ficile, voire impossible, pour une personne de suivre ‘ce qui se passe autour de l’événement’. Le filtrage et la génération en temps réel d’une synthèse de messages importants portant sur l’événement permet de répondre à ce besoin. La génération de cette synthèse pose plusieurs problèmes qui rend cette tâche difficile. En effet, la synthèse doit être concise, non redondante et couvrant le maximum de sous événements, et ce, en sus de la pertinence des informations qu’elle contient. Dans cet article, nous proposons une nouvelle approche de sélection des mes- sages pour la génération, en temps réel, de résumés de flux de messages courts. La décision de sélectionner un message est prise instantanément, un nouveau message est ajouté au ré- sumé si ses scores afférents à l’informativité et à la non redondance sont supérieurs à un seuil dynamique. L’approche proposée a été évaluée sur la collection TREC 2014 TS et elle a été comparée avec trois approches de l’état de l’art. Le résumé généré est de meilleure qualité que celui généré par les approches de ‘base’ avec un nombre réduit de phrases.
Abstract
Monitoring stream of social media posts has attracted significant attention in the last view years. Real time summarization in microblog aims at providing new relevant and non redundant information about an event as soon as it occurs. In this paper, we propose a novel continuous summarization approach in which information updates are pushed in real time. The decision to select/ignore incoming information is based on its informativeness and redundancy scores. The on-hand post is added to a summary only if the aforementioned scores are above a parametric free threshold. Our strategy was evaluated on a TREC Temporal Summarization 2014 data-set and it was compared with a well known baselines. The results reveal that our method outperforms all baselines and runs of the aforementioned task. The generated sum- maries are shorter and have higher precision than summaries generated by the baselines.