ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2013
PDF

Auteurs

Mohamed Morchid, Georges Linarès

Résumé

La prédiction des buzz sur Internet est une tâche difficile notamment parce que le phé- nomène est dépendant de paramètres très divers, liés au contenu du message lui-même mais aussi au contexte de sa diffusion et à la dynamique de propagation de l’information sur la toile. Ces difficultés se trouvent augmentées par la dimension du Web et la dispersion et la fragmen- tation des informations qui s’y trouvent. Twitter est un espace d’expérimentation plus contraint et délimité que le Web dans sa globalité; dans cet article, nous présentons une méthode de prédiction des buzz appliquée à la prédiction des pics de ré-émissions (retweets) des messages postés sur Twitter. La méthode proposée repose essentiellement sur trois types d’indicateurs dont nous pensons qu’ils participent à la probabilité de re-diffusion d’un tweet : la popula- rité, la saillance thématique et l’expressivité. Ces descripteurs sont utilisés comme variables d’entrée d’un réseau de neurones dont le rôle est de prédire le dépassement d’un seuil de ré- émission du message. Les tests, conduits sur un ensemble d’environ 30000 messages, montrent l’efficacité de l’approche proposée : le système détecte plus de 72% des messages re-diffusés au moins 60 fois.

Abstract

The prediction of bursty events on the internet is a challenging task. Difficulties are due to the diversity of information sources, the size of the internet, dynamics of popularity, user behaviors… On the other hand, Twitter is a structured and limited space. In this paper, we present a bursty event prediction method applied to the Twitter plateform. The proposed method uses tweet contents to predict the retweet rate. Prediction system extracts 3 types of features, related respectively to popularity, saliance and expressivity. These descriptors constitute the input features of a multilayer perceptron that predicts the retweet rate. Our experiments are conducted on a test corpus composed by about 30,000 tweets. On this test set, the proposed system detects more than 72% of the tweets that have been forwarded at least 60 times.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.