Auteurs
Résumé
La prédiction des buzz sur Internet est une tâche difficile notamment parce que le phé- nomène est dépendant de paramètres très divers, liés au contenu du message lui-même mais aussi au contexte de sa diffusion et à la dynamique de propagation de l’information sur la toile. Ces difficultés se trouvent augmentées par la dimension du Web et la dispersion et la fragmen- tation des informations qui s’y trouvent. Twitter est un espace d’expérimentation plus contraint et délimité que le Web dans sa globalité; dans cet article, nous présentons une méthode de prédiction des buzz appliquée à la prédiction des pics de ré-émissions (retweets) des messages postés sur Twitter. La méthode proposée repose essentiellement sur trois types d’indicateurs dont nous pensons qu’ils participent à la probabilité de re-diffusion d’un tweet : la popula- rité, la saillance thématique et l’expressivité. Ces descripteurs sont utilisés comme variables d’entrée d’un réseau de neurones dont le rôle est de prédire le dépassement d’un seuil de ré- émission du message. Les tests, conduits sur un ensemble d’environ 30000 messages, montrent l’efficacité de l’approche proposée : le système détecte plus de 72% des messages re-diffusés au moins 60 fois.
Abstract
The prediction of bursty events on the internet is a challenging task. Difficulties are due to the diversity of information sources, the size of the internet, dynamics of popularity, user behaviors… On the other hand, Twitter is a structured and limited space. In this paper, we present a bursty event prediction method applied to the Twitter plateform. The proposed method uses tweet contents to predict the retweet rate. Prediction system extracts 3 types of features, related respectively to popularity, saliance and expressivity. These descriptors constitute the input features of a multilayer perceptron that predicts the retweet rate. Our experiments are conducted on a test corpus composed by about 30,000 tweets. On this test set, the proposed system detects more than 72% of the tweets that have been forwarded at least 60 times.