Auteurs
Résumé
Les modèles distribués de mots sont un outil précieux pour la classification, le clustering, et plus généralement la représentation des documents. Pour des collections dynamiques, il est nécessaire de prendre en compte l’évolution temporelle de ces représentations. Dans cet article, nous présentons un modèle qui représente les mots sous la forme de trajectoires dans un espace de représentation, trajectoires qui sont déterminées par les groupes auxquels les mots appartiennent. Des expériences préliminaires en clustering sur des micro-blogs montrent l’intérêt de ce type de modèle.
Abstract
Distributed term models are a powerful tool for classifying, clustering and representing documents. For dynamic collections, we need to model both temporal and topical evolution. In this work, we present a model that uses a continuous time distribution and that represent words as trajectories in a continuous space. We perform some preliminary experiments on Twitter data, showing the potential of our model.