Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot, Massih-Reza Amini

COnférence en Recherche d'Informations et Applications - CORIA 2018, 15th French Information Retrieval Conference. Rennes, France, May 16-18, 2018.


RÉSUMÉ. Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l'apport de l'utilisation de plongements de mots, très populaire actuellement en recherche d'information, est dépendant de l'ensemble d'apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l'utilisation de corpus spécifiques (au niveau sujet ou bien sujet+type de document) ne fournit pas forcément de meilleurs résultats.

ABSTRACT. We describe here an experimental framework and the results obtained on microblogs retrieval. We study the contribution one popular approach, i.e., words embeddings, depends on the learning set used to train the embeddings. We focus on query expansion for the retrieval of tweets on the CLEF CMC 2016 corpus. We find that specific corpus regarding topicality and document types does not always lead to better results.

MOTS-CLÉS : Plongement de mots, expansion de requêtes, microblogs

KEYWORDS: words embeddings, query expansion, microblogs


fichier Fichier

Identifiant : doi:10.24348/coria.2018.paper10

Citation:

@inproceedings{coria/2018/paper10,
author = {Nayanika Dogra and Philippe Mulhem and Lorraine Goeuriot and Massih-Reza Amini},
title = {Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels},
booktitle = {COnférence en Recherche d'Informations et Applications - CORIA 2018, 15th French Information Retrieval Conference. Rennes, France, May 16-18, 2018. Proceedings},
pages = {},
year = {2018},
doi = {doi:10.24348/coria.2018.paper10}
}