Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

01-01-0001

Actes de CORIA-TALN 2018

PDF

Auteurs

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot, Massih-Reza Amini

Résumé

Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l’apport de l’utilisation de plongements de mots, très populaire actuellement en recherche d’information, est dépendant de l’ensemble d’apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l’utilisation de corpus spécifiques (au niveau sujet ou bien sujet+type de document) ne fournit pas forcément de meilleurs résultats.

Abstract

We describe here an experimental framework and the results obtained on microblogs retrieval. We study the contribution one popular approach, i.e., words embeddings, depends on the learning set used to train the embeddings. We focus on query expansion for the retrieval of tweets on the CLEF CMC 2016 corpus. We find that specific corpus regarding topicality and document types does not always lead to better results.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.