Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

01-01-0001

Actes de CORIA-TALN 2018

PDF

Auteurs

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno, Mohand Boughanem

Résumé

Dans cet article, nous étudions l’appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l’aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l’appariement exact entre les mots, le processus d’appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les mots de la requête qui ne sont pas dans le document. Nous avons exploité différentes stratégies d’appariement. Les résultats expérimentaux en utilisant des collections TREC montrent que les stratégies d’appariement étudiées donnent de meilleurs résultats que les modèles classiques de la RI.

Abstract

In this paper we study a document-query matching based on semantic similarities between query and document terms using word embeddings. We show that unlike the traditional bag of words approaches, that rely on the exact matching between words, the matching process could be improved by taking into account all document terms and by processing differently query terms that are not in the document. We adopt different matching strategies that take into account the presence/absence of query terms in a document. Experimental results using TREC data sets show that the studied matching process outperforms the classical IR models.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.