ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA-TALN 2018
PDF

Auteurs

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno, Mohand Boughanem

Résumé

Dans cet article, nous étudions l’appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l’aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l’appariement exact entre les mots, le processus d’appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les mots de la requête qui ne sont pas dans le document. Nous avons exploité différentes stratégies d’appariement. Les résultats expérimentaux en utilisant des collections TREC montrent que les stratégies d’appariement étudiées donnent de meilleurs résultats que les modèles classiques de la RI.

Abstract

In this paper we study a document-query matching based on semantic similarities between query and document terms using word embeddings. We show that unlike the traditional bag of words approaches, that rely on the exact matching between words, the matching process could be improved by taking into account all document terms and by processing differently query terms that are not in the document. We adopt different matching strategies that take into account the presence/absence of query terms in a document. Experimental results using TREC data sets show that the studied matching process outperforms the classical IR models.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.