Auteurs
Résumé
Dans cet article, nous étudions l’appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l’aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l’appariement exact entre les mots, le processus d’appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les mots de la requête qui ne sont pas dans le document. Nous avons exploité différentes stratégies d’appariement. Les résultats expérimentaux en utilisant des collections TREC montrent que les stratégies d’appariement étudiées donnent de meilleurs résultats que les modèles classiques de la RI.
Abstract
In this paper we study a document-query matching based on semantic similarities between query and document terms using word embeddings. We show that unlike the traditional bag of words approaches, that rely on the exact matching between words, the matching process could be improved by taking into account all document terms and by processing differently query terms that are not in the document. We adopt different matching strategies that take into account the presence/absence of query terms in a document. Experimental results using TREC data sets show that the studied matching process outperforms the classical IR models.
