A Document Frequency Constraint for Pseudo-Relevance Feedback Models.

Stéphane Clinchant, Éric Gaussier

COnférence en Recherche d'Informations et Applications - CORIA 2011, 8th French Information Retrieval Conference, Avignon, France, March 16-18, 2011.


RÉSUMÉ. Nous étudions dans cet article le comportement de plusieurs modèles de rétro- pertinence en mettant en avant leurs principales caractéristiques. Ceci nous conduit à intro- duire une nouvelle contrainte pour les modèles de rétro-pertinence, contrainte liée à la fré- quence documentaire (DF) des mots. Nous analysons ensuite, d'un point de vue théorique, différents modèles de rétro-pertinence par rapport à cette contrainte. Cette analyse montre que le modèle de mélange utilisé en rétro-pertinence pour les modèles de langue ne satisfait pas cette contrainte. Nous réalisons ensuite une série d'expériences qui permettent de valider la contrainte DF. Pour cela, nous utilisons tout d'abord un oracle sur la base de documents pertinents, puis utilisons une famile de fonctons de type tf-idf, mais paramétrée de telle sorte que des individus différents de la famille auront des comportements différents par rapport à la contrainte DF. Ces expériences montrent la validité et l'importance de la contrainte DF.

ABSTRACT. We study in this paper the behavior of several PRF models, and display their main characteristics. This will lead us to introduce a new heuristic constraint for PRF models, re- ferred to as the Document Frequency (DF) constraint. We then analyze, from a theoretical point of view, state-of-the-art PRF models according to their relation with this constraint. This anal- ysis reveals that the standard mixture model for PRF in the language modeling family does not satisfy the DF constraint. We then conduct a series of experiments in order to see whether the DF constraint is valid or not. To do so, we performed tests with an oracle and a simple family of tf-idf functions based on a prameter k controlling the convexity/concavity of the function. Both the oracle and the results obtained with this family of functions validate the DF constraint.

MOTS-CLÉS : Modèles de RI, boucle de rétropertinence

KEYWORDS : IR theoretical models, pseudo-relevance feedback


fichier Fichier

Identifiant : doi:10.24348/coria.2011.73

Citation :

@inproceedings{coria/2011/73,
author = {Stéphane Clinchant and Éric Gaussier},
title = {A Document Frequency Constraint for Pseudo-Relevance Feedback Models.},
booktitle = {COnférence en Recherche d'Informations et Applications - CORIA 2011, 8th French Information Retrieval Conference, Avignon, France, March 16-18, 2011. Proceedings},
pages = {73-88},
year = {2011},
doi = {doi:10.24348/coria.2011.73}
}