ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2010
PDF

Auteurs

Stéphane Clinchant, Éric Gaussier

Résumé

Dans une premier temps, nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d’ordonnancement (retrieval function): ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d’information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une définition formelle. Nous introduisons ensuite une nouvelle famille de modèles probabilistes pour la RI, fondée sur la notion d’infor- mation. Lorsque la loi de probabilité sous-jacente est capable de modéliser le phénomène de rafale, alors le modèle devient naturellement valide au sens des contraintes heuristiques. La distribution log-logistique est présentée dans ce contexte et les expériences, menées sur trois collections différentes, illustrent le comportement adéquat de ce modèle; il surpasse Okapi BM25 et les modèles de langues, avec lissage de Jelinek-Mercer ou de Dirichlet, à la fois pour la précision moyenne et la précision en tête de liste, fournit de meilleurs résultats que les mo- dèles DFR (Divergence from Randomness) en précision moyenne et des résultats similaires sur la précision en tête de liste, tout en simplifiant ces modèles.

Abstract

We first present in this paper an analytical view of heuristic retrieval constraints which yields simple tests to determine whether a retrieval function satisfies the constraints or not. We then review empirical findings on word frequency distributions and the central role played by burstiness in this context. This leads us to propose a formal definition of burstiness which can be used to characterize probability distributions wrt this phenomenon. We then introduce the family of information-based IR models which naturally captures heuristic retrieval constraints when the underlying probability distribution is bursty and propose a new IR model within this family, based on the log-logistic distribution. The experiments we conduct on three different collections illustrate the good behavior of the log-logistic IR model.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.