Auteurs
Résumé
Nous explorons dans cet article plusieurs méthodes permettant, a priori, d’estimer le paramètre de collection des modèles d’information. Jusqu’à présent, ce paramètre a était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d’estimation de ce paramètre et montrons qu’il est possible d’améliorer les performances du système de recherche d’information lorsque ce paramètre est estimé de façon adéquate.
Abstract
In this paper we explore various methods to estimate the collection parameter of the information based models for ad hoc information retrieval. In previous studies, this parameter was set to the average number of documents where the word under consideration appears. We introduce here a fully formalized estimation method for both the log-logistic and the smoothed power law models that leads to improved versions of these models in IR. Furthermore, we show that the previous setting of the collection parameter of the log-logistic model is a special case of the estimated value proposed here.