Auteurs
Résumé
Peu de travaux en Recherche d’Information (RI) ont jusqu’alors abordé les questions d’efficience et d’efficacité des systèmes de RI dans le contexte du passage à l’échelle dans la taille des corpus. Nous proposons une démarche expérimentale reproductible (pour l’étude de l’influence du passage à l’échelle sur les modèles de RI) basée sur la construction d’une col- lection sur laquelle une caractéristique donnée est la même quelle que soit la portion de collection selectionnée. Cette nouvelle collection dite ‘uniforme’ peut être decoupée en sous- collections qui sont des ’ échantillons ’ de taille croissante de la collection entière et sur les- quelles des propriétés de modèles de RI sont étudiées. Nous appliquons notre démarche sur la collection WT10G de TREC9 avec comme caractéristique la répartition des documents pertinents et comme propriétés les métriques d’évaluation de RI.
Abstract
Few works in Information Retrieval (IR) field tackled the questions of IR Systems effectiveness and efficiency in the context of scalability in corpus size. We propose a general experimental methodology (which helps to study the scalability influence on IR models) based on the construction of a collection on which a given characteristic is the same whatever be the portion of collection selected. This new collection called uniform can be split into sub-collection of growing size on which some given properties will be studied. We apply our methodology to WT10G (TREC9 collection), the characteristic here is the distribution of relevant documents on a collection and properties are standards IR evaluation measures.