ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2006
PDF

Auteurs

Huyen-Trang Vu, Patrick Gallinari

Résumé

La constitution de corpus d’évaluation est une étape essentielle pour évaluer la per- formance des systèmes de recherche d’information. Le coût de développement de tels corpus est en général assez élevé à cause en particulier de l’effort humain nécessaire à l’évaluation de la pertinence des documents pour chaque requête. Cette difficulté devient un véritable gou- lot d’étranglement dans le cas de corpus de très grande taille. Le travail que nous présentons vise à sélectionner adaptativement les documents des corpus d’évaluation. Nous utilisons pour cela des algorithmes d’apprentissage statistique qui optimisent des critères d’ordonnancement. Nous présentons des essais d’un algorithme d’ordonnancement, dit RankBoost, sur des données de TREC et analysons les résultats obtenus au moyen de différents critères. Les résultats de ces analyses montrent que la méthode proposée permet de créer des corpus d’évaluation de qualité supérieure à la méthode de TREC.

Abstract

Test collections play a crucial role in Information Retrieval system evaluation. Form- ing relevance assessment set has been recognized as the key bottleneck in test collection build- ing, especially on very large sized document collections. This paper addresses the problem of efficiently selecting documents to be included in the assessment set. Machine learning algo- rithms such as RankBoost can be helpful for this purpose. This leads to smaller pools than traditional round robin pooling, thus reduces significantly the manual assessment workload. Experimental results on TREC collections consistently demonstrate the effectiveness of our ap- proach according to different evaluation criteria.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.