ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2010
PDF

Auteurs

Vincent Claveau, Romain Tavenard, Laurent Amsaleg

Résumé

Dans la plupart des applications de RI, calculer rapidement la proximité entre do- cuments et requêtes est crucial. Avec les modèles vectoriels, ce calcul se fait généralement de manière très efficace. Cependant, lorsque les requêtes sont très longues ou dans le cas de SRI basés sur des modèles plus avancés, ce calcul devient plus complexe et coûteux. Dans cet article, nous proposons une technique simple pour transformer n’importe quel processus d’ap- pariement requête-document fournissant un score en un problème de calcul de distance entre vecteurs. Cette approche peut ainsi bénéficier des bonnes performances des outils existants d’indexation et de recherche approximative dans des espaces de grandes dimensions. Au tra- vers de quelques expériences, nous montrons par ailleurs que cette représentation n’entraîne pas de baisse importante de qualité des résultats, et, lorsque de nombreux documents sont à retourner, améliore même le rappel par rapport au SRI original, à taille de résultat égal.

Abstract

In most IR systems, rapidly computing the proximity between a query and a docu- ment is an issue. This is generally computed very efficiently in the Vector Space Model. When handling very long queries or with different IR models, however, the cost of this computation can be quite high. In this paper, we propose a simple approach transforming any document- query pairing technique into a vectorial representation. Therefore, it becomes possible to use existing approximate indexing techniques allowing the fast computation of distances between high-dimensional vectors. We experimentally show that our approach does not degrade the results and can even yields better recall rates when considering high document cut-off values.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.