ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2005
PDF

Auteurs

Stephen Blott, Fabrice Camous, Cathal Gurrin, Gareth J. F. Jones, Alan F. Smeaton

Résumé

Les bases de données génomiques contiennent de l' information structurée en plus de l’information textuelle que l’on trouve dans les titres et les résumés d’articles. Les techniques de recherche d’information non-structurée ne sont pas adaptées à l’exploitation de cette information structurée. Cet article décrit une technique d’amélioration des méthodes de recherche traditionnelles qui sépare un résultat initial de recherche en deux groupes à l’aide de l’information structurée disponible. L’hypothèse avancée est que les documents les plus pertinents se trouveront dans le groupe le plus densément peuplé, conformément à l’hypothèse de groupement de van Rijsbergen. Nous présentons une évaluation expérimentale de ces idées qui se base sur les documents jugés de l’atelier génomique de TREC 2004 et sur le logiciel de groupement CLUTO.

Abstract

Databases of genomic documents contain substantial amounts of structured information in addition to the texts of titles and abstracts. Unstructured information retrieval techniques fail to take advantage of the structured information available. This paper describes a technique to improve upon traditional retrieval methods by clustering the retrieval result set into two distinct clusters using additional structural information. Our hypothesis is that the relevant documents are to be found in the tightest cluster of the two, as suggested by van Rijsbergen’s cluster hypothesis. We present an experimental evaluation of these ideas based on the relevance judgments of the 2004 TREC workshop Genomics track, and the CLUTO software clustering package.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.