ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2010
PDF

Auteurs

Philippe Mulhem, Jean-Pierre Chevallet

Résumé

Nous présentons dans cet article, une utilisation d’un modèle de langue pour une re- cherche d’information sur des documents structurés. Nous présentons également un usage de ressources exogènes et endogènes pour l’indexation et les requêtes. Les ressources endogènes sont les syntagmes extraits du corpus lui même, et les ressources exogènes proviennent de liens (forward links) extraits de Wikipedia. Nous montrons qu’un modèle de langue avec un lissage de type Dirichlet est plus adapté à la recherche d’information sur des documents structurés qu’un lissage par interpolation linéaire de Jelinek-Mercer. Finalement, nous utilisons cette corres- pondance probabiliste dans un schéma de type Fetch and Browse, allant du document complet vers des parties du document (doxels). Ces propositions nous ont permis d’obtenir 4 mesures en tête de l’évaluation officielle de la campagne INEX 2009, sur les huit mesures proposées cette année.

Abstract

We present in this paper a language model for information retrieval on structured documents. We also present a use of endogenous and exogenous resources for indexing and querying. The endogenous resources are phrases taken from the corpus itself, and resources extracted from Wikipedia external links ( forward links). We show that a language model with Dirichlet smoothing is more suited to information retrieval on structured documents than smoothing by linear interpolation (Jelinek-Mercer). Finally, we use this matching in a prob- abilistic scheme of type Fetch and Browse, from the full document to parts of the document (doxels). These proposals have produced 4 top tracks according to the INEX 2009 evaluation campaign, among the eight tracks proposed this year.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.