Modèles d'information pour la recherche multilingue.

Bo Li 0012, Éric Gaussier

CORIA (Conférence en Recherche d'Informations et Applications) - CORIA 2012, 9th French Information Retrieval Conference, Bordeaux, France, March 21-23, 2012.


RÉSUMÉ. Nous présentons dans cet article plusieurs extensions multilingues des modèles d'infor- mation, en particulier le modèle log-logistique (LL) et le modèle Smoothed Power Law (SPL), récemment introduits en recherche d'information (Clinchant et al., 2010). Ces extensions sont fondées sur (a) une généralisation de la notion d'information utilisée dans ces modèles, (b) une généralisation des variables aléatoires utilisées et (c) une expansion de la requête utilisant l'en- semble des traductions de chaque mot. Nous analysons ensuite ces extensions d'un point de vue théorique, par l'intermédiaire d'une condition que doivent satisfaire les systèmes de recherche d'information multilingue. Cette nouvelle condition permet d'étendre le champ de l'approche axiomatique de la recherche d'information au cadre multilingue. Les résultats expérimentaux, obtenus sur trois collections et trois couples de langue, sont en accord avec l'analyse théo- rique et montrent que le modèle LL fournit les meilleurs résultats en recherche d'information multilingue.

ABSTRACT. We present in this paper well-founded cross-language extensions of the recently in- troduced models in the information-based family for information retrieval, namely the LL (log- logistic) and SPL (smoothed power law) models of (Clinchant et al., 2010). These extensions are based on (a) a generalization of the notion of information used in the information-based family, (b) a generalization of the random variables also used in this family, and (c) the di- rect expansion of query terms with their translations. We then review these extensions from a theoretical point-of-view, prior to assessing them experimentally. The results of the experi- mental comparisons between these extensions and existing CLIR systems, on three collections and three language pairs, reveal that the cross-language extension of the LL model provides a state-of-the-art CLIR system, yielding the best performance overall.

MOTS-CLÉS : Recherche d'information multilingue, modèles d'information

KEYWORDS : Cross-language information retrieval, information models


fichier Fichier

Identifiant : doi:10.24348/coria.2012.9

Citation :

@inproceedings{coria/2012/9,
author = {Bo Li 0012 and Éric Gaussier},
title = {Modèles d'information pour la recherche multilingue.},
booktitle = {CORIA (Conférence en Recherche d'Informations et Applications) - CORIA 2012, 9th French Information Retrieval Conference, Bordeaux, France, March 21-23, 2012. Proceedings},
pages = {9-24},
year = {2012},
doi = {doi:10.24348/coria.2012.9}
}