ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2009
PDF

Auteurs

Claire Fautsch, Jacques Savoy

Résumé

Dans la campagne d’évaluation CLEF-2008, la tâche u robuste » fournissait un corpus enrichi en langue anglaise. Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNetTM (numéro de classe d’un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l’ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d’enracineur. Un enracineur léger permet d’obtenir des performances similaires à des approches plus agressives ou à celle obtenue par une analyse morphologique. L’indication de la partie du discours permet d’améliorer significativement la qualité de la réponse tandis que les numéros de classes d’un thésaurus n’ont pas permis une amélioration.

Abstract

In the robust track of the 2008 CLEF evaluation campaign an enlarged English corpus was provided. For each term, the lemma, the part-of-speech (POS) and the Synset number extracted from WordNetTM (class number of the corresponding thesaurus) are given. Based on this corpus we tested several approaches to remove at least partially the underling lexical ambiguity. Using different IR models such as the vector-space model tf idf as well as three probabilistic models and a language model, we want to evaluate their performance when using different algorithmic or morphological stemming approaches. The inclusion of the part-of-speech information improves the retrieval performance significantly, while the inclusion of the synset number does not show any improvement.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.