ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2006
PDF

Auteurs

Samir Abdou

Résumé

En recherche d’information, les langues chinoise et japonais présentent des défis multiples. Contrairement aux langues européennes, les mots ne se sont pas délimités de manière explicite ce qui pose un problème pour l’indexation. Pour cette raison, plusieurs travaux ont proposé différentes stratégies pour représenter les documents (et requêtes) rédigés dans ces langues. Cet article présente une comparaison des stratégies d’indexation les plus courantes. En particulier, nous avons comparé quatre stratégies pour le chinois (unigrammes, bigrammes, uni- et bigrammes et finalement les mots), deux pour le japonais (bigrammes et mots) et trois pour le coréen (mots, bigrammes et morphèmes). Basé sur les collections-tests de NTCIR-5, nous avons évalués ces différentes approches à l’aide de neuf modèles de recherche, soit deux approches probabilistes et sept vectoriels.

Abstract

In information retrieval, Chinese and Japanese present many challenging problems. Unlike most European languages, the lack of explicit word boundaries represents one of the most important issue for indexing. For this reason, many works proposed different approaches to index documents or requests written in these languages. This article presents a comparison of the common indexing strategies. More precisely, we compared four strategies for Chinese (1-grams, 2-grams, 1- & 2-grams and words), two for Japanese (2- grams, and words) and three for Korean (words, 2-grams, and morphemes). Using test collections of the NTCIR-5, we evaluated these various approaches on nine retrieval schemes: two probabilistic models and seven vectorial models.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.