ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2004
PDF

Auteurs

Jacques Savoy, Pierre-Yves Berger

Résumé

Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s’avère moins bonne que l’être humain. Toutefois, cette première conclusion se base sur une moyenne et une analyse plus détaillée indique une forte variabilité, dans le dépistage de l’information, entre les performances des différentes traductions produites par la machine. La question qui se pose est de savoir si l’on peut prédire la performance d’une requête traduite afin de sélectionner seulement la meilleure ou les meilleures traductions. Afin de résoudre ce problème, nous avons conçu un système de prédiction basé sur la régression logistique et capable de prédire les meilleures traductions. L’évaluation de notre approche s’avère supé- rieure au meilleur système de traduction automatique.

Abstract

In order to search within corpora written in two or more languages, the simplest and most effective approach is to translate the submitted request into the required lan- guage(s). To achieve this goal, we based our IR model on translation tools freely available on the Web. When comparing the retrieval effectiveness of manually and automatically translated requests, we found that human-based translation outperformed machine-based approaches. However, when we analyzed the query-by-query performance, we found query performances based on machine-based translations to vary a great deal. The question that then arises is whether or not we can predict the retrieval performance of a translated query and as a result we may thus select only the best translation(s). To respond to this, we designed and evaluated a predictive system based on the logistic regression, and used it to select the top most appropriate machine-based translations. An evaluation of this approach shows retrieval performance is better than using the best machine-based translation.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.