Auteurs
Résumé
La performance en recherche d’information translingue dépend de la qualité des ressources de traduction utilisées pour passer de la langue source (requête d’utilisateur) vers la langue cible des documents. Les listes de traduction de noms de personnes sont rares, et constituent en même temps des ressources essentielles pour la recherche d’information translingue entre des langues utilisant des jeux de caractères différents. Les dictionnaires de traduction d’entités nommées peuvent être extraits des corpus bilingues avec un certain succès, mais le problème du recouvrement de ces corpus bilingues, rares, reste présent. Dans cet article, nous présentons une technique pour retrouver la translittération en chinois de tous les noms chinois écrits en anglais. Notre système effectue la translittération du Pinyin (la romanisation standard du chinois) en caractères chinois via des validations effectuée sur corpus et sur le Web. Bien que les noms de famille en chinois constituent un ensemble peu important, les variétés des prénoms multi-syllabiques sont très importantes. Le traitement s’avère d’autant plus compliqué qu’à une translittération du Pinyin peut correspondre jusqu’à plus de cent caractères chinois différents. Notre méthode sélectionne la meilleure traduction des noms chinois écrits en Pinyin en filtrant les traductions impossibles et en utilisant un
Abstract
Cross-language information retrieval performance depends on the quality of the translation resources used to pass from a user’s source language query to target language documents. Translation lists of proper names are rare but vital resources for cross-language retrieval between languages using different character sets. Named entities translation dictionaries can be extracted from bilingual corpus with some degree of success, but the problem of the coverage of these scarce bilingual corpora remains. In this article, we present a technique for finding Chinese transliterations for any Chinese name written in English script. Our system performs transliteration of Pinyin (the standard Romanization for Chinese) to Chinese characters via corpus and web validation. Though Chinese family names form a small set, the number and variety of multisyllabic first names is great, and treatment is complicated by the fact that one Pinyin transliteration can correspond to hundred of different Chinese characters. Our method finds the best translations of a Chinese name written in Pinyin by filtering out unlikely translations using a bigram model derived from a very large monolingual Chinese corpus, and then vetting remaining candidate transliterations using Web statistics. We experimentally validate our method using an independent gold standard.