Auteurs
Résumé
La recherche d’informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d’obtenir les mêmes performances que dans le cas d’une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc- tions exactes d’un grand nombre de mots composés qui peuvent être présents dans une requête. Les systèmes de recherche translingues utilisent des dictionnaires de traduction construits sta- tistiquement ou manuellement. Afin de traduire un mot composé, beaucoup de ces systèmes gé- nèrent toutes les traductions possibles mot à mot et vérifient la présence de ces traductions dans la base de donnée cible. La qualité de la recherche augmente lorsque il est possible d’utiliser des traductions de mots composés préalablement validées. Il reste cependant deux problèmes encore non résolus avec cette méthode consistant à générer et à valider toutes les traductions : (1) Si la traduction exacte d’un élément d’un mot composé ne figure pas dans le dictionnaire de traduction, la traduction qui sera validée par cette mé- thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le même nombre d’éléments que le mot composé source, la meilleure traduction ne sera pas non plus générée. Dans cet article, nous proposons deux méthodes pour identifier ces situations.
Abstract
Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms in a source language query must be found.