Auteurs
Résumé
Dans cet article, nous nous intéressons à l’exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d’extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l’alignement du corpus des Nations Unies (UN), au niveau des phrases. Nous avons intégrer les ressources crées dans un système de Traduction Automatique Statistique pour la paire de langues arabe-français. Nous avons obtenu des améliorations significatives du score BLEU, en utilisant ces deux approches en plus d’une technique de prétraitement des corpus en langue source (arabe).
Abstract
The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence level. In order to validate the proposed approaches, we conducted evaluations on Arabic-French SMT. We evaluation showed significant improvement in term of BLEU scores when using these two approaches as well as a pre-processing technique, on the source language (Arabic).