ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2013
PDF

Auteurs

Rahma Sellami, Fatiha Sadat, Lamia Hadrich Belguith

Résumé

Dans cet article, nous nous intéressons à l’exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d’extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l’alignement du corpus des Nations Unies (UN), au niveau des phrases. Nous avons intégrer les ressources crées dans un système de Traduction Automatique Statistique pour la paire de langues arabe-français. Nous avons obtenu des améliorations significatives du score BLEU, en utilisant ces deux approches en plus d’une technique de prétraitement des corpus en langue source (arabe).

Abstract

The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence level. In order to validate the proposed approaches, we conducted evaluations on Arabic-French SMT. We evaluation showed significant improvement in term of BLEU scores when using these two approaches as well as a pre-processing technique, on the source language (Arabic).

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.