ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2011
PDF

Auteurs

Diana Trandabat

Résumé

Afin de développer un système d’étiquetage sémantique automatique, les méthodes les plus fréquentes utilisent l’apprentissage supervisé à partir d’un corpus annoté. Et si on a des délais courts et des possibilités humaines et financières limitées, qui nous empêchent de construire un tel corpus d’apprentissage pour la langue de notre choix? Si un tel corpus existe déjà pour une autre langue, cet article propose une méthode pour importer automatiquement le corpus existant dans la langue où nous le nécessitons. La méthode de transfert présentée dans cet article est basée sur la traduction du corpus existant (ou l’utilisation d’une version parallèle annotée du texte), l’alignement au niveau du mot des deux versions de texte, et l’application d’un set de fonctions de mappage pour importer l’annotation d’une langue à l’autre. Une interface de validation de l’import est également offerte pour la validation manuelle de la ressource obtenue. A titre d’exemple, le cas de l’import des rôles sémantiques de la ressource anglaise FrameNet vers le roumain est discuté.

Abstract

In order to develop a semantic labeling system, the most common methods use supervised learning from an annotated corpus. What if we have short deadlines and limited human and financial possibilities that prevent us from building such a training corpus for our language? If such a corpus already exists for any other language, this paper proposes a method to automatically import the existing corpus for the language we need. The transfer method is based on translating the existing corpus (or using annotated versions of existing parallel texts), aligning it at word level, and applying a set of mapping functions to import the annotation from one language to another. An import validation interface is also offered for the manual validation of the resulted resource. As an example, the case of semantic role import from the English FrameNet to Romanian is discussed.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.