ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2007
PDF

Auteurs

Loïc Lecerf, Boris Chidlovskii

Résumé

Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement ex- traites, d’autres collections plus complexes et hétérogènes nous ont amenés à déployer des méthodes d’apprentissage automatique. Dans les cas réels nous sommes souvent confrontés au problème technique de la non disponibilité de corpus annotés, pour des tâches d’annotations spécifiques. Comme l’annotation manuelle est coûteuse et propice à l’erreur, notre approche consiste à appliquer des méthodes d’apprentissage actif afin de considérablement réduire le corpus nécessaire à l’élaboration d’un modèle pertinent. Dans cet article, nous expliquons comment le principe de l’apprentissage actif est adapté à l’annotation interactive de documents orientés mise en page. Pour une utilisation efficace de l’apprentissage actif sur les grandes col- lections, nous déployons un classifieur probabiliste basé sur le principe de l’entropie maximum ainsi que trois métriques d’incertitude. Nous présentons le prototype ALDAI (Active Learning Document Annotation) et décrivons ses fonctionnalités ainsi que les choix d’implémentation. Le prototype offre une interface WYSIWYG, un haut langage pour la définition des attributs et intègre le composant d’apprentissage actif qui vise à assister l’utilisateur dans le processus d’annotation. Nous rapportons aussi des résultats de tests d’évaluation des techniques d’ap- prentissage actif sur une collection de données publiques (UCI) et une collection de documents internes.

Abstract

In the framework of the LegDoc project at Xerox Research Centre Europe, we are de- veloping components for the semantic annotation of semi-structured documents. While certain semantic entities have regular forms and might be easily extracted, more complex and hetero- geneous collections favor the deployment of machine learning methods. Moreover, real world cases pose the technical challenge of the unavailable training sets for specific annotation tasks. As the manual annotation is costly and error-prone, our approach consists in applying active learning methods in order to considerably reduce the corpus required for accurate learning

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.