ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Young-Min Kim, Patrice Bellot, Elodie Faath, Marin Dacos

Résumé

L’extraction d’informations bibliographiques depuis un texte non structuré demeure un probléme ouvert que nous abordons, via des approches d’apprentissage automatique, dans le domaine des Humanités Numériques. Nous présentons dans cet article le projet BILBO, soutenu par un Google Digital Humanities Award avec le soutien du projet ANR CAAS : constitution de 3 corpus de référence correspondant à trois localisations des références, élaboration d’un modéle d’annotation puis évaluation. Les champs aléatoires conditionnels (CRFs) sont utilisés pour l’annotation des références bibliographiques et des machines à vecteurs supports (SVMs) pour l’identification des références au sein du texte. De nombreuses expériences sont conduites afin de déterminer les meilleures propriétés devant être exploitées par les modèles numériques.

Abstract

In this paper, we deal with the problem of extracting and processing useful informa- tion from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitu- tion of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques. Conditional Random Field is used as a basic ap- proach to automatic annotation of reference fields and Support Vector Machine with a set of newly proposed features is applied for sequence classification. A number of experiments are conducted to find one of the best feature settings for CRF model on these corpora.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.