ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2011
PDF

Auteurs

Arlind Kopliku, Mohand Boughanem, Karen Pinel-Sauvagnat

Résumé

Les entités nommées jouent un rôle important en extraction d’information. Dans cet article, nous proposons une méthode pour extraire des entités nommées de la même classe au sein de listes HTML. Au lieu de partir d’une classe donnée et d’extraire les entités correspon- dantes, nous proposons une nouvelle approche qui consiste à identifier des ensembles d’entités nommées sans connaître leur classe d’appartenance. Un avantage évident de cette approche est qu’elle peut s’appliquer à tout type d’entité nommée (c’est à dire à des entités nommées de n’importe quelle classe). Nous utilisons des listes HTML pour identifier des ensembles can- didats d’entités. Afin d’évaluer notre approche, des juges ont évalué un échantillon de listes HTML issues du Web. 8.25% de ces listes sont des listes d’entités nommées de la même classe. On peut ainsi s’attendre à trouver plus de 890 millions de listes d’entités nommées appartenant à la même classe sur tout le Web indexé. Le classifieur que nous proposons dans cet article et permettant d’identifier ces listes d’entités nommées pertinentes nous permet d’obtenir de premiers résultats prometteurs.

Abstract

Named entities play an important role in Information Extraction. They represent unitary namable information within text. In this work, we focus on groups of named entities of the same type which we try to extract from HTML lists. Instead of starting from a class and identifying the corresponding named entities, we want to explore a new paradigm which consists in identifying sets of named entities without any knowledge on the class. A clear advantage of the approach is that it is applicable to all named entities (no matter what class), which makes it domain independent. We use HTML lists to collect candidate sets of named entities. Human assessors assessed a randomly selected sample of HTML lists. 8,25% of these HTML lists are lists of named entities of the same class. If our estimation is validated at large scale, it is possible to expect at least 890 million of such lists of named entities only in the indexed Web. Moreover, we propose an appropriate classifier which shows promising results.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.