ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2015
PDF

Auteurs

Vincent Bouvier, Patrice Bellot

Résumé

Filtrer des documents web à propos d’entité (personne, entreprise …) pour que seuls les documents d’intérêt soient gardés est un réel challenge. L’intérêt peut être qualifié de différente manière comme la nouveauté ou le fait qu’une information soit récente. Nous avons pu voir au cours des dernières années que des systèmes s’entraînent à détecter l’intérêt d’un document au regard d’une entité. Pour des raisons de passage à l’échelle, il n’est pas pensable d’avoir des données annotées manuellement pour chaque entité recherchée. Les approches obtiennent de bonnes performances, mais nous montrons que celles-ci peuvent être améliorées. Les entités peuvent différer sur certains aspects qui peuvent être mieux exploités grâce au regroupement (clustering). Cet article a pour but de montrer la valeur ajoutée que le regroupement peut avoir sur ce type de problème en utilisant une méthode de regroupement basique. Nous testons notre approche sur la tâche Knowledge Base Acceleration (KBA) de TREC 2013 et 2014 et nous obtenons des résultats significativement meilleurs.

Abstract

Filtering pages about an entity (person, company, …) so that only documents being of interest are kept is a real challenge. The interest can be qualified using criteria such as recency, novelty. In the last decade, we have seen classification systems trained to detect the interest for a document regarding an entity. Some approaches strive to build entity independent classification systems. Those approaches obtain good performances, but we show that they can be improved. The entities may differ on certain aspects that we think can be caught using clustering. Thus, instead of having one model per entity or one model for all entities, we propose an approach that uses one model per cluster of entities. We also introduce different strategies for automatic classification model selection. In this article, we detail the different aspects of our approach and we test it on the Knowledge Base Acceleration framework from the Text REtrieval Conference. We show that our approach brings significant improvements over a non-cluster based method.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.