ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2011
PDF

Auteurs

Stephane Gagnon, Sadia Messaoudi, Alain Charbonneau

Résumé

Nous démontrons que l’utilisation d’une ontologie normée selon le domaine d’application permet d’améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d’un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en finance nous aident à coder 1 000 des 45 000 nouvelles portant sur les fusions et acquisitions. Nous rapportons le rappel, la précision, la mesure F, et en plus une mesure dite hiérarchique ajustée pour la pertinence de classification au niveau des classes parents, ainsi qu’une mesure plus détaillée évaluant l’amélioration de la classification au niveau de chaque texte.

Abstract

We demonstrate that applying a domain-specific ontology standard significantly improves Automated Text Classification (ATC). We use the Extensible Business Reporting Language (XBRL) to define a standard ontology and compare the performance of an ACT engine (IBM Classification Module v.8.6) against 2 other list of concepts, namely simple and hierarchical. Our sample of financial news is extracted from the Reuters Corpus Volume 1 (RCV1), where 2 experts in finance help us code 1000 of the 45000 news dealing with mergers and acquisitions. We report recall, precision, the F measure, and in addition a hierarchical measure adjusted for classification relevance in parent classes, as well as a more detailed measure evaluating the classification improvements at the level of each text.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.