ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2005
PDF

Auteurs

François Paradis, Jian-Yun Nie

Résumé

Dans cet article nous évaluons diverses approches pour filtrer le contenu u procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la collection d’entraînement. Par contre le filtrage par phrases donne d’excellents résultats sur notre collection, et peu même avantageusement être combiné à d’autres techniques de sélection.

Abstract

In this paper we consider different approaches for removing the procedural contents of a document, and measure their impact on the classification of a call for tenders collection. Two types of approaches are tested: term selection, using a reference vocabulary built from the classification schema, and sentence filtering. We do not find a significant difference between the reference vocabulary and the vocabulary of the training corpus. On the other hand, sentence filtering gives excellent results on our collection, and can even be combined to feature selection to further improve results.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.