Auteurs
Résumé
Dans cet article nous évaluons diverses approches pour filtrer le contenu u procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la collection d’entraînement. Par contre le filtrage par phrases donne d’excellents résultats sur notre collection, et peu même avantageusement être combiné à d’autres techniques de sélection.
Abstract
In this paper we consider different approaches for removing the procedural contents of a document, and measure their impact on the classification of a call for tenders collection. Two types of approaches are tested: term selection, using a reference vocabulary built from the classification schema, and sentence filtering. We do not find a significant difference between the reference vocabulary and the vocabulary of the training corpus. On the other hand, sentence filtering gives excellent results on our collection, and can even be combined to feature selection to further improve results.