ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2009
PDF

Auteurs

Laurent Kevers

Résumé

Cet article présente une méthode de classification ne nécessitant pas de phase d’apprentissage. Son but est d’améliorer l’indexation manuelle des documents textuels, une opéra- tion souvent menée au sein de certains systèmes d’information requérant un niveau de précision élevé. Le système, qui apporte une aide à l’indexeur humain, est semi-automatique. Par analo- gie à la terminologie utilisée en apprentissage automatique, la méthode est dite supervisée car elle exploite une définition préalable des catégories d’indexation. Un vocabulaire contrôlé, par exemple un thésaurus, est utilisé comme la ressource de base servant à la génération automa- tique de transducteurs (ou automates). L’application de ceux-ci à un texte permet d’extraire un nombre limité d’expressions pertinentes, chacune accompagnée d’au moins un code de catégo- rie dont l’analyse finale permet la classification du document. Nos tests sur un corpus de textes en français ont permis d’obtenir une f-measure située entre 0,51 et 0,64.

Abstract

This article presents a classification method without any learning stage. It can help to improve the manual indexation process of textual documents traditionally conducted in some high precision information systems. The described system is defined as semi-automatic as it will help the human indexing. By analogy with machine learning terminology, this method can be qualified as supervised as it uses a priori defined indexing categories. A controlled vocabulary, e.g. a thesaurus, is used as the main resource to automatically generate a set of transducers (or automata). The extraction of a document’s significant phrases, each one comming with at least one corresponding class code, is obtained when using these transducers on the text. The final classification is obtained after analysis of phrases and codes. Testing results on a french text corpus are comprised between 0.51 and 0.64 for f-measure.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.