ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Gabriel Dulac-Arnold, Ludovic Denoyer, Patrick Gallinari

Résumé

Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d’un agent qui lit un docu- ment phrases après phrases et qui peut à tout moment décider d’associer un document à une ou plusieurs catégories données. L’algorithme proposé se base sur une formalisation de la classi- fication de texte en tant que Processus de Décision Markovien, et un apprentissage du modèle par des techniques de renforcement. Des experiences effectuées sur quatre corpus classiques du domaine montrent que l’approche proposée atteint des performances équivalentes à un SVM tout en lisant (en moyenne) que quelques phrases de chaque document.

Abstract

We propose to model the text classification process as a sequential decision process. In this process, an agent learns to classify documents into topics while reading the document sentences sequentially and learns to stop as soon as enough information was read for deciding. The proposed algorithm is based on a modelisation of Text Classification as a Markov Decision Process and learns by using Reinforcement Learning. Experiments on four different classical corpora show that the proposed approach performs comparably to classical SVM approaches for large training sets, and better for small training sets. In addition, the model automatically adapts its reading process to the quantity of training information provided.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.