ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2012
PDF

Auteurs

Samaneh Chagheri, Catherine Roussey, Sylvie Calabretto, Cyril Dumoulin

Résumé

La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c’est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise. Les poids sont calculés en adaptant les formules TF-IDF et TF-IEF. Cette représentation est construite à partir d’une représentation synthétique du document appelé arbre résumé. Pour évaluer notre approche, nous avons mené plusieurs expérimentations avec un système de classification basé sur le classifieur SVM light . Nous présentons les résultats de nos expérimentations menées sur les corpus REUTERS et INEX.

Abstract

Developing the text processing applications has revolutionized the world of documents. The author constructs the document as structured document in which the textual content is organized around tags. However, the traditional document classification typically classifies the documents considering the text and ignoring its structural elements. In this paper, we propose a representation method which makes use of structural elements to create the vector of tag and word weighted by an extension of TF-IDF and TF-IEF formula. This representation is constructed from an aggregated tree of XML document. Several experimentations have been made using SVM light as classifier on Reuters and INEX collections.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.