ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2004
PDF

Auteurs

Jean-François Pessiot, Marc Caillet, Massih-Reza Amini, Patrick Gallinari

Résumé

Nous proposons dans cet article une approche basée sur des techniques d’appren- tissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l’entité textuelle de base. Notre système découvre d’abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est en- suite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l’efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de

Abstract

In this paper we introduce a machine learning approach for automatic text segmen- tation. Our text segmenter clusters text-segments containing similar concepts. It first discovers the different concepts present in a text, each concept being defined as a set of representative terms. After that the text is partitioned into coherent paragraphs using a hard clustering tech- nique based on the Classification Maximum Likelihood approach. We evaluate the effectiveness of this technique on a set of concatenated paragraphs from the 7sectors data collection and

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.