Auteurs
Résumé
Nous proposons dans cet article une approche basée sur des techniques d’appren- tissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l’entité textuelle de base. Notre système découvre d’abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est en- suite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l’efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de
Abstract
In this paper we introduce a machine learning approach for automatic text segmen- tation. Our text segmenter clusters text-segments containing similar concepts. It first discovers the different concepts present in a text, each concept being defined as a set of representative terms. After that the text is partitioned into coherent paragraphs using a hard clustering tech- nique based on the Classification Maximum Likelihood approach. We evaluate the effectiveness of this technique on a set of concatenated paragraphs from the 7sectors data collection and