ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2008
PDF

Auteurs

Fatma Kallel Jaoua, Lamia Hadrich Belguith, Maher Jaoua, Abdelmajid Ben Hamadou

Résumé

Dans le cadre de la conférence d’évaluation DUC, nous avons développé un système de résumé automatique de documents multiples qui se base sur l’extraction des phrases clés. La méthode proposée utilise un algorithme génétique qui permet de combiner les phrases des documents sources pour former les extraits, qui seront croisés et mutés pour générer de nouveaux extraits. L’examen des résultats obtenus dans les deux sessions DUC'04 et DUC'07 a montré un écart significatif au niveau des performances du système développé. En effet, un phénomène de dérive génétique est observé lorsqu’on traite, en entrée de notre système, des textes de grande taille. Afin de remédier à cette dérive, nous proposons d’intégrer un module supplémentaire de filtrage qui a pour objectif la réduction du nombre des phrases des textes sources en entrée. Ce filtrage est effectué sur la base de la notion de dominance entre phrases qui permet d’éliminer un grand nombre de phrases du pool initial.

Abstract

In the context of DUC Conference (Document Understanding Conference), we have developed an automatic summarization system of multiple documents which is based on the extraction of the key sentences. The proposed method uses a genetic algorithm which combines the sentences of the source documents in order to produce extracts. These extracts will be crossed and mutated in order to generate new extracts. The examination of the results obtained in the two sessions DUC’ 04 and DUC’ 07 showed a significant variation of the system performance. Indeed, a phenomenon of genetic drift is observed when the system processes big size texts (as an input). In order to solve this problem, we propose to integrate an additional module of sentence filtering to reduce the number of sentences in the input. This filtering is based on the concept of predominance between sentences which allows to eliminate a great number of sentences from the initial pool.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.