Auteurs
Résumé
Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d’apprentissage numérique spécifique à la tâche d’ordonnancement. L’objectif est d’extraire les phrases d’un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d’un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L’algorithme d’ordonnancement effectue alors une combinaison linéaire de ces scores, avec pour but d’affecter aux phrases pertinentes d’un document des scores supérieurs à ceux des phrases non pertinentes du même document. Les algorithmes d’ordonnancement ont montré leur efficacité en particulier dans le domaine de la méta-recherche, et leur utilisation pour le résumé est motivée par une analogie qui peut être faite entre la méta-recherche et le résumé automatique qui consiste, dans notre cas, à considérer les similarités des phrases avec les différentes requêtes comme étant des sorties de différents moteurs de recherche. Nous montrons empiriquement que l’algorithme d’ordonnancement a de meilleures performances qu’une approche utilisant un algorithme de classification sur deux corpus distincts.
Abstract
In this paper, we propose a novel approach for automatic text summarization based on machine learning, using a ranking algorithm. The aim of a summarization system is to extract the sentences of a document which are the most representative of its content. In our approach, a given sentence is represented by a vector of relevance scores, where each score is a similarity score between the sentence and a particular query. The ranking algorithm produces a linear combination of these scores which is trained to give higher scores to relevant sentences than to irrelevant ones of the same document. Ranking algorithms have already shown effectiveness in the domain of metasearch, and their use in text summarization is motivated by an analogy between those two domains. Indeed, the similarity scores between the sentences and the different queries can be seen as the outputs of different search engines. We show empirically that the ranking algorithm outperforms a summarization system using a classification algorithm, on two distinct corpora.