ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2011
PDF

Auteurs

Vincent Claveau, Sébastien Lefèvre

Résumé

Dans cet article, nous nous intéressons à la segmentation thématique d’émissions télé- visées à partir de la transcription automatique de leur bande-son. La segmentation thématique de textes a fait l’objet de travaux depuis de nombreuses années, et les techniques mises en oeuvre reposent souvent sur des descriptions de contenu et des calculs de similarité utilisés en recherche d’information. Dans cet article, nous proposons une technique s’inspirant des tra- vaux de morphologie mathématique utilisés en segmentation d’image. Nous montrons de plus que la technique d’appariement par vectorisation proposée par (Claveau et al., 2010) peut être utilisée dans l’étape clef de calcul de similarité entre les segments. Nous évaluons cette approche sur deux corpus d’émissions de télévision. Les résultats obtenus au travers de ces ex- périences dépassent nettement ceux des approches existantes et montrent le bien-fondé de notre démarche.

Abstract

This paper deals with topic segmentation of TV broadcasts using their transcription obtained by automatic speech recognition. Topic segmentation has been studied for several years, and most often the techniques proposed rely on information retrieval techniques to com- pute similarities between segments. In this paper, we propose a new segmentation approach inspired by mathematical morphology studies developed in the framework of image segmenta- tion. We also show that using the similarity technique called vectorization and first developed for IR (Claveau et al., 2010) can be efficiently used in this context. This new topic segmentation technique is evaluated on two corpora of TV broadcasts on which it outperforms other existing approaches.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.