ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2015
PDF

Auteurs

Xavier Bost, Georges Linarès

Résumé

La segmentation de flux audio en locuteurs apparaît particulièrement délicate lors- qu’elle est appliquée à des films de fiction, où de nombreux personnages parlent dans des conditions acoustiques variables (musique de fond, bruitages, fluctuations dans l’intonation…). Au-delà d’une telle variabilité acoustique, ce type de films exhibe cependant de la régularité sur le plan visuel, particulièrement dans les passages dialogués. Nous introduisons dans ce papier une méthode en deux temps pour procéder à la segmentation en locuteurs d’épisodes de séries TV : un premier regroupement en locuteurs est effectué localement, dans les limites de scènes visuellement identifiées comme des dialogues ; les locuteurs conjecturés sont ensuite comparés lors d’une deuxième phase de regroupement afin de détecter les locuteurs récurrents : cette deuxième étape de regroupement a lieu sous la contrainte que les différents locuteurs impliqués dans un même dialogue soient assignés à des groupes distincts. Les performances obtenues par notre approche sont comparées à celles qu’on obtient en appliquant aux mêmes données des outils standards de segmentation en locuteurs.

Abstract

Speaker diarization of audio streams turns out to be particularly challenging when applied to fictional films, where many characters talk in various acoustic conditions (back- ground music, sound effects, variations in intonation…). Despite this acoustic variability, such movies exhibit specific visual patterns, particularly within dialogue scenes. In this paper, we introduce a two-step method to achieve speaker diarization in TV series: speaker diarization is first performed locally within scenes visually identified as dialogues; then, the hypothesized local speakers are compared to each other during a second clustering process in order to detect recurring speakers: this second stage of clustering is subject to the constraint that the different speakers involved in the same dialogue have to be assigned to different clusters. The perfor- mances of our approach are compared to those obtained by standard speaker diarization tools applied to the same data.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.