Détection de locuteurs dans les séries TV.

01-01-0001

Actes de CORIA 2015

PDF

Auteurs

Xavier Bost, Georges Linarès

Résumé

La segmentation de flux audio en locuteurs apparaît particulièrement délicate lors- qu’elle est appliquée à des films de fiction, où de nombreux personnages parlent dans des conditions acoustiques variables (musique de fond, bruitages, fluctuations dans l’intonation…). Au-delà d’une telle variabilité acoustique, ce type de films exhibe cependant de la régularité sur le plan visuel, particulièrement dans les passages dialogués. Nous introduisons dans ce papier une méthode en deux temps pour procéder à la segmentation en locuteurs d’épisodes de séries TV : un premier regroupement en locuteurs est effectué localement, dans les limites de scènes visuellement identifiées comme des dialogues ; les locuteurs conjecturés sont ensuite comparés lors d’une deuxième phase de regroupement afin de détecter les locuteurs récurrents : cette deuxième étape de regroupement a lieu sous la contrainte que les différents locuteurs impliqués dans un même dialogue soient assignés à des groupes distincts. Les performances obtenues par notre approche sont comparées à celles qu’on obtient en appliquant aux mêmes données des outils standards de segmentation en locuteurs.

Abstract

Speaker diarization of audio streams turns out to be particularly challenging when applied to fictional films, where many characters talk in various acoustic conditions (back- ground music, sound effects, variations in intonation…). Despite this acoustic variability, such movies exhibit specific visual patterns, particularly within dialogue scenes. In this paper, we introduce a two-step method to achieve speaker diarization in TV series: speaker diarization is first performed locally within scenes visually identified as dialogues; then, the hypothesized local speakers are compared to each other during a second clustering process in order to detect recurring speakers: this second stage of clustering is subject to the constraint that the different speakers involved in the same dialogue have to be assigned to different clusters. The perfor- mances of our approach are compared to those obtained by standard speaker diarization tools applied to the same data.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.