Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

01-01-0001

Actes de CORIA 2019

PDF

Auteurs

Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski, Patrick Gallinari

Résumé

L’ancrage visuel est un domaine de recherche actif dont le but est d’enrichir les repré- sentations vectorielles textuelles à l’aide d’informations visuelles. La plupart des travaux du domaine s’appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s’avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d’apprentissage de re- présentation de phrases qui transfère la structure d’un espace de représentation visuel à un espace textuel tout en préservant les deux espaces. Notre approche multimodale est générique dans la mesure où l’ancrage visuel est modélisé via une fonction objectif qui assure que (1) des phrases associées à un contenu visuel similaire doivent être proches dans l’espace textuel et que (2) les similarités entre éléments doivent être préservées entre les modalités. Nous démontrons la qualité de nos représentations de phrases sur des tâches de similarité de phrases et recherche inter-modale.

Abstract

In this paper, we tackle visual grounding, an active field aiming to enrich textual representations with visual information, at the sentence level. Our model transfers the structure of a visual representation space to the textual space without using inter-modal projections, which are inherently problematic since modalities do not have a one-to-one correspondence. Our new multimodal approach can build upon any sentence representation model and can be implemented in a simple fashion by using objectives ensuring that (1) sentences associated with the same visual content should be close in the textual space and (2) similarities between related elements should be preserved across modalities. We demonstrate the quality of the learned representations on semantic relatedness, classification and cross-modal retrieval tasks.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.