Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski, Patrick Gallinari

COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference. Lyon, France, May 25-29, 2019.


RÉSUMÉ. L'ancrage visuel est un domaine de recherche actif dont le but est d'enrichir les repré- sentations vectorielles textuelles à l'aide d'informations visuelles. La plupart des travaux du domaine s'appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s'avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d'apprentissage de re- présentation de phrases qui transfère la structure d'un espace de représentation visuel à un espace textuel tout en préservant les deux espaces. Notre approche multimodale est générique dans la mesure où l'ancrage visuel est modélisé via une fonction objectif qui assure que (1) des phrases associées à un contenu visuel similaire doivent être proches dans l'espace textuel et que (2) les similarités entre éléments doivent être préservées entre les modalités. Nous démontrons la qualité de nos représentations de phrases sur des tâches de similarité de phrases et recherche inter-modale.

ABSTRACT. In this paper, we tackle visual grounding, an active field aiming to enrich textual representations with visual information, at the sentence level. Our model transfers the structure of a visual representation space to the textual space without using inter-modal projections, which are inherently problematic since modalities do not have a one-to-one correspondence. Our new multimodal approach can build upon any sentence representation model and can be implemented in a simple fashion by using objectives ensuring that (1) sentences associated with the same visual content should be close in the textual space and (2) similarities between related elements should be preserved across modalities. We demonstrate the quality of the learned representations on semantic relatedness, classification and cross-modal retrieval tasks.

MOTS-CLÉS : représentation de phrases, intermodalité, ancrage

KEYWORDS: sentence embeddings, multimodal, grounding


fichier Fichier

Identifiant : doi:10.24348/coria.2019.CORIA_2019_paper_9

Citation:

@inproceedings{coria/2019/CORIA_2019_paper_9,
author = {Patrick Bordes and Eloi Zablocki and Laure Soulier and Benjamin Piwowarski and Patrick Gallinari},
title = {Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle},
booktitle = {COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference. Lyon, France, May 25-29, 2019. Proceedings},
pages = {},
year = {2019},
doi = {doi:10.24348/coria.2019.CORIA_2019_paper_9}
}