Combining Subword information and Language model for Information Retrieval

01-01-0001

Actes de CORIA-TALN 2018

PDF

Auteurs

Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet

Résumé

En recherche d’information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l’on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités de traduction entre termes dans le cadre des modèles de langue neuronaux (Zuccon et al., 2015) pour la recherche d’information afin de gérer le problème de la disparité des termes. Dans cet article, nous proposons d’utiliser de nouvelles représentations distribuées qui prennent en compte la structure interne des mots (Bojanowski et al., 2016) dans le cadre des modèles de langue neuronaux.

Abstract

Information Retrieval (IR) classically relies on several processes to improve performance of language modeling approaches. When considering semantic of words, Neural Word Embeddings (Mikolov et al., 2013) have been shown to catch semantic similarities between words. Such Distributed Representations represent terms in a dense vector space are efficiently learned from large corpora. Lately, they have been used to compute the translation probabilities between terms in the Neural Translation Language Model (NTLM) (Zuccon et al., 2015) framework for Information Retrieval in order to deal with the vocabulary mismatch issue. In this work, we propose to test this model with recent vectorial representations (Bojanowski et al., 2016) that take into account the internal structure of words.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.