Extension du modèle de langue pour la RI avec la position du terme.

01-01-0001

Actes de CORIA 2019

PDF

Auteurs

Hammache Arezki, Mohand Boughanem

Résumé

La plupart des modèles de RI se basent généralement sur la combinaison de trois facteurs dans leur fonction de pondération, qui sont : la fréquence du terme dans le document (TF), la fréquence du terme dans la collection (ou l’IDF) et la taille du document. Quelques approches ont proposé d’intégrer la position du terme dans le document dans l’objectif de surpondérer les termes qui apparaissent au début du document. Dans cet article, nous nous situons dans cette perspective. Précisément, nous proposons deux nouvelles techniques d’estimation du poids d’un terme en se basant sur ses positions dans le document. La première technique considère uniquement la positon de la première apparition du terme dans le document; la seconde technique prend en compte toutes les positions du terme dans le document. Nous avons ensuite intégré les facteurs obtenus dans un modèle de langue pour la RI. Deux techniques de lissage sont considérées dans ce modèle de langue: Dirichlet et Jelinek-Mercer. Les résultats expérimentaux obtenus sur deux collections de test TREC, montrent que notre modèle améliore significativement les deux modèles de langue de base: Dirichlet et Jelinek-Mercer. Notre modèle surpasse aussi un modèle de l’état de l’art, qui est le modèle CTR, basé sur la position du terme dans le document.

Abstract

The weighting function of most IR models is usually based on a combination of three factors: Term Frequency (TF), Inverse Document Frequency (IDF) and document length. Some approaches have integrated term position in a document to boost the weight of terms appearing in the beginning of the document. In this article, we are in this perspective. Precisely, we propose two ways for estimating “position weighting”. The first one exploits only the position of the first appearance of a term in a document; the second one considers all term positions in a document. We then integrated these factors into two smoothing methods from language model: Dirichlet and Jelinek-Mercer. Experiments conducted on two TREC test collections show that our model achieves a significant improvement over Dirichlet and Jelinek-Mercer models. Our model also outperforms state-of-the-art model, which is the Chronological Term Rank (CTR), based on term position in a document.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.