Rôle de la matrice d'information et pondération des composantes dans les noyaux de Fisher pour PLSI.

01-01-0001

Actes de CORIA 2009

PDF

Auteurs

Jean-Cédric Chappelier, Emmanuel Eckard

Résumé

Des similarités entre documents à base de catégories sémantiques latentes et de noyaux de Fisher ont été proposées pour la première fois il y a dix ans par T. Hofmann dans le contexte du “Probabilistic Latent Semantic Indexing”, puis étendues par Nyffenegger et al. (2006). Le présent article présente une étude approfondie et une révision de ces modèles par (1) une des- cription unifiée et simplifiée, (2) une étude du rôle de la matrice d’information de Fisher G (), et (3) une analyse de l’impact des paramètres associés aux catégories latentes. Il fournit de plus de nouveaux résultats expérimentaux sur une grande collection de document provenant du corpus d’évaluation TRECuAP.

Abstract

An information-geometric approach for document similarities in the framework of “Probabilistic Latent Semantic Indexing” was first proposed by T. Hofmann (2000) and later extended (“revisited”) by Nyffenegger et al. (2006). This paper presents an in-depth study and revision of these models by (1) providing a simpler unified description framework, (2) investi- gating the role of the Fisher Information Matrix G (), and (3) analyzing the impact of latent “topic” parameters in such models. It furthermore provides new experimental results on larger collections coming from the TRECuAP evaluation corpus.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.