ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2009
PDF

Auteurs

Jacques Savoy

Résumé

Cet article décrit quelques approches afin d’extraire les termes les plus représentatifs d’un site web ou d’un ensemble de documents en comparaison avec d’autres sites ou un corpus de référence. Nous montrons que la fréquence d’occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s’appuie sur une distribution binomiale des mots et le calcul d’un score normalisé (score Z) mettant en lumière les termes comparativement les plus appropriés. Quelques exemples tirés des discours électoraux suisses ou français illustrent l’intérêt de l’approche suggérée.

Abstract

This paper describes some possible approaches to automatic extraction of terms closely reflecting the content of a Web site or a set of documents by comparison of other sites or a given corpus. We show that the frequency of occurrences or the rank of the most frequent terms may provide a first overview. In the suggested method, we model the terms distribution according to a binomial process and we proposed to compute a normalized z- score to define the most appropriate terms within a comparative perspective. Examples based on Swiss and French political speeches show the usefulness of the suggested method.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.