ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2008
PDF

Auteurs

Idir Chibane, Bich-Liên Doan

Résumé

Dans cet article, nous proposons une méthode de segmentation thématique de pages Web qui utilise à la fois des critères visuels et de format (balises


,

, couleur, …)]]> afin d’extraire des segments thématiques. Nous utilisons la segmentation pour améliorer les performances d’un système de recherche d’information. Nous proposons de modéliser une fonction de correspondance qui tienne compte à la fois du contenu d’une page Web et du voisinage de cette page définis par les segments thématiques appelés blocs thématiques qui la référencent. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les blocs thématiques aux pages Web en fonction des termes de la requête contenus dans ces blocs thématiques. Notre approche montre de bons résultats sur la collecion TREC.

Abstract

In this paper, we explore the use of new page segmentation algorithm using both visual and structural mark-up (


,

) to partition web pages into blocks and investigate how to take advantage of block-level evidence to improve retrieval performance in the web. We propose a new ranking function that combines content and link rank based on propagation of scores over links on block-to-page graph. This function propagates scores from blocks of source pages to destination pages in relation with query terms. Our approach shows good results over TREC collections.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.