Auteurs
Idir Chibane, Bich-Liên Doan
Résumé
Dans cet article, nous proposons une méthode de segmentation thématique de pages Web qui utilise à la fois des critères visuels et de format (balises
,
, couleur, …)]]> afin d’extraire des segments thématiques. Nous utilisons la segmentation pour améliorer les performances d’un système de recherche d’information. Nous proposons de modéliser une fonction de correspondance qui tienne compte à la fois du contenu d’une page Web et du voisinage de cette page définis par les segments thématiques appelés blocs thématiques qui la référencent. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les blocs thématiques aux pages Web en fonction des termes de la requête contenus dans ces blocs thématiques. Notre approche montre de bons résultats sur la collecion TREC.
Abstract
In this paper, we explore the use of new page segmentation algorithm using both visual and structural mark-up (
,