ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2008
PDF

Auteurs

Nicolas Faessel

Résumé

Cet article présente un modèle d’indexation de pages Web basé sur leur rendu visuel. Dans ce modèle, une page Web n’est plus considérée comme un tout, mais comme la combinai- son d’un ensemble de blocs dont chacun porte sa sémantique propre. L’indexation d’une page Web est réalisée en deux étapes : (1) construction d’un arbre hiérarchique de blocs visuels, en s’appuyant sur la disposition visuelle des blocs de la page (2) indexation textuelle de chaque bloc par un vecteur de termes et tenant compte de l’importance de ces blocs et de l’indexation des blocs contenants, contenus ou voisins.

Abstract

This paper presents a Web page indexation model. In this model, a Web page is not viewed as a whole, but as a combination of a set of blocks based on their visual rendering, where each bloc shares is own semantic. The indexation of a page Web is achieved in two steps : (1) construction of a hierarchical tree of visual blocks based on block visual layout in the Web page (2) textual indexation of each block by a term vector and taking into account blocks importance and indexation of neighbouring blocks (parent, children, siblings…).

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.