ARIA > Conférences CORIA > CORIA 2004 > >

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

01-01-0001

Actes de CORIA 2004

PDF

Auteurs

Saïd Radhouani, Jean-Pierre Chevallet, Mathias Géry

Résumé

Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d’information que l’utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n’as pas toujours un sens, car il s’agit uniquement d’une contrainte physique. Dans la réalité, l’utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d’un noeud comme unité de base. Cette contrainte physique peut être la cause de résultats non satisfaisants, typiquement des documents “bruités” contenant, en plus de l’information recherchée, d’autres informations non pertinentes. En plus, si nous manipulons les noeuds indépendamment les uns des autres sans prendre en compte les informations dispersées dans plusieurs noeuds, nous aurons probablement un “silence” dans les réponses, c’est-à-dire qu’il y a encore des informations pertinentes mais le SRI n’a pas pu les retrouver car les documents ont perdu leur contexte (les noeuds voisins) et les relations sémantiques entre eux. Dans cet article, nous redéfinissons la notion de document dans un contexte hypertexte et requête précise. Nous proposons, comme réponse précise à une requête, un document virtuel que nous appelons chemin de lecture. Ce dernier reflète la description de l’information sur les hypertextes. Il est formé de zones de texte dispersées dans un ou plusieurs documents connectés. Nous proposons un modèle permettant d’extraire les chemins de lecture. Nous utilisons les liens typés pour regrouper les zones de texte constituant chaque chemin. Pour celà, nous nous basons sur une technique heuristique et sur les valeurs de similarité entre les zones.

Abstract

Currently, the hypertext node (document) is used as the smallest information granularity seeked by the user. We suppose that the fact of considering the hypertext node as an informational unit has not always meaning, but is only a physical constraint. In fact, the user may need to search for one simple paragraph, or for a set of pages. However, IRS are based usually on the node granularity as basic unit. This physical constraint can be the cause of non-satisfactory results, typically, documents include irrelevant information for example due to their size. Moreover, if we handle nodes independently without taking into account the information dispersed in several nodes, we will probably have a « silence » in the answers. It means that it still has relevant information there but the IRS can not find them because documents lost their context and semantic relations between them. In this article, we redefine the concept of document in a hypertext context and precise query. We propose, as precise answers to a query, virtual documents that we call « reading paths ». They reflect the description of information on hypertexts.

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Auteurs

Résumé

Abstract

Posts Récents

Premier appel à communication - CORIA 2024

Journée accès à l’information (GDR TAL)

Conférence CIRCLE 2022

Conférence CORIA/RJCRI 2021

Groupe de lecture ARIA

Catégories

A Propos