Auteurs
Résumé
Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d’autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l’information qu’ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s’affrontent pour la recherche d’information (RI) dans des documents XML. La première est basée sur des méthodes issues de la communauté des bases de données, alors que la seconde étend des techniques utilisées pour RI traditionnelle et permet d’associer des valeurs de pertinences aux unités d’information retournées. Cet article présente le modèle XFIRM, combinant les avantages des deux approches. Le modèle est basé sur un modèle de représentation et de stockage des données complet et sur un langage de requête simple, permettant à l’utilisateur de formuler son besoin à l’aide de simples mots-clés ou de manière plus précise, et ce en intégrant des contraintes sur la structure des documents. Grâce à la flexibilité apportée par la structure d’index proposée, de nombreux modèles de recherche d’information pourront être expérimentés.
Abstract
Users looking for precise information do not want it to be drowned by noisy subjects, as it can be the case in long documents. Thanks to their structure, XML documents allow Information Retrieval (IR) systems to retrieve information units, that are not necessarily whole documents. Two main approaches have been proposed in the literature : database-oriented approaches and IR-oriented approaches, which extend traditional methods and allow to associate relevance values to the returned information units. This paper describes the XFIRM model, combining the advantages of both approaches. The model is based on a complete data representation and storing model. The XFIRM query language aims at allowing users to express their need with a set of keywords and/or in a more precise way with structural conditions. Thanks to the flexibility of the index structure, many information retrieval models could be supported.