Auteurs
Résumé
La plupart des systèmes de recherche d’information classiques se basent sur une indexation par termes simples. Cependant, ces derniers délivrent beaucoup de résultats en réponse aux requêtes des utilisateurs. Ceci est du en partie au fait que le contenu sémantique d’un document (ou d’une requête) ne peut pas être capturé précisément par un simple ensemble de mots clés indépendants. Deux directions sont explorées pour incorporer la sémantique dans les modèles de langage. La première se base sur l’exploitation des liens entre termes tout en utilisant une même unité d’indexation. La seconde se base sur l’utilisation d’unités d’indexation plus complexes en plus de l’utilisation de termes simples. Dans ce papier est détaillée l’approche que nous proposons pour incorporer la dimension sémantique de document, et qui rentre dans le cadre de la seconde direction.
Abstract
Most traditional information retrieval systems are based on simple terms indexing. However, they deliver massive results in response to users queries. This is partly due to the fact that semantic content of a document (or a request) can not be accurately captured by a simple set of independent keywords. Two directions are investigated to incorporate semantics in the language models. The first is based on the exploitation of terms dependency while using the same indexing unit. The second is based on the use of more complex indexing units. In this paper we detail our approach to incorporate the semantic dimension of document.