Auteurs
Résumé
Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’interrogation. Par conséquent, un Fichier Inverse Etendu est construit en ex- ploitant le concept de proximité des termes et en utilisant les technologies de classification non supervisée. Trois approches d’interrogation sont alors proposées, la première utilise l’expan- sion de la requête, la seconde est basée sur le Fichier Inverse Etendu et la dernière hybride les méthodes de recherche. De nombreuses expérimentations sur OHSUMED ont été effectuées et les résultats obtenus sont très prometteurs.
Abstract
Term clustering based on proximity measure is a strategy leading to efficiently yield documents relevance. Unlike the recent studies that investigated term proximity for documents ranking, the information retrieval process is thoroughly revised on both indexing and interro- gation steps in this work. Consequently, an extended inverted file is built by exploiting the term proximity concept and using clustering technologies. Then three interrogation approaches are proposed, the first one uses query expansion, the second one is based on the extended inverted file and the last one hybridizes the retrieval methods. Extensive experiments on OHSUMED have been performed and the achieved results are very promising.