ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de SDNRI 2014
PDF

Auteurs

Clément de Groc, Xavier Tannier

Résumé

Le crawling orienté consiste à parcourir le Web au travers des hyperliens en orientant son parcours en direction des pages pertinentes. Pour cela, ces crawlers ordonnent leurs téléchargements suivant une stratégie d’ordonnancement. Dans cet article, nous proposons d’ap- prendre cette fonction d’ordonnancement à partir de données annotées. Une telle approche nous permet notamment d’intégrer un grand nombre de traits hétérogènes et de les combiner. Nous décrivons une méthode permettant d’apprendre une fonction d’ordonnancement indépen- dante du domaine pour la collecte thématique de documents. Nous évaluons notre approche sur de “longs” crawls de 40 000 documents sur 15 thèmes différents issus de l’OpenDirectory, et montrons que notre méthode permet d’améliorer la précision de près de 10% par rapport à l’al- gorithme Shark Search. Enfin, nous discutons les avantages et inconvénients de notre approche, ainsi que les pistes de recherche ouvertes.

Abstract

Focused crawling consists in searching and retrieving a set of documents relevant to a specific domain of interest from the Web. Such crawlers prioritize their fetches by relying on a crawl frontier ordering strategy. In this article, we propose to learn this ordering strat- egy from annotated data using learning-to-rank algorithms. Such approach allows us to cope with tunneling and to integrate a large number of heterogeneous features to guide the crawler. We describe a novel method to learn a domain-independent ranking function for topical Web crawling. We validate the relevance of our approach on “large” crawls of 40,000 documents on a set of 15 topics from the OpenDirectory, and show that our approach provides an increase in precision (harvest rate) of up to 10% compared to a baseline Shark Search algorithm. Finally, we discuss future leads regarding the application of learning-to-rank to focused Web crawling.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.