ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2007
PDF

Auteurs

Imad Tbahriti, Anne-Lise Veuthey, Patrick Ruch, Julien Gobeill

Résumé

But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l’information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu’un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l’information de l’entrée de cette protéine dans la base. Méthodes : La procédure expérimentale pour tester cette hypothèse est la suivante : dans chaque entrée UniProtKB/Swiss-Prot nous séparons l’ensemble des références bibliographiques connues (ERB) en deux ensembles : l’ensemble des références connues (ERC) et l’ensemble des références à découvrir (ERD) par notre système. Notre système va proposer un ensemble de références possibles (ERP). Nous évaluons la performance de deux différentes méthodes en comparant la précision de notre détecteur de nouveauté, c’est-à-dire en mesurant le rapport entre ERD et ERP. La première méthode, guidée par les références (GR) analyse les références bibliographiques d’un article donné pour prévoir son intérêt pour la mise à jour de UniProtKB/Swiss-Prot. Pour cette approche, nous utilisons un analyseur HTML de bibliographie afin d’identifier dans notre corpus les articles citant des articles contenus dans ERB. La deuxième méthode, guidée par la recherche documentaire (GD) utilise un moteur de recherche pour classer par ordre de pertinence un ensemble d’articles en fonction d’une requête contenant le nom de la protéine et ses synonymes. Pour cette approche, nous avons récupéré l’ensemble des champs MEDLINE; résumé, titre, termes MeSH (Medical Subject Headings ou Mots clés médicaux) et les noms chimiques correspondants à ces PMID afin de les indexer dans le moteur de recherche. Résultats : On trouve une importante corrélation (0.74) entre les deux méthodes GR et GD. Toutefois des différences demeurent, en particulier, la précision des premiers documents retournés par méthode GD est sensiblement supérieure (0.46) à celle de la méthode GR (0.31). La fusion des deux méthodes par combinaison linéaire, qui obtient un gain significatif

Abstract

Purpose: The goal of this study is to discover new articles valuable for updating the information in the UniProtKB/Swiss-Prot database. Our basic hypothesis is that an article that cites a PubMed reference (PMID) found in an entry in the Swiss-Prot database will be a good candidate for updating that specific protein entry. We want to verify this hypothesis and validate it by comparing this approach against and in combination with a search-based method. Methods: To test our hypothesis we separated the known bibliographic references (ERB) from each UniProtKB/Swiss-Prot entry into two groups: the set of the known references (ERC) and the set of the references to discover (ERD). Our system will propose some candidate references (ERP) that cite the known references found in UniProtKB/Swiss-Prot entries (ERB), which will have to be evaluated. We tested two different methods to find the ERP useful for updates of the UniProtKB/Swiss-Prot records. For each candidate reference (ERP) proposed by our system by one of the two methods, we evaluated the effectiveness by comparing the precision, i.e. by measuring the relationship between ERD and ERP. The first method guided by the references (GR) analyzes the bibliographical references of a given article to predict its benefit for the update of UniProtKB/Swiss-Prot. For this approach, we analyzed the citations from all articles in our corpus in order to identify those which reference the articles contained in the ERB. The second method (GD) uses an information retrieval engine to rank a set of articles in terms of a query containing the protein name and its synonyms. For the second approach, we recovered from MEDLINE the abstract, title, MeSH terms and chemical names for each PMID as input for information retrieval engine Results: We found a significant correlation (0.74) between the article ranking given by the information retrieval engine and the article ranking given by GR method. However, the precision at high ranks of the GR method (0.31) is lower than the GD method (0.46). The fusion of the two approaches by linear combination significantly improves the baseline (GD) by +6.5%. Thus, confirming that the two methods are complementary. Conclusion: Our results show that an approach based on a bibliometric method using citation networks, is an informative and novel method to provide information appropriate for the updating of the UniProtKB/Swiss-Prot database.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.