ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2013
PDF

Auteurs

Rachid Hafiane, Malika Smaïl-Tabbone, Marie-Dominique Devignes, Salvatore Tabbone

Résumé

Dans de nombreux domaines d’application de l’analyse de données ou de la recherche d’information, il est utile de grouper de façon non supervisée des objets par similarité sans qu’il soit aisé de les représenter par des vecteurs de propriétés numériques. En biologie moléculaire, la similarité permet de capturer soit la structure complexe des objets (cas des molécules ou des séquences) soit la sémantique de leur description (cas des maladies ou des gènes). De nombreuses mesures de similarité ont été proposées mais une fois converties en dissimilarité en vue du clustering, ces mesures ne présentent pas forcément les bonnes propriétés d’une métrique. Le clustering d’objets pour lesquels on ne dispose que d’une matrice de dissimilarité requiert d’utiliser des méthodes adéquates. Nous proposons ici une évaluation comparative du clustering de gènes sur la base d’une mesure de similarité sémantique sur les termes de la Gene Ontology, IntelliGO. Nous nous appuyons sur quatre benchmarks que nous avons définis pour comparer les performances du clustering hiérarchique ascendant, du clustering C-means flou, et du clustering après plongement de la matrice de dissimilarité dans un espace Euclidien. Nous utilisons précisément une méthode de plongement qui tient compte du fait que la dissimilarité n’est pas une vraie métrique.

Abstract

In various application domains of knowledge extraction or information retrieval, objects are not represented as feature vectors in a vector space but as a pairwise similarity ma- trix. In molecular biology, such a similarity measure either captures the object structure (e.g. molecules, proteins as sequences of amino acids) or the semantics of their description (genes or diseases described with ontology terms). The numerous existing similarity measures often violate metricity properties. This is the case of our IntelliGO semantic similarity defined as a generalized cosine between two vectors of Gene Ontology terms (Gene Ontology is a directed acyclic graph representing the semantic relationship between terms). Specific techniques exist for embedding pairwise data into Euclidian space for facilitating subsequent clustering of the

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.