Prédiction de la polysémie pour un terme biomédical.

Juan Antonio Lossio Ventura, Clement Jonquet, Mathieu Roche, Maguelonne Teisseire

CORIA 2015 - Conférence en Recherche d'Informations et Applications - 12th French Information Retrieval Conference, Paris, France, March 18-20, 2015.


RÉSUMÉ. La polysémie est la caractéristique d'un terme à avoir plusieurs significations. La prédiction de la polysémie est une première étape pour l'Induction de Sens (IS), qui permet de trouver des significations différentes pour un terme, ainsi que pour les systèmes d'extraction d'information. En outre, la détection de la polysémie est importante pour la construction et l'en- richissement de terminologies et d'ontologies. Dans cet article, nous présentons une nouvelle approche pour prédire si un terme biomédical est polysémique ou non, avec l'objectif à long terme d'enrichir les ontologies biomédicales après avoir désambiguïser les termes candidats. Cette approche est basée sur l'utilisation de techniques de méta-apprentissage, plus précisé- ment sur des méta-descripteurs. Dans ce contexte, nous proposons la définition de nouveaux méta-descripteurs, extraits directement du texte, et d'un graphe de co-occurrences des termes. Notre méthode donne des résultats très satisfaisants, avec une exactitude et F-mesure de 0.978.

ABSTRACT. Polysemy is the capacity for a term to have multiple meanings. Polysemy prediction is a first step for Word Sense Induction (WSI), which allows to find different meanings for a term, as well as for Information Extraction (IE) systems. In addition, the polysemy detection is important for building and enriching terminologies and ontologies. In this paper, we present a novel approach to detect if a biomedical term is polysemic or not, with the long term goal of enriching biomedical ontologies after disambiguation of candidate terms. This approach is based on meta-learning techniques, more precisely on meta-features. We propose the definition of novel meta-features, extracted directly from the text dataset, as well as from a graph of coc- current terms. Our method obtains very good results, with an Accuracy and F-mesure of 0.978.

MOTS-CLÉS : Polysémie, Induction de sens, Désambiguïsation, Méta-apprentissage, Méta- descripteurs, Apprentissage automatique, Terminologie biomédical, Graphes.

KEYWORDS : Polysemy, Word Sense Induction, Disambiguation, Meta-learning, Meta-features, Machine Learning, Biomedical Terminology, Graphs.


fichier Fichier

Identifiant : doi:10.24348/coria.2015.52

Citation :

@inproceedings{coria/2015/52,
author = {Juan Antonio Lossio Ventura and Clement Jonquet and Mathieu Roche and Maguelonne Teisseire},
title = {Prédiction de la polysémie pour un terme biomédical.},
booktitle = {CORIA 2015 - Conférence en Recherche d'Informations et Applications - 12th French Information Retrieval Conference, Paris, France, March 18-20, 2015.},
pages = {437-452},
year = {2015},
doi = {doi:10.24348/coria.2015.52}
}