Auteurs
Résumé
L’essentiel de l’information médicale est actuellement accessible dans diverses bibliothèques numériques ou sur le Web. Toutefois, l’usager désire parfois obtenir une information précise mais perdue dans un document spécifique. Dans cet article, nous proposons une approche automatique à ce problème d’extraction d’information. A partir du titre et du résumé d’articles médicaux touchant le domaine de la génétique, notre système s’avère capable d’y extraire le descripteur caractérisant un gène spécifique. Notre stratégie d’extraction, basée sur la régression logistique, a été évaluée sur un corpus de documents lié au forum d’évaluation TREC et a démontré une performance supérieure à la moyenne.
Abstract
Most of available medical information is accessible through several digital libraries on the Web. However, the user may need to find precise information which could be lost in a specific document. In this article, we propose an automatic approach to this information extraction problem. Using titles and abstracts of medical articles on genomics, our system is able to extract the descriptor which characterizes a specific gene. Our extraction strategy, based on the logistic regression, was evaluated on a corpus of documents linked to the TREC evaluation forum and performed better than the average.