Auteurs
Résumé
La détection de l’incertitude dans le langage naturel est centrale pour le développe- ment de nombreux modèles exploitant l’analyse de textes e.g. questions-réponses, raisonnement approché, enrichissement de bases de connaissances. Après une synthèse des différentes clas- sifications de l’incertitude et des méthodes de détection correspondantes, cet article introduit une approche supervisée et générique de détection de l’incertitude. Celle-ci se base sur l’ana- lyse statistique de différentes caractéristiques lexicales et syntaxiques afin de construire une représentation vectorielle d’une phrase analysable par des méthodes de classification éprou- vées. L’évaluation que nous proposons tient compte des différentes dimensions de l’incertitude et de la nature des textes. Les résultats obtenus sur différents jeux de validation soulignent la performance globale de la méthode proposée et ouvrent de nombreuses perspectives.
Abstract
Designing approaches able to automatically detect uncertain natural language ex- pressions is central to design efficient models based on text analysis u for domains such as question-answering, approximate reasoning, knowledge-based population. This article pro- poses an overview of several contributions and classifications defining the concept of uncer- tainty expressions in natural language, and their related detection methods that have been proposed so far. A new supervised and generic approach is next introduced for this specific task; it is based on the statistical analysis of multiples lexical and syntactic features used to characterize sentences through vector-based representations that can be analyzed by proven classification methods. The global performance of our approach is demonstrated and discussed with regard to various dimensions of uncertainty and text specificities.