ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2004
PDF

Auteurs

Alexandre S. Saidi

Résumé

L’objectif de l’Extraction de Connaissances Textuelles (ECT) est la recherche de mo- tifs intéressants dans les documents. La plupart des techniques employées dans ce domaine n’utilisent pas la structure linguistique, étant donnée le coût d’une analyse morpho-syntaxique (complète) et l’absence du respect des règles grammaticale (langue naturelle) dans ces textes. Dans ce contexte, l’Inférence Grammaticale peut être utilisée pour extraire la structure d’un texte (ou de ses sous-languages) afin de permettre une recherche informée dans une base de données textuelles. Dans cet article, nous présentons une contribution de l’Inférence Gramma- ticale dans le domaine d’ECT et exposons les éléments d’un processus d’extraction appliqué à un corpus d’annonces de séminaire.

Abstract

Text Mining tackles the task of searching useful knowledge (patterns) in a natural language document. Given the cost of a (full) morpho-syntactic analysis of a textual database, specially when the linguistic rules are not respected, most text mining techniques process with- out using the linguistic structure of those documents. In this Information Extraction framework, Grammatical Inference techniques can be used to extract the structure of a text (or of some of its sublanguage). This will allow an informed research of useful information in the textual data bases. In this paper, we present the contribution of the Grammatical Inference in the Text Min- ing field by reporting an Information Extraction process we applied to a seminar announcement corpus.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.