ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2019
PDF

Auteurs

Andrés Torres Rivera, Juan-Manuel Torres-Moreno

Résumé

Les néologismes sémantiques (NS) sont définis comme des mots qui acquièrent une nou- velle signification tout en maintenant leur forme. Compte tenu de la nature de ce type de néolo- gisme, la tâche d’identifier ces nouveaux sens des mots est actuellement effectuée manuellement par des spécialistes des observatoires de néologie. Pour détecter les NS de manière semi- automatique, nous avons développé un système mettant en uvre une combinaison des stratégies suivantes: modélisation de sujets, extraction de mots-clés et désambiguïsation du sens des mots. Le rôle de la modélisation des sujets est de détecter les thèmes traités dans le texte dentrée. Les thèmes d’un texte donnent des indications sur le sens particulier des mots utilisés. Par exemple, viral a un sens dans un contexte informatique (CS) et un autre lorsqu’il est question de santé. Pour extraire des mots-clés, nous avons utilisé TextRank avec filtrage des balises POS. Avec cette méthode, nous pouvons obtenir des mots pertinents qui font déjà partie du lexique espagnol. Nous utilisons un modèle d’apprentissage profonde pour déterminer si un mot-clé donné peut avoir une nouvelle signification. Des word embbeding différentes de toutes les significations connues (ou sujets) indiquent qu’un mot peut être un candidat NS valide. Dans cette étude nous examinons les modèles word embbeding suivants: Word2Vec, Sense2Vec et FastText. Les modèles ont été formés avec des paramètres équivalents en utilisant Wikipédia en espagnol en tant que corpus. Nous avons ensuite utilisé une liste de mots et leurs concor- dances (obtenus à partir de notre base de données de néologismes) pour montrer les différentes imbrications générées par chaque modèle. Enfin, nous présentons une comparaison de ces ré- sultats avec les concordances de chaque mot pour montrer comment nous pouvons déterminer si un mot peut être un candidat valide pour NS.

Abstract

Semantic neologisms (SN) are defined as words that acquire a new word meaning while maintaining their form. Given the nature of this kind of neologisms, the task of identifying these new word meanings is currently performed manually by specialists at observatories of neology. To detect SN in a semi-automatic way, we developed a system that implements a combination of the following strategies: topic modeling, keyword extraction, and word sense disambiguation. The role of topic modeling is to detect the themes that are treated in the input text. Themes within a text give clues about the particular meaning of the words that are used, for example: viral has one meaning in the context of computer science (CS) and another when talking about health. To extract keywords, we used TextRank with POS tag filtering. With this method, we can obtain relevant words that are already part of the Spanish lexicon. We use a deep learning model to determine if a given keyword could have a new meaning. Embeddings that are differ- ent from all the known meanings (or topics) indicate that a word might be a valid SN candidate. In this study, we examine the following word embedding models: Word2Vec, Sense2Vec, and FastText. The models were trained with equivalent parameters using Wikipedia in Spanish as corpora. Then we used a list of words and their concordances (obtained from our database of neologisms) to show the different embeddings that each model yields. Finally, we present a comparison of these outcomes with the concordances of each word to show how we can determine if a word could be a valid candidate for SN.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.