Auteurs
Résumé
Les méthodes d’apprentissage profond s’appuient de plus en plus sur des représen- tations vectorielles continues des mots. Ces méthodes, déjà appliquées avec succès dans de nombreuses tâches de traitement automatique du langage naturel écrit et oral, sont capables de représenter des mots ainsi que les relations les liant. De manière générale, ces méthodes utilisent des représentations par “sac-de-mots” et traitent donc tous les mots d’un contexte de façon égale. Cet article propose une méthode originale qui s’appuie sur les modèles de contextes continus en intégrant la position relative des mots dans un contexte. Les résultats montrent que l’information portée par les contextes continus permet un gain jusqu’à 7 % sur le test qualitatif “de relation sémantique” et permet d’obtenir des résultats pertinents pour une application concrète (identification de thèmes de dialogues dans le cadre du projet DECODA), alors que des performances faibles sont obtenues sans l’information contextuelle.
Abstract
Deep learning methods use more and more word embedding representations. Those methods, which have been already applied with success on various tasks of written and spoken natural language processing, are able to represent words and the relations between them. Usu- ally in those methods context windows are represented as bag-of-words, i.e. every word in the context is treated equally. This paper proposes an original method inspired from the Continuous Context Models by integrating words relative positions. The results observed confirm that the information given by continuous context models allow us to gain more than 7 % on the Word Relationship test and achieve relevant results on a real application ( theme identification with the DECODA corpus) that couldn’t be done without this original information .