Auteurs
Résumé
L’attribution d’auteur peut être analysée comme une tâche particulière en catégorisation de textes. Dans cette perspective, on définit d’abord une liste d’attributs pertinents (vocables dans cet article). Ensuite, on entraîne un modèle de classification afin de discriminer entre les auteurs potentiels. Pour améliorer la performance moyenne on peut s’appuyer sur un ensemble de séparateurs, la solution retenue étant celle de la majorité (bagging). Afin de générer ce groupe de classifieurs, nous présentons deux formes de variations possibles, d’une part en perturbant les profils d’auteurs et, d’autre part, la liste des attributs. Afin de comparer l’efficacité de ces approches, nous avons extrait deux corpus d’articles de presse (Glasgow Herald) écrits par cinq journalistes, un dans le domaine du sport (1 948 articles) et le second en politique (987 articles). Sur la base de la performance obtenue par la méthode de divergence Kullback-Leibler (Zhao & Zobel, 2007), les stratégies plus complexes n’apportent pas toujours les améliorations escomptées.
Abstract
The authorship attribution problem can be viewed as a categorization problem. To discriminate between different writers (or categories), we must first select a list of useful features (word types in this study), and then we train our classifier. To improve effectiveness, we can consider an ensemble of models instead of a single classifier (bagging). In the current study, we propose two forms of variation: varying the author profiles on the one hand, and on the other, varying the list of selected features. To compare the effectiveness of these solutions, we have extracted two corpora from the Glasgow Herald written by five columnists, the first one is on sports (1,948 articles), and the second on politics (987 articles). Using the KLD model (Zhao & Zobel, 2007), we found that a simple classification scheme tends to produce results comparable to those obtained from using more complex ones.