Auteurs
Résumé
Les travaux en authentification d’auteur ont montré la difficulté de dépasser une stratégie simple telle qu’un classifieur linéaire opérant sur des représentations de type sac de caractéristiques des documents. Nous proposons pour surmonter cette difficulté d’utiliser les techniques de bagging de caractéristiques qui reposent sur l’apprentissage d’un ensemble de classifieurs appris sur des sous-ensembles aléatoires de caractéristiques, puis sur le vote de ces classifieurs en test.
Abstract
The authorship attribution literature demonstrates the difficulty to design classifiers that outperform simple strategies such as linear classifiers operating on bag of features rep- resentation of documents. To overcome this difficulty we propose to use Bagging techniques that rely on learning classifiers on different random subsets of features, then to combine their decision by making them vote.