Regroupement d’auteurs : Qui a écrit cet ensemble de romans ?

Mirco Kocher, Jacques Savoy

CORIA 2017 - Conférence en Recherche d'Informations et Applications- 14th French Information Retrieval Conference. Marseille, France, March 29-31, 2017.


RÉSUMÉ . Cet article présente le problème du regroupement d'auteurs c'est-à-dire étant donné un ensemble n d'écrits, retournez le nombre k d'auteurs et regroupez dans k classes les textes par auteur. Liée au problème de l'attribution d'auteur, cette question possède toutefois la propriété d'être non-supervisée. Sur la base de deux collections de documents, une écrite en français, la seconde en anglais, diverses mesures de distance sont proposées et évaluées. Au niveau du choix des attributs, les m (avec m = 50 à 2 000) mots les plus fréquents ou les m unigrammes et bigrammes de lettres sont étudiés. Les résultats indiquent que la représentation par mots présente habituellement une meilleure performance que celle basée sur les bigrammes de lettres. La distance calculée par le cosinus offre une qualité moindre que des fonctions basées sur la norme L1 (à l'exemple de Canberra). Toutefois, le choix de la meilleure mesure de distance ne peut être fixée avec précision. Enfin, nous proposons d'appliquer une forme de ré-échantillonnage aléatoire (bootstrap) afin de tenir compte des variations lexicales. Nos résultats indiquent une variabilité importante des résultats face à des variantes lexicales. Enfin, une analyse détaillée révèle les difficultés et les raisons d'affectations erronées.

ABSTRACT . This paper describes the author clustering problem where, based on a set of n texts, the number k of distinct authors must be determined and the texts must be regrouped into k classes according to their author. Using two test collections, one written in French, the second in English, different distance measures are described and evaluated. To define the needed features, the m most frequent words (e.g., m between 50 to 300) or the m letters and bigrams of letters have been used. Our experiments show that word-based representations offer usually the best performance. Using the cosine distance function does not produce a better F1 value compared to functions based on the L1 norm (e.g., Canberra). However, the best distance measure for all cases cannot be defined precisely. Applying a bootstrap approach, we show that the performance measures owns a relatively large variability. Finally, a deeper analysis indicates the difficulties and reasons explaining incorrect assignments.

MOTS-CLÉS : Classification automatique, apprentissage non-supervisé, attribution d'auteur.

KEYWORDS : Text clustering, unsupervised learning, authorship attribution.


fichier Fichier

Identifiant : doi:10.24348/coria.2017.3

Citation :

@inproceedings{coria/2017/3,
author = {Mirco Kocher and Jacques Savoy},
title = {Regroupement d’auteurs : Qui a écrit cet ensemble de romans ?},
booktitle = {CORIA 2017 - Conférence en Recherche d'Informations et Applications- 14th French Information Retrieval Conference. Marseille, France, March 29-31, 2017.},
pages = {311-326},
year = {2017},
doi = {doi:10.24348/coria.2017.3}
}