ARIA

Association Francophone de Recherche d’Information (RI) et Applications

Actes de CORIA 2017
PDF

Auteurs

Mirco Kocher, Jacques Savoy

Résumé

Cet article présente le problème du regroupement d’auteurs c’est-à-dire étant donné un ensemble n d’écrits, retournez le nombre k d’auteurs et regroupez dans k classes les textes par auteur. Liée au problème de l’attribution d’auteur, cette question possède toutefois la propriété d’être non-supervisée. Sur la base de deux collections de documents, une écrite en français, la seconde en anglais, diverses mesures de distance sont proposées et évaluées. Au niveau du choix des attributs, les m (avec m = 50 à 2 000) mots les plus fréquents ou les m unigrammes et bigrammes de lettres sont étudiés. Les résultats indiquent que la représentation par mots présente habituellement une meilleure performance que celle basée sur les bigrammes de lettres. La distance calculée par le cosinus offre une qualité moindre que des fonctions basées sur la norme L1 (à l’exemple de Canberra). Toutefois, le choix de la meilleure mesure de distance ne peut être fixée avec précision. Enfin, nous proposons d’appliquer une forme de ré-échantillonnage aléatoire (bootstrap) afin de tenir compte des variations lexicales. Nos résultats indiquent une variabilité importante des résultats face à des variantes lexicales. Enfin, une analyse détaillée révèle les difficultés et les raisons d’affectations erronées.

Abstract

This paper describes the author clustering problem where, based on a set of n texts, the number k of distinct authors must be determined and the texts must be regrouped into k classes according to their author. Using two test collections, one written in French, the second in English, different distance measures are described and evaluated. To define the needed features, the m most frequent words (e.g., m between 50 to 300) or the m letters and bigrams of letters have been used. Our experiments show that word-based representations offer usually the best performance. Using the cosine distance function does not produce a better F1 value compared to functions based on the L1 norm (e.g., Canberra). However, the best distance measure for all cases cannot be defined precisely. Applying a bootstrap approach, we show that the performance measures owns a relatively large variability. Finally, a deeper analysis indicates the difficulties and reasons explaining incorrect assignments.

Posts Récents

Catégories

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.