Auteurs
Résumé
Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupe- ment des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème in- dustriel: l’amélioration d’un corpus de libellés de produits diversement orthographiés. Le but de l’algorithme est de retrouver l’écriture la plus compréhensible pour l’humain comme pour la machine (par ex. système de requêtes).
Abstract
This article introduces a method to build a set of clusters that contains similarly spelled words. Based on a modified edit distance and distribution statistics, this approach is completely knowledge free. The method has been developed for a real business issue. The concerned company obtains product’s descriptions made up of keywords where some of them are mistyped or misspeled. The aim of the algorithm is to find the most understandable (i.e., to human as well as computer) writing for each keywords.