Amélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée.

01-01-0001

Actes de CORIA 2013

PDF

Auteurs

Vincent Bouvier, Patrice Bellot

Résumé

Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupe- ment des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème in- dustriel: l’amélioration d’un corpus de libellés de produits diversement orthographiés. Le but de l’algorithme est de retrouver l’écriture la plus compréhensible pour l’humain comme pour la machine (par ex. système de requêtes).

Abstract

This article introduces a method to build a set of clusters that contains similarly spelled words. Based on a modified edit distance and distribution statistics, this approach is completely knowledge free. The method has been developed for a real business issue. The concerned company obtains product’s descriptions made up of keywords where some of them are mistyped or misspeled. The aim of the algorithm is to find the most understandable (i.e., to human as well as computer) writing for each keywords.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.