Unnatural language detection.

01-01-0001

Actes de CORIA 2006

PDF

Auteurs

Thomas Lavergne

Résumé

Dans le contexte des moteurs de recherche sur le web, l’escalade entre les techniques de classement et les techniques de spamdexing a conduit à l’apparition de faux contenus dans les pages web. Si les séquences aléatoires de mots-clés sont facilement détectables, les pages web produites par des générateurs automatiques dédiés sont beaucoup plus difficiles à détecter. Motivé par cette application, on se concentrera sur le problème plus général de la détection du catactère peu-naturel d’un texte. On étudiera à la fois les aspects syntaxiques et sémantiques du problème, et pour chacun d’eux on présentera des approches probabilistes et symboliques.

Abstract

In the context of web search engines, the escalation between ranking techniques and spamdexing techniques has led to the appearance of faked contents in web pages. If random sequences of keywords are easily detectable, web pages produced by dedicated content genera- tors are a lot more difficult to detect. Motivated by search engines applications, we will focus on the problem of automatic unnatural language detection. We will study both syntactical and semantical aspects of this problem, and for both of them we will present probabilistic and symbolic approaches.

Posts Récents

Premier appel à communication - CORIA 2024

13-12-2023

Journée accès à l’information (GDR TAL)

21-09-2022

Conférence CIRCLE 2022

24-01-2022

Conférence CORIA/RJCRI 2021

01-01-2021

Groupe de lecture ARIA

06-11-2020

A Propos

ARIA (Association Francophone de Recherche d’Information (RI) et Applications) est une société savante, association loi 1901, ayant pour but de promouvoir le savoir et les connaissances du domaine de la Recherche d’Information (RI) et des divers domaines scientifiques en jeu dans la conception, la réalisation et l’évaluation des systèmes de Recherche d’Information.