Auteurs
Résumé
Dans le contexte des moteurs de recherche sur le web, l’escalade entre les techniques de classement et les techniques de spamdexing a conduit à l’apparition de faux contenus dans les pages web. Si les séquences aléatoires de mots-clés sont facilement détectables, les pages web produites par des générateurs automatiques dédiés sont beaucoup plus difficiles à détecter. Motivé par cette application, on se concentrera sur le problème plus général de la détection du catactère peu-naturel d’un texte. On étudiera à la fois les aspects syntaxiques et sémantiques du problème, et pour chacun d’eux on présentera des approches probabilistes et symboliques.
Abstract
In the context of web search engines, the escalation between ranking techniques and spamdexing techniques has led to the appearance of faked contents in web pages. If random sequences of keywords are easily detectable, web pages produced by dedicated content genera- tors are a lot more difficult to detect. Motivated by search engines applications, we will focus on the problem of automatic unnatural language detection. We will study both syntactical and semantical aspects of this problem, and for both of them we will present probabilistic and symbolic approaches.