ARIA on Association Francophone de Recherche d'Information et Applications

Apprentissage par renforcement dans un système de filtrage adaptatif.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode incrémentale d’apprentissage des profils dans les systèmes de filtrage d’information. Cette méthode est basée sur le principe de renforcement. L’idée de base consiste à construire, à chaque arrivée d’un document pertinent, un profil ’ provisoire ’ permettant de sélectionner le document en question avec un score ’ fort ‘, puis intégrer ce profil, grâce à une descente de gradient, dans le profil global. Cette méthode est comparée à une version incrémentale de l’algorithme de Rocchio adapté au filtrage d’information.

CLEF MC2 Lab: Évaluation, Résultats, et Perspectives

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le Lab MC21 2018 est une tâche de recherche d’information (RI) au sein de la campagne Abstract MC2 CLEF Lab is a task in CLEF centered on mining the social media sphere surrounding cultural events. The objective of this task is to develop processing methods and resources to mine the social media (SM). The task focuses on the microblog collection of the GAFES. Running for three years, the organizers have been able to propose over time many

Considérations sur l'évaluation de la robustesse en recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cette communication évalue et compare l’efficacité de modèles vectoriels, probabilistes ou de langue afin de dépister des articles de presse rédigés en langue française. En se basant sur un corpus créé durant trois campagnes d’évaluation CLEF et comprenant Abstract This paper describes and evaluates vector-space, probabilistic and language IR models used to retrieve news articles from a corpus written in the French language. Based on three CLEF test-collections and 151 topics, we analyze the retrieval effectiveness of these approaches and analyze the poor retrieval results of hard topics.

Résumé automatique de texte avec un algorithme d'ordonnancement.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d’apprentissage numérique spécifique à la tâche d’ordonnancement. L’objectif est d’extraire les phrases d’un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d’un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée.

RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons dans cet article à la construction de profils issus à la fois des données d’interaction des utilisateurs (notes sur les produits) et des données textuelles associées (revues). L’enjeu est de s’éloigner des approches de factorisation matricielle pour mieux exploiter les données textuelles. Nous proposons de personnaliser une architecture de réseau de neurones hiérarchique dédiée à la classification de sentiments en apprenant des paramètres d’attention spécifiques pour les différents utilisateurs.

« Hé Manu, tu descends ? » : identification nommée du locuteur dans les dialogues

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’identification du locuteur est la tâche qui consiste à associer un locuteur à chaque tour de parole d’un dialogue, utilisée notamment pour enrichir les corpus de transcriptions automatiques.Le traitement de la tâche peut totalement différer selon le média : vidéo (films, séries, etc.), audio (séries, radio, etc.) ou textuel (scripts, transcriptions, etc.). Dans cet article, nous proposons une méthode d’identification du locuteur à partir des scripts et transcriptions de séries.

Apprentissage d'ordonnancements en recherche d'information structurée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons un modèle d’apprentissage pour la Recherche d’Information Struc- turée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnancement et en combinant des scores calculés sur des parties de documents et leur contexte structurel.

Co-citations sur le Web : Recherche de Similarité entre les Articles Scientifiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous introduisons une nouvelle méthode pour estimer la similarité entre les articles scientifiques en utilisant un moteur de recherche sur le Web. Dans cette mé- thode, la similarité entre deux articles est basée sur le nombre de fois où ils sont mentionnés ensemble sur le Web. Cette méthode est appelée la méthode des co-citations sur le Web. Nous avons fait des expérimentations pour comparer la performance de différentes méthodes de cita- tions: couplage bibliographique, co-citation traditionnelle avec la base de données de citation Web of Science, et notre méthode co-citations sur le Web avec le moteur de recherche Google.

Nommage non-supervisé des personnes dans les émissions de télévision : une revue du potentiel de chaque modalité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’identification de personnes dans les émissions de télévision est un outil précieux pour l’indexation de ce type de vidéos. Mais l’utilisation de modèles biométriques n’est pas une op- tion viable sans connaissance a priori des personnes présentes dans les vidéos. Les noms cités à l’oral ou écrits à l’écran peuvent nous fournir une liste de noms hypothèses. Nous proposons une comparaison du potentiel de ces deux modalités (noms cités ou écrits) afin d’extraire le nom des personnes parlant et/ou apparaissant.

On the use of Clustering and the MeSH Controlled Vocabulary to Improve MEDLINE Abstract Search.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les bases de données génomiques contiennent de l’ information structurée en plus de l’information textuelle que l’on trouve dans les titres et les résumés d’articles. Les techniques de recherche d’information non-structurée ne sont pas adaptées à l’exploitation de cette information structurée. Cet article décrit une technique d’amélioration des méthodes de recherche traditionnelles qui sépare un résultat initial de recherche en deux groupes à l’aide de l’information structurée disponible. L’hypothèse avancée est que les documents les plus pertinents se trouveront dans le groupe le plus densément peuplé, conformément à l’hypothèse de groupement de van Rijsbergen.

Regroupements non-disjoints de mots pour la classification de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article, nous proposons une méthode de regroupement de mots, basée sur l’algorithme PoBOC (Pole-Based Overlapping Clustering) autorisant les recouvrements entre les groupes.

Similarité textuelle pour l’association de documents journalistiques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article étudie l’association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s’avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l’association de documents, quelle que soit la configuration d’association média.

Utilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente FIDJI, un système de questions-réponses pour le français, com- binant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi que des techniques spécifiques permettant de répondre à différents types de questions (comme les questions attendant des réponses multiples (liste) ou une réponse booléenne).

Apport des services Web dans l'amélioration de l'accès à l'information sur le Web ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La difficulté à trouver de l’information sur le Web croît et ceci même pour les plus experts des utilisateurs. Afin de mieux comprendre comment recherchent les internautes, nous avons observé cinq adultes et quatre enfants. Des protocoles d’observation différents, présentant tous deux des recherches imposées et libres, ont été définis pour les enfants et les adultes. Nous avons pu définir un certain nombre de comportements, d’attitudes et de difficultés. Le résultat de ces observations ainsi que l’analyse des comportements sont présentés dans ce papier dans le but d’introduire la contribution des services Web dans l’aide à l’accès à l’information et à la recherche sur le Web.

Apprentissage de Relations entre Concepts - Génération Automatique d'une Structuration Hiérarchique à partir de Corpus.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous étudions comment apprendre automatiquement à partir de corpus, des hiérarchies de concepts obéissant à une relation du type généralisation / spécialisation. Nous proposons une méthode qui permet à partir de concepts identifiés automatiquement sur un corpus de documents, d’apprendre des relations généralisation / spécialisation à partir de cooccurrence de ces concepts, puis de construire une hiérarchie ordonnée suivant cette même relation. A titre d’application, nous montrons comment utiliser cette hiérarchie de concepts pour construire une hiérarchie de documents.

Apprentissage en temps réel pour la collecte d'information dans les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous nous intéressons à la collecte d’information dans les réseaux sociaux. Cette tâche, primordiale pour de nombreuses applications, se heurte souvent à diverses contraintes liées aux ressources à disposition ou à des restrictions imposées par les API des médias considérés. Nous formulons cette tâche comme un problème de sélection dynamique de sources, pour lequel nous proposons une méthode d’apprentissage pour orienter la collecte vers les données les plus pertinentes en fonction d’un besoin spécifié.

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les architectures neuronales basées sur l’attention, telles que le Transformer, ont ré- cemment suscité l’intérêt de la communauté scientifique et ont permis d’obtenir des progrès im- portants par rapport à l’état de l’art dans plusieurs domaines. L’adaptation des Transformers à la tâche de la génération de questions n’est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l’effet des mécanismes de copie, de remplacement d’entité nommée ainsi que l’intégration de représentations de mots contextualisées.

Auto-complétion de requêtes par une base générique de règles d'association triadiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’exploitation des réseaux sociaux et systèmes collaboratifs dans le cadre d’un pro- cessus de recherche d’information est un phénomène qui peu à peu est intégré aux pratiques de la recherche sur Internet. Ces systèmes, émergeants de l’ère du Web 2.0, permettent aux parti- cipants de collaborer via l’indexation libre du contenu à l’aide de mots-clés, les tags ; créant ainsi des structures légères représentées comme des hypergraphes tripartites d’utilisateurs, de tags et de ressources, appelées folksonomies.

Catégorisation libre d’extraits musicaux et analyse automatique

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit le protocole expérimental et les résultats obtenus lors d’une expérience de catégorisation. Cette expérience s’inscrit dans le cadre de travaux de recherche sur la recommandation musicale personnalisée et basée sur le contenu. Durant cette expérience, les volontaires ont dû catégoriser librement des extraits musicaux sélectionnés selon des critères musicologiques. Cette catégorisation est analysée via un dendrogramme représentant la u classification moyenne des participants ». Une analyse automatique des résultats menée a posteriori vise à identifier les paramètres acoustiques déterminants dans cette classification moyenne.

Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous évaluons diverses approches pour filtrer le contenu u procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la collection d’entraînement.

Evaluation de diverses stratégies de désambiguïsation lexicale.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans la campagne d’évaluation CLEF-2008, la tâche u robuste » fournissait un corpus enrichi en langue anglaise. Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNetTM (numéro de classe d’un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l’ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d’enracineur.

Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les documents manuscrits arabes présentent des défis spécifiques pour la Abstract None

Filtrage collaboratif et intégration de la polarité des jugements.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons à la recommandation par des systèmes de filtrage collaboratif. Nous proposons de combiner une approche globale basée sur une factorisation matricielle et une approche locale basée sur l’exploitation directe d’un voisinage de l’utilisateur. L’hypothèse explorée dans l’article est que les jugements utilisateurs ont une sémantique et donc une utilité différente suivant qu’ils sont positifs ou négatifs. Nous proposons un modèle qui exploite cette polarité et apprend à pondérer l’influence de ses voisins en se basant sur des caractéristiques de polarité.

Modèles d'information pour la recherche multilingue.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons dans cet article plusieurs extensions multilingues des modèles d’infor- mation, en particulier le modèle log-logistique (LL) et le modèle Smoothed Power Law (SPL), récemment introduits en recherche d’information (Clinchant et al., 2010). Ces extensions sont fondées sur (a) une généralisation de la notion d’information utilisée dans ces modèles, (b) une généralisation des variables aléatoires utilisées et (c) une expansion de la requête utilisant l’en- semble des traductions de chaque mot.

Phrases Visuelles pour l'annotation automatique d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’annotation automatique d’images photographiques est un problème complexe. En ef- fet, les caractéristiques visuelles des objets d’une classe varient selon l’instance considérée et les conditions de prise de vue. Nous proposons dans cet article une caractérisation visuelle des parties d’objets appelées ‘Phrases Visuelles’, robuste à ces variations. Une Phrase Visuelle est un ensemble de régions d’intérêts construit suivant des critères prédéfinis; un critère proposé et étudié ici est de nature topologique.

Propositions pour la pondération des termes et l'évaluation de la pertinence des éléments en recherche d'information structurée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information dans des corpus de documents structurés doit faire face à de nombreuses problématiques. L’une d’elles concerne l’évaluation de la pertinence des élé- ments : le but est de renvoyer à l’utilisateur une liste triée de résultats. Cette évaluation repose sur la pondération des termes d’indexation utilisée ainsi que sur le modèle suivi pour la mise en correspondance de la requête et des éléments. Dans cet article, nous nous proposons d’explorer diverses pistes pour répondre à ce problème, parmi lesquelles on peut citer l’introduction du contexte des éléments à divers niveaux de granularité.

Recherche visuo-textuelle d'images sur le Web améliorée par sélection de la dimension.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une méthode pour améliorer la recherche d’images sur le web dans le cas de requêtes bimodales composées de quelques mots et de quelques images. Pour chaque page web et chaque requête, une moyenne pondérée fusionne les distances textuelles basées sur tfidf et les distances visuelles. Nous montrons alors que cette recherche bi- modale d’images peut être optimisée en analysant simplement des images récupérées en ligne par des requêtes purement textuelle sur un moteur classique de recherche d’images sur le web.

Vers une détection en temps réel de documents Web centrés sur une entité donnée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La tâche de désambiguïsation des entités nommées consiste à lier une mention ambiguë d’une entité dans un document à l’entité correspondante dans une base de connaissances. Dans ce travail, nous nous plaçons dans un cadre applicatif ‘inverse’ et nous ajoutons une contrainte temporelle : nous souhaitons surveiller un flux de nouveaux documents Web et déterminer quels sont ceux mentionnant une entité donnée tout en mesurant l’importance de l’information conte- nue.

Apport du Web et du Web de Données pour la recherche d'attributs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons dans cet article aux requêtes de type entité pour lesquelles on souhaite renvoyer un ensemble d’attributs (propriétés). Ces attributs peuvent être collectés à partir de plusieurs sources et agrégés dans un seul document. Par exemple, l’entité ‘France’ peut avoir les attributs ‘Langue officielle: Français’, ‘Villes:Paris, Toulouse, Lyon, …’ et ‘Population: 65350000 (en 2012)’. Un attribut peut être monovalué ou multivalué, et peut éven- tuellement dépendre d’autres dimensions.

Architecture siamoise et embeddings de triplet pour la validation de relations

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La reconnaissance qu’une relation existe entre deux entités mentionnées dans un texte joue un rôle vital en extraction d’information (EI). Pour répondre à la nécessité d’annoter ma- nuellement de nombreux exemples, des paradigmes de supervision distante et d’EI non super- visée ont été proposés. Le point crucial dans ces approches est de pouvoir évaluer la validité des relations extraites. Dans cet article, nous proposons une nouvelle architecture neuronale pour modéliser la validation de relations, inspirée des modèles neuronaux pour l’implication textuelle.

Corpus-Based vs. Model-Based Selection of Relevant Features.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le travail que nous présentons ici a pour but la comparaison de méthodes de sélection Abstract In this contribution, we review a number of approaches to feature selection, divided in two broad classes. Some are corpus-based, ie they use only the data to assess the relevance of each feature, and aim at identifying a small subset of relevant features on which to train categorisation models. Others are model-based, ie they assess the relevance of each feature on the basis of the model used for categorisation.

De l'importance des synonymes pour la sélection de passages en question-réponse.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de question-réponse développés actuellement adoptent pour la plupart et à peu de chose près le même type d’architecture que l’on peut schématiser en trois modules : l’analyse de la question, la sélection des documents, l’extraction de la réponse. Mais ce en quoi ils diffèrent, ce sont les outils (moteur d’indexation, analyseurs…) et les bases de connaissances qu’ils utilisent. Pour chacun de ces systèmes, il est donc important d’évaluer l’apport de ces outils ou bases de connaissances.

Distinguer les requêtes pour améliorer la recherche d'information XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’appuie sur une méthode de recherche d’information dans des collections de documents XML. Cette approche est configurable dans le but de pouvoir s’adapter à différents contextes de recherche. Au regard des résultats obtenus lors de différentes campagnes d’évaluations, l’efficacité de la méthode est inégale d’une requête à l’autre. De plus, différentes configurations de la méthode ne conduisent pas à la même efficacité pour la même requête. Nous introduisons dans cet article différents critères pour distinguer différents types de requête.

Kodex ou comment organiser les résultats d'une recherche d'information par détection de communautés sur un graphe biparti?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les Systèmes de Recherche d’Information structurent en général leurs résultats sous la forme d’une liste de documents. Nous pensons qu’il existe une structure plus riche dans ces résultats. En effet, la plupart des graphes obtenus à partir de données réelles (entre autre, les graphes de documents) partagent certaines propriétés structurelles, en particulier une organisation en communautés que nous proposons d’exploiter afin de mieux organiser l’ensemble des documents restitués pour une requête.

Pertinence a Priori Basée sur la Diversit et la Temporalité des Signaux Sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les signaux sociaux associés aux ressources web peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource indépendamment de la requête. Dans cet article, nous nous intéressons particuliè- rement à la temporalité associée à ces signaux ainsi qu’à leur diversité. Nous supposons que l’importance a priori d’un document (ressource) dépend non seulement de la qualité de ces si- gnaux mais aussi de la date de leur création, leur diversité ainsi que la date de publication de la ressource.

Recherche d'images par l'analyse factorielle des correspondances.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). En ADT, l’AFC est appliquée à un tableau de contingence croisant mots et documents. La première étape consiste donc à établir des u mots visuels » dans les images (analogue des mots dans les textes). Ces mots sont construits à partir des descripteurs locaux (SIFT) des images.

Recommandation de séquences d’activités lors d'événements distribués

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le nombre d’événements sociaux augmente de manière significative et les services basés sur la localisation deviennent partie intégrante de notre vie. Ainsi la recommandation de séquences d’activities devient une application émergente importante. Ce problème est crucial dans le cas d’événements distribués (e.g. festival ou croisière) qui rassemblent plusieurs activités concurrentes. Un participant à de tels événements est submergé par le choix de nombreuses activités possibles et fait face au problème de sélection d’activités.

Recommandation par combinaison de filtrage collaboratif et d'analyse de sentiments.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les domaines de la recommandation et de la classification de sentiments sont restés complètement disjoints jusqu’ici: d’un coté, la recommandation exploite les matrices d’inter- action entre les utilisateurs et les produits, sous la forme de notes en faisant l’impasse sur les données textuelles, de l’autre, la fouille d’opinion exploite les revues/notes de consomma- teurs pour construire des modèles d’analyse de documents. Nous proposons dans cet article un modèle exploitant aussi des données d’interaction textuelles présentes dans les revues de consommateurs pour construire un modèle de recommandation novateur et performant.

Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre objectif est d’automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la re- cherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents spécialisés français et japonais, qui nécessite une analyse linguistique poussée.

Retrieval effectiveness study with Farsi language.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le but d’utiliser le persan comme langue de référence, et en utilisant une Abstract Having Farsi as the underlying language and using a test collection of 166,774 documents and 100 topics, this experiment evaluates the retrieval effectiveness of different IR models while using a light and a plural stemmer as well as n-grams and trunc-n indexing strategies. Moreover the impact of stoplist removal is evaluated. According to the obtained

Un gestionnaire de dialogue oral arabe Homme-machine : Réalisation et évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le présent papier, nous proposons un gestionnaire de dialogue oral arabe Homme-machine. Ce travail entre dans le cadre de la réalisation du serveur vocal interactif SARF (Bahou et al., 2008) qui offre des renseignements sur le transport ferroviaire tunisien en langue arabe standard moderne. Le gestionnaire de dialogue, que nous proposons, se base sur une approche structurelle et utilise une grammaire formelle transformée en un automate fini déterministe afin d’assurer le suivi et le maintien du dialogue avec l’utilisateur.

Un modèle syllabique pour la reconnaissance de l'écriture.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous introduisons un nouveau modèle syllabique pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée du Français est proposé pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipedia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède à un décodage en deux passes en exploitant le modèle syllabique proposé.

Une approche d'extraction et de recherche d'information spatiale dans les documents textuels - évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier propose une approche d’Extraction d’Information (EI) et de Recherche d’Information (RI) spatiales dans le cadre de bibliothèques numériques liées au patrimoine culturel local. L’approche proposée (implémentée dans le prototype PIV) est construite autour d’une analyse sémantique de tels corpus et de Abstract This paper deals with Information Extraction and Retrieval in a Geographic oriented Digital Libraries environment. The proposed approach (implemented within PIV prototype) is based on a semantic analysis of digital corpora and free text queries.

Variations axiomatiques pour la recherche d’information personnalisée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse à l’exploitation du profil des utilisateurs pour la recherche d’information dans un réseau social d’annotation (tagging). Nous faisons l’hypothèse que le profil doit être filtré de manière adéquate pour permettre une personnalisation efficace de la requête. Afin d’étudier cette personnalisation d’un point de vue axiomatique, la contrainte d’expansion de requête basée sur le profil est alors définie. Elle décrit le comportement attendu des termes du profil utilisateur qui permettront de personnaliser la requête.

Analyse morphologique fine pour la recherche d'information biomédicale.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le domaine biomédical, l’emploi de termes spécialisés est la clef de l’accès à l’in- formation. Mais dans la plupart des langues indo-européennes, ces termes sont des construc- tions morphologiques complexes. Dans cet article, nous cherchons à identifier les différents éléments de sens composant ces termes et utilisons ces analyses pour améliorer la recherche d’information biomédicale. Nous présentons en particulier une approche automatique combi- nant alignement avec une langue pivot et apprentissage analogique permettant une analyse morphologique fine des termes.

Construction et évaluation d’un corpus pour la recherche d’instances d’images muséales.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente la construction et l’évaluation deux collections d’images et de vidéos d’oeuvres. Ces données proviennent de deux musées : le musée de Grenoble (majoritai- rement des peintures) et le Musée de Lyon-Fourvière (des objets pré-romains et romains). Ces collections contiennent au total 4674 images annotées, correspondant à 784 objets, et 3 heures 7 minutes de vidéos de visites annotées prises à la première personne par 5 visiteurs. Ces collections sont accessibles pour la communauté de recherche afin d’évaluer les systèmes d’an- notation et de recherche d’images et de vidéos.

Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l’apport de l’utilisation de plongements de mots, très populaire actuellement en recherche d’information, est dépendant de l’ensemble d’apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l’utilisation de corpus spécifiques (au niveau sujet ou bien sujet+type de document) ne fournit pas forcément de meilleurs résultats.

Detecting new word meanings: a comparison of word embedding models in Spanish

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les néologismes sémantiques (NS) sont définis comme des mots qui acquièrent une nou- velle signification tout en maintenant leur forme. Compte tenu de la nature de ce type de néolo- gisme, la tâche d’identifier ces nouveaux sens des mots est actuellement effectuée manuellement par des spécialistes des observatoires de néologie. Pour détecter les NS de manière semi- automatique, nous avons développé un système mettant en uvre une combinaison des stratégies suivantes: modélisation de sujets, extraction de mots-clés et désambiguïsation du sens des mots.

Diversité hiérarchique et utilisation d'arbres de concepts pour la recherche d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’images est de plus en plus efficace, mais les résultats similaires ont tendance à se regrouper. Dans cet article, nous montrons comment améliorer la diversité des résultats en prenant en compte la nature intrinsèquement hiérarchique de la diversité. Afin d’ex- ploiter les différents niveaux de granularité de la diversité, nous utilisons une approche basée sur une classification ascendante hiérarchique (CAH). De plus, nous introduisons une nouvelle approche qui exploite une arborescence de concepts.

Dynamiques des popularités dans YouTube.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article est une étude de l’évolution du nombre de vues des contenus dans You- Abstract The goal of this paper is to study the behaviour of view count in YouTube. We first propose several bio-inspired and economy-inspired models for the evolution of the view count of YouTube videos. We show, using a large set of empirical data, that the view count for 90% of videos in YouTube can indeed be associated to at least one of these models, with a Mean Error which does not exceed 5%.

Expansion de requêtes par apprentissage automatique dans un assistant pour la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les outils disponibles de recherche d’information sur le Web ont une approche généraliste, ne prenant pas en compte les caractéristiques de l’utilisateur, ce qui limite la qualité des résultats qu’ils sont susceptibles de fournir. Le système AIRA présenté ici utilise les références documentaires rassemblées par l’utilisateur pour construire un profil le représentant, exploité pour interpréter et filtrer les résultats proposés par les moteurs de recherche. Dans cet article nous nous focalisons sur un algorithme d’expansion de requêtes à l’aide de techniques de l’apprentissage machine, et sur les problèmes par l’évaluation de cette famille de systèmes.

Fusion de multi-modalités et réduction par sémantique latente.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier étudie la ‘sémantique latente’ entre des éléments visuels et textuels d’une collection multimédia, appliquée à deux tâches : (1) la Recherche de Document Multimédia (RDM) contenant des images et du texte ; et (2) l’Annotation Automatique d’Images (AAI). La sémantique latente, habituellement utilisée dans l’indexation textuelle, est mise à profit ici pour faire apparaître des liens entre les descriptions textuelles et visuelles des images. Nous avons ainsi deux contributions principales.

Indexation sémantique et recherche d'information interactive.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Parmi les différentes facettes de la recherche d’information en données textuelles, la recherche d’informations localisées dans l’espace et dans le temps constitue un domaine d’étude à part entière. Celle-ci nécessite en effet, pour l’indexation comme pour la recherche, des analyses linguistiques et des ressources spécifiques. Le projet GéoSem fut le cadre de conception de techniques d’indexation sémantique d’informations géographiques. Ces techniques se trouvent aujourd’hui mises en oeuvre au sein d’un moteur de recherche permettant la localisation intra-documentaire des informations, indexées selon des u axes sémantiques » géographiques (temps, espace et phénomène), sa généricité permettant de le paramétrer pour d’autres axes.

La CTC et son intrigant label « blank » : étude comparative de méthodes d'entraînement de réseaux de neurones pour la reconnaissance d'écriture.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de reconnaissance d’écriture vainqueurs d’évaluations internationales Abstract In recent years, Long Short-Term Memory Recurrent Neural Networks (LSTM-RNNs)

Learning to Extract Answers in Question Answering: Experimental Studies.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d’information soit un corpus donné, soit, comme c’est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d’Extraction d’Information. L’objectif de cet article est d’adapter les techniques d’ap- prentissage automatique utilisées en Extraction d’Information à l’extraction de la réponse.

Recherche approchée d'information dans une base de documents semi-structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en oeuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d’information. Une implémentation exploitant simultanément l’information structurée, i.

Spatio-Temporal Modeling for Knowledge Discovery in Satellite Image Databases.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’extraction automatique des connaissances à partir des images satellitaires dans un contexte spatio-temporel est un défit majeur pour le domaine de la télédétection. Dans ce contexte, nous présentons une approche haut-niveau pour la modélisation des connaissances spatio-temporelles à partir des images satellitaires. Nous proposons, aussi, d’utiliser une seg- mentation multi-approche comportant plusieurs méthodes de segmentation pour améliorer la modélisation et l’interprétation des images. Les expérimentations montrent que les résultats de la segmentation issues de l’approche proposée sont meilleurs que celles des méthodes clas- siques.

Un modèle de recherche d'information collaborative basé sur l'expertise des utilisateurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans ce papier, nous nous intéressons à un contexte de recherche d’information col- laborative où les utilisateurs sont caractérisés par différents niveaux d’expertise du sujet de la requête. Nous proposons un modèle d’ordonnancement de documents intégrant les rôles d’ex- pert et de novice tenant compte de la spécificité de chacun des rôles et assignant un document à l’utilisateur le plus à même de le juger en fonction de son niveau d’expertise.

Une étude de l'impact de la structure sur la recherche multimédia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’inscrit dans le cadre de la recherche XML multimedia, dont l’objectif est de trouver des fragments multimedia pertinents (c’est à dire des fragments XML contenant au moins un autre media que le texte). Dans des travaux précédents, nous avons proposé un modèle pour la recherche de fragments multimedia appliqué au media ‘image’. Ce modèle consiste tout d’abord à trouver les images pertinentes et ensuite, à définir les fragments multimedia pertinents à partir de ces images.

Une Nouvelle Approche d'Expansion Sociale de Requêtes dans le Web 2.0.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article aborde le problème d’expansion de requêtes qui consiste à enrichir les requêtes utilisateurs avec de l’information additionnelle pour maximiser son niveau de satis- faction en prenant en considération son écosystème. Tout en considérant les systèmes de book- marking sociaux, l’approche proposée considère : (i) la similarité sémantique entre les termes qui composent les requêtes, (ii) la proximité sociale entre les termes qui composent les requêtes et les profils utilisateurs construits sur la base des intérêts de l’utilisateur et de ses voisins so- ciaux, et (iii) a la volé, une stratégie pour enrichir les requêtes utilisateurs.

Approche hybride de segmentation de page à base d'un descripteur de traits.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une nouvelle approche hybride pour la segmenta- tion de pages basée sur les composantes connexes et sur l’analyse de régions. Nous décrivons d’abord notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l’image du document binarisée. Ensuite, un modèle de contours actifs est appliqué pour segmenter le reste de l’image en photos et arrière plan.

Bandit contextuel pour la capture de données temps réel sur les médias sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des médias sociaux offrent un accès aux flux de données produites par leurs Abstract Social media usually provide streaming data access that enable dynamic capture of

Combinaison des caractéristiques des termes pour l'extension de requêtes en recherche d'information dans les documents semi-structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En Recherche d’Information (RI), l’utilisateur a souvent recours, pour des raisons de simplicité, à de simples mots clés pour exprimer sa requête. Les requêtes composées de mots clés sont aussi très utilisées dans le cadre de la recherche d’information structurée (c’est à dire dans des documents structurés de type XML), puisqu’elles n’exigent pas une connaissance ap- profondie de la structure des documents. Ces requêtes sont cependant souvent insuffisantes pour décrire les besoins de l’utilisateur.

Du e-commerce au m-commerce : vers une recommandation incrémentale.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de recommandation, et notamment le filtrage collaboratif, sont tradition- nellement utilisés dans les domaines du e-commerce et de la navigation web pour suggérer des ressources pertinentes aux utilisateurs au moment adéquat. Dans des approches dites ‘mo- dèle’, nous pouvons trouver les modèles à base d’usage et les règles d’association. Dans la littérature, ces modèles sont présentés comme des systèmes temps-réel. Ces dernières années, le domaine du m-commerce a émergé, dans lequel les recommandations sont diffusées sur un mobile au lieu de l’écran d’un ordinateur.

Étude de l’informativité des transcriptions : une approche basée sur le résumé automatique

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous proposons une nouvelle approche d’évaluation de l’informativité des transcriptions issues de différents systèmes de Reconnaissance Automatiques de la Parole. Cette approche, fondée sur la notion d’informativité, s’inscrit particulièrement dans le cadre du Résumé Automatique de texte effectué sur ces transcriptions. Nous estimons, dans un premier temps, le contenu informatif des différentes transcriptions. Par la suite, nous explorons la capacité du Résumé automatique de texte pour surmonter la perte informative.

Exploration de l'apport de l'analyse des perceptions oculaires : étude préliminaire pour le bouclage de pertinence

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nos travaux visent à évaluer l’impact potentiel de l’utilisation des perceptions oculaires Abstract Our work aims to evaluate the potential impact of the use of ocular perceptions analysis

Inspiration des sondages d'opinion pour réduire la latence en filtrage collaboratif.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le filtrage collaboratif est l’une des approches les plus populaires des systèmes de recommandation. En filtrage collaboratif, le système cherche à estimer les préférences de l’uti- lisateur actif en exploitant les préférences (les notes) des utilisateurs similaires à cet utilisateur actif : ses voisins. Le filtrage collaboratif fait face au problème de latence : il ne peut recom- mander un nouvel item à des utilisateurs tant que cet item n’a pas été noté un nombre suffisant de fois.

Intérêt des ressources morphologiques pour la recherche d'information précise.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente la construction automatique, le filtrage et la validation d’une ressource morphologique concernant les noms d’agents déverbaux. Cette validation utilise dif- férentes ressources et corpus pour tester l’appartenance des verbes et noms à la même famille morphologique, ainsi que leur lien, méthode qui peut se généraliser à d’autres ressources du même type. Hormis une méthode de construction et d’aide à la validation d’une ressource, nous montrerons l’intérêt de disposer de ressources morphologiques pour la recherche de courts passages en questions-réponses.

Interface pour l'évaluation de systèmes de recherche sur des documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’évaluation des systèmes de Recherche d’Information est depuis le début un des piliers de l’évolution de ce domaine. La qualité de l’évaluation est d’une importance capitale puisqu’elle permet de discriminer les différents modèles entre eux. Il est donc primordial de pouvoir constituer des corpus où les questions et leurs jugements de pertinence associés sont de qualité. Alors qu’avec des documents plats les méthodes sont bien établies, ce n’est plus le cas avec des documents structurés de type XML.

Mise en œuvre d’une base de données graphe pour l’analyse des logs de requêtes en recherche d’information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les travaux présentés dans cet article concernent la mise en oeuvre d’une base de données orientée graphe pour l’étude des reformulations de requêtes réalisées par les utilisa- teurs d’un moteur de recherche. Notre objectif est de rechercher des patrons de reformulation à des fins d’analyse linguistique. Nous nous sommes appuyés sur un log de connexion issu d’un moteur de recherche associé à la librairie digitale Revue.org. Après avoir extrait les sessions de recherche, nous avons défini plusieurs types de liens pouvant être extraits des reformulations et nous avons créé une base de données orientée graphe avec ces données.

Recherche d'images en mobilité : le système IOTA-EyeSnap.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit le système IOTA-EyeSnap, un système de recherche d’images mobile appliqué à la recherche de photographies de peintures dans le cadre du projet CLICIDE. Ce système repose sur un enchaînement d’approches probabilistes : la première à base de modèle de langue sur des graphes représentant les images, et la seconde à base de modèles bayésiens. Nous détaillons les contraintes et les choix réalisés. Ils sont adaptés à la mobilité dans un cadre muséal.

Recherche de conversations dans les réseaux sociaux : modélisation et expérimentations sur Twitter.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La problématique étudiée dans cet article est celle de l’indexation et de la recherche de conversations dans les réseaux sociaux. Une conversation est un ensemble de messages échangés entre utilisateurs, à la suite d’un message initial. La démarche proposée se base sur une modélisation probabiliste, et détaille en particulier l’utilisation d’informations sociales dans le réseau Twitter. Notre proposition est évaluée sur un corpus de conversations contenant plus de 50 000 tweets, et sur un ensemble de 15 requêtes tirées pour partie des campagnes TREC Microblog (Lin et Efron, 2013).

Recherche par le contenu dans des documents audiovisuels multilingues.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons dans cet article une approche basée sur l’utilisation de l’Alpha- bet Phonétique International (API) pour l’indexation et la recherche par le contenu de docu- ments audiovisuels multilingues. L’approche fonctionne même si les documents contiennent des langues inconnues. Elle a été validée dans le cadre de la compétition u Star Challenge » sur les moteurs de recherche organisée par l’Agence A*STAR de Singapour. Notre approche comprend la construction d’un modèle acoustique multilingue basé sur l’API et une méthode fondée sur la programmation dynamique pour la recherche de segments de documents par u détection de chaînes API ».

Une métrique pondérée pour la recherche textuelle d'images dans des documents semi-structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La naissance du standard XML et l’utilisation de plus en plus fréquente des images dans les documents électroniques ont soulevé une nouvelle problématique en recherche d’infor- mation: la recherche d’images dans des documents semi-structurés. Cet article s’inscrit dans ce contexte et présente une méthode permettant de calculer une re- présentation sémantique de l’image en utilisant le texte et la structure des documents. Plus précisément, nous proposons une mesure pour calculer la participation de chaque élément du document dans cette représentation.

Utilisation du réseau sémantique de l'UMLS pour la définition de types d'entités nommées médicales.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les entités nommées (EN) sont des objets importants pour les systèmes de Questions- Réponses (QR). Cependant, les types d’EN habituels couvrent des concepts très généraux : dates, lieux géographiques, noms de personnes, etc. Pour un système de QR dédié à la méde- cine, il serait utile de disposer de types plus spécifiques. Une hiérarchie de types de concepts médicaux est définie dans l’UMLS, une grande base terminologique médicale produite par la NLM.

Vers une stratégie de recherche d'information structurée basée sur lacomparaison d'arbres.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une approche statistique de comparaison d’arbres adaptée à la recherche d’information structurée. Elle consiste à associer l’indexation des structures des documents XML à l’indexation de leurs contenus et d’utiliser le double index résultant dans un processus de recherche. La recherche s’effectue en utilisant des structures issues des arbres document et requête et retourne un ensemble de fragments dont la strcture et le contenu sont semblables à la structure originale de la requête.

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Un des principaux challenge de la Recherche d’Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L’utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l’information qu’il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents.

Algorithmes de bandit pour les systèmes de recommandation : le cas de multiples recommandations simultanées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de recommandation (SR) à tirages multiples font référence aux SR qui recommandent plusieurs objets aux utilisateurs. La plupart des SR s’appuient sur des modèles d’apprentissage afin de décider les objets à recommander. Parmi les modèles d’apprentissage, les algorithmes de bandit offrent l’avantage de permettre d’apprendre tout en exploitant les éléments déjà appris. Les approches actuelles utilisent autant d’instances d’un algorithme de bandit que le SR doit recommander d’objets.

Apprentissage actif pour l'annotation de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement ex- traites, d’autres collections plus complexes et hétérogènes nous ont amenés à déployer des méthodes d’apprentissage automatique. Dans les cas réels nous sommes souvent confrontés au problème technique de la non disponibilité de corpus annotés, pour des tâches d’annotations spécifiques.

Apprentissage de fonctions d'ordonnancement par classification de paires ordonnées et pondérées (OWPC).

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Apprendre les fonctions d’ordonnancement pour les moteurs de recherche est une tâche difficile parce que les critères d’évaluations généralement utilisés sont difficilement opti- misables directement. Dans ce cas, nous sommes contraints d’optimiser une fonction d’erreur d’ordonnancement qui en est proche. Dans ce papier, nous proposons de définir une fonction d’erreur d’ordonnancement en utilisant un opérateur d’agrégation convexe des erreurs de clas- sification sur les paires appelé OWA (Yager, 1988) qui suivant son paramétrage peut donner un poids plus important aux erreurs commises au début de la liste.

Classification dynamique par treillis de concepts pour la recherche d'information sur le web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’analyse de concepts formels (ACF) permet d’organiser des objets en fonction de leurs propriétés. Des travaux récents ont utilisé l’ACF pour réorganiser, sous la forme d’un treillis de concepts, les réponses fournies par un moteur de recherche du web. L’utilisateur na- vigue dans le treillis pour explorer un résultat structuré et synthétique. Or, un tel treillis contient des concepts qui sont pertinents par rapport à une tâche de recherche d’information donnée et d’autres qui ne le sont pas.

Construction de profils folksonomiques pour la Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode qui exploite les folksonomies pour prendre en compte les profils de l’utilisateur lors de sa recherche d’information. Une folksonomie est constituée d’un ensemble de relations associant un utilisateur, une ressource et le mot-clé que le premier a utilisé pour tagger la seconde. L’idée consiste à construire un recouvrement de ces relations folksonomiques par un ensemble de micro-folksonomies qui relient des groupes d’utilisateurs, un vocabulaire de tags et un ensemble de ressources et qui généralisent ainsi les relations folksonomiques initiales.

Évaluation de la robustesse des descripteurs de texture pour la segmentation des images de documents anciens.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans la littérature, le choix d’utiliser des descripteurs de texture pour guider la segmentation Abstract For the segmentation of ancient digitized document images, it has been shown that texture feature analysis is a consistent choice for meeting the need to segment a page layout un- der significant and various degradations. In addition, it has been proven that the texture-based approaches work effectively without hypothesis on the document structure, neither on the doc- ument model nor the typographical parameters.

GRAD: A Metric for Evaluating Summaries

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier vise à proposer une nouvelle métrique pour évaluer les résumés. La plupart de méthodes existantes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise à dépasser les défauts des mesures existantes et s’appuie sur la représentation graphique du texte.

Poursuite de cibles dans l'espace de recommandation - vers un nouveau système de recommandation basé sur le filtrage de Kalman.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une nouvelle approche de système de recommandation basée sur la poursuite de cible à l’aide des filtres de Kalman. Nous supposons que les utilisateurs et leurs consommations de télévision (films, séries, émissions, etc.) sont représentés par des vecteurs dans l’espace multidimensionnel des genres des contenus (action, aventure, divertissement, etc.). Connaissant cet espace, nous proposons un algorithme basé sur les filtres de Kalman pour poursuivre le profil de l’utilisateur et prédire ses positions futures dans l’espace multidimensionnel des genres.

Prédiction automatique d’emojis sentimentaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans les messageries sociales les emojis sont parmi les principaux vecteurs d’émo- tions et de sentiments des individus. Aujourd’hui, les utilisateurs naviguent dans des biblio- thèques contenant souvent des milliers d’emojis pour sélectionner celui correspondant à ce qu’ils souhaitent transmettre. Nos travaux visent à développer un système de recommandation automatique d’emoji permettant à l’utilisateur d’identifier un panel réduit d’emojis pertinents étant donnée sa conversation en évitant le parcours de bibliothèques conséquentes d’emojis.

Recommandation et analyse de sentiments dans un espace latent textuel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de recommandation permettent d’aider les utilisateurs à identifier les Abstract Recommender systems were developed to cherry-pick interesting content in an always

Selection of Search Facets.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les recherches par mots clés sur le Web donnent souvent une énorme quantité de pages Web pertinentes. Un cadre qui intègre les avantages á la fois des u mot-clé » et des u facettes » des recherches a des larges avantages pour les utilisateurs Web, car il offre une meilleure or- ganisation des résultats de la recherche et une plate-forme utile pour guider les utilisateurs á trouver les informations pertinentes.

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’ancrage visuel est un domaine de recherche actif dont le but est d’enrichir les repré- sentations vectorielles textuelles à l’aide d’informations visuelles. La plupart des travaux du domaine s’appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s’avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d’apprentissage de re- présentation de phrases qui transfère la structure d’un espace de représentation visuel à un espace textuel tout en préservant les deux espaces.

Un regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cette communication évalue et compare l’efficacité du dépistage de l’information de onze modèles à l’aide de quatre collections de documents rédigés dans les langues française, portugaise- brésilienne, hongroise et bulgare. Pour les deux dernières langues, on compare également l’indexation basée sur des mots à celle reposant sur des quadrigrammes (4-grams). En recourant à quatre tests statistiques et deux règles ad hoc, nous analysons les performances obtenues pour savoir si les différences de performance observées sont significatives.

Utilisation de concepts visuels et de la diversité visuelle pour améliorer la recherche d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous étudions (i) comment extraire et exploiter des concepts visuels pour améliorer la recherche d’images basée sur le texte, et (ii) comment diversifier les résul- tats pertinents obtenus. Nous utilisons d’abord des forêts d’arbre de décisions flous (FFDTs) pour détecter les concepts dans les images, puis nous découvrons à l’aide de l’analyse des cooccurrences des relations d’exclusion mutuelle et d’implication entre les concepts. Ensuite, nous utilisons ces concepts pour améliorer la pertinence des résultats obtenus par un système de recherche d’images par le texte.

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d’autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l’information qu’ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s’affrontent pour la recherche d’information (RI) dans des documents XML. La première est basée sur des méthodes issues de la communauté des bases de données, alors que la seconde étend des techniques utilisées pour RI traditionnelle et permet d’associer des valeurs de pertinences aux unités d’information retournées.

Adaptation de XML et XQuery pour la représentation et l'interrogation des documents multi-structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous traitons dans cet article le problème de l’interrogation des documents à structures multiples, appelés aussi documents multi-structurés. Pour des besoins d’usages variés, plusieurs structurations différentes peuvent être associées à un même document initial. Par exemple, une première structure peut être définie pour organiser logiquement le contenu d’un document tandis qu’une deuxième explicitera les règles de sa mise en forme sur un support physique. Dans de précédents travaux, nous avons proposé une modélisation générique prenant en compte différents aspects de ce type de document.

Analyse de la robustesse des algorithmes de méta-recherche discriminante.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article examine la sensibilité de quatre moteurs de méta-recherche à différents facteurs et contextes d’utilisation. L’accent de l’étude est mis sur les méta-moteurs capables d’apprendre à partir d’exemples. L’apport original de notre travail consiste en une explora- tion systématique sur des corpus de grande taille des performances et du comportement des méthodes d’apprentissage pour la méta-recherche. D’abord, nous nous intéressons au choix de la représentation des attributs (les scores renvoyés par les moteurs de base).

Apprentissage de représentations probabilistes pour la prédiction de diffusions d'informations sur les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La problématique du clustering non supervisé et semi-supervisé est très étudiée dans le domaine de l’apprentissage automatique. En vue d’impliquer l’utilisateur dans le clustering d’images, (Lai et al., 2014) a proposé un nouveau modèle de clustering semi-supervisé inter- actif traduisant les retours de l’utilisateur (exprimés au niveau des images) en contraintes par paires (must-link et cannot-link) entre groupes d’images constitués à l’aide d’une solution de clustering hiérarchique et de ces retours.

Apprentissage statistique pour la constitution des corpus d'évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La constitution de corpus d’évaluation est une étape essentielle pour évaluer la per- formance des systèmes de recherche d’information. Le coût de développement de tels corpus est en général assez élevé à cause en particulier de l’effort humain nécessaire à l’évaluation de la pertinence des documents pour chaque requête. Cette difficulté devient un véritable gou- lot d’étranglement dans le cas de corpus de très grande taille. Le travail que nous présentons vise à sélectionner adaptativement les documents des corpus d’évaluation.

Classification dans les graphes hétérogènes basée sur une représentation latente des noeuds.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux sociaux sont souvent composés de différents types de noeud. Apprendre et inférer sur ces réseaux hétérogènes est une tâche récente. Nous considérons la tâche d’éti- quetage de noeuds dans les réseaux sociaux, où différents types de noeud doivent être étiquetés par différents jeux de catégories ou d’étiquettes. Nous proposons une nouvelle approche trans- ductive qui apprend automatiquement à projeter les différents types de noeud dans un espace latent commun, cette représentation apprise étant utilisée ensuite pour classifier les différents éléments.

Détection de contradiction dans les commentaires.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’analyse des avis (commentaires) générés par les utilisateurs devient de plus en plus exploitable par une variété d’applications. Elle permet de suivre l’évolution des avis ou d’effec- tuer des enquêtes sur des produits. La détection d’avis contradictoires autour d’une ressource Web (ex. cours, film, produit, etc.) est une tâche importante pour évaluer cette dernière. Dans cet article, nous nous concentrons sur le problème de détection des contradictions et de la me- sure de leur intensité en se basant sur l’analyse du sentiment autour des aspects spécifiques à une ressource (document).

Étude comparative de trois ensembles de descripteurs de texture pour la segmentation de documents anciens.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Récemment, des approches basées sur l’analyse des descripteurs de texture ont été largement explorées pour la segmentation d’images de documents anciens numérisés. Il a été prouvé que ces méthodes fonctionnent efficacement en n’ayant pas de connaissances préalables. En outre, il a été démontré qu’elles sont robustes lorsqu’elles sont appliquées sur des documents dégradés ou bruités. Dans cet article, une approche d’évaluation de trois différents ensembles de descripteurs texturaux est présentée pour la segmentation de documents anciens.

Impact du « biais des ex aequo » dans les évaluations de Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article considère la problématique de l’évaluation en Recherche d’Information, en particulier dans le cadre de TREC avec le programme trec_eval . Nous montrons que les systèmes de RI ne sont pas uniquement évalués en fonction de la pertinence des documents qu’ils restituent. En effet, dans le cas de documents ex aequo (trouvés avec le même score) leur nom est utilisé pour les départager. Nous assimilons cette façon de départager les ex aequo à un biais expérimental qui influence les scores attribués aux systèmes, et argumentons en faveur d’une stratégie pour les départager plus équitablement.

Modèle de langue visuel pour la reconnaissance de scènes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d’images. Nous utilisons des régions d’images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d’apprentissage ou de tests.

Modélisation d'évolution de profil utilisateur en recherche d'information personnalisée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Pour satisfaire les besoins d’informations d’un utilisateur et la personnalisation de l’information, Abstract To meet user needs of information and the personalization of the information the use of the user profile has been adopted. This generates the problem of evolution of this profile over time. In this paper is proposed a model of evolution of the user profile based on the temporal Bayesian networks. This model is the result of a repetition over time on a sequence of T length, of a basic network representing a search activity characterized by the request submitted at t time and the user interest corresponding with the relevant documents and the terms of the index.

Modelling XML retrieval with belief functions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à la recherche de documents XML. Un cadre générique qui permet la représentation de connaissances partielles dans les processus d’indexation et de recherche est tout d’abord présenté. Ce modèle est basé sur la théorie des fonctions de croyance et permet de décrire plusieurs formes d’incertitude sur le contenu et la structure des documents XML. Par ce biais, la méthodologie autorise l’utilisation de requêtes qui permettent la spécification de contraintes sur la structure des documents recherchés.

Personnalisation flexible d'un processus de recherche d'information mobile.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le passé, les modèles de recherche personnalisés ont été principalement fondés sur le contexte cognitif (Url visitées, les documents vus) de l’utilisateur indépendamment de son environnement caractérisé par le lieu, le temps, les personnes proches, etc. Dans cet ar- ticle nous proposons une approche de personnalisation des résultats de recherche Web pour des utilisateurs mobiles en exploitant à la fois le contexte cognitif et spatio-temporel. Nous proposons de modéliser l’utilisateur par un profil flexible construit selon trois dimensions sé- mantiques : temps, localisation et centres d’intérêt.

Réseaux de neurones convolutifs de quaternions pour l'identification de thèmes de conversations téléphoniques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux de neurones convolutifs de quaternions (QCNN) forment un ensemble d’algorithmes Abstract Quaternion convolutional neural networks (QCNN) are powerful architectures to learn and model external dependencies that exist between neighbor features of an input vector, and internal latent dependencies within the feature. This paper proposes to evaluate the effecti- veness of the QCNN on a realistic theme identification task of spoken telephone conversations between agents and customers from the call center of the Paris transportation system (RATP).

Suggestion contextuelle composite.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La suggestion contextuelle consiste à recommander à un utilisateur un ensemble de lieux d’activités adaptés à ses préférences et à son contexte. La plupart des approches existantes considèrent uniquement ces deux caractéristiques pour constituer leur liste de suggestions. Ce- pendant, les recherches en systèmes de recommandation ont récemment souligné l’importance de la diversité des suggestions. Cet article présente un modèle novateur de suggestion contex- tuelle inspiré de la recherche composite qui consiste à regrouper les suggestions en différentes grappes thématiquement cohésives.

TournaRank : Quand la Recherche d’Information devient un tournoi entre documents

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nombreuses approches supervisées utilisant les caractéristiques des documents ont été proposées pour l’ordonnancement de documents. Un inconvénient est qu’elles requièrent une phase d’apprentissage. Dans cet article, nous proposons TournaRank, une approche non supervisée d’ordonnancement de documents inspirée des compétitions sportives. Les documents sont représentés par un ensemble de caractéristiques et s’affrontent lors de tournois. Un tournoi est vu comme une séquence de matchs au cours desquels deux documents s’affrontent sur la base des valeurs de leurs caractéristiques.

Utilisation de la langue naturelle pour l'interrogation de documents structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le langage de requête est l’indispensable interface entre l’utilisateur et l’outil de re- cherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des do- cuments plats, il devient fort complexe lorsqu’il s’adresse à des documents structurés et qu’il s’agit de définir des contraintes portant à la fois sur la structure et le contenu. L’approche ici- décrite propose d’utiliser la langue naturelle comme interface pour exprimer de telles requêtes.

A Document Frequency Constraint for Pseudo-Relevance Feedback Models.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous étudions dans cet article le comportement de plusieurs modèles de rétro- pertinence en mettant en avant leurs principales caractéristiques. Ceci nous conduit à intro- duire une nouvelle contrainte pour les modèles de rétro-pertinence, contrainte liée à la fré- quence documentaire (DF) des mots. Nous analysons ensuite, d’un point de vue théorique, différents modèles de rétro-pertinence par rapport à cette contrainte. Cette analyse montre que le modèle de mélange utilisé en rétro-pertinence pour les modèles de langue ne satisfait pas cette contrainte.

Browsing Information Retrieval System Results

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’évaluation en recherche d’information (RI) est fondamentale. Depuis les années 70, les chercheurs utilisent un cadre d’évaluation du type de celui proposé dans les projets Cranfield ou TREC pour calculer l’efficacité du système sur des collections de référence. Alors que les résultats numériques sont une pratique courante de comparaison de systèmes, nous pensons que les comparaisons visuelles pourraient aussi être utiles aux chercheurs. À cette fin, nous avons développé une interface qui permet aux scientifiques de RI de comparer l’efficacité de différents systèmes.

Clustering en recherche d'information : concentration vs distribution de l'information pertinente.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé S’appuyant sur la Cluster Hypothesis, qui stipule que les documents pertinents à une requête tendent à être plus proches les uns des autres que des documents non pertinents, la plupart des systèmes de recherche d’information réalisant une catégorisation de leurs ré- sultats visent à regrouper l’ensemble des documents pertinents dans un même groupe. Nous proposons ici, par la mise en place de nouvelles mesures d’évaluation, de reconsidérer les bé- néfices résultant d’une telle concentration de l’information pertinente.

Construction automatique de ressources lexicales pour la fouille d'opinion.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nombreuses méthodes automatiques de fouille d’opinion s’appuient sur un lexique dans lequel à chaque entrée est associé un degré de polarité. La construction de telles ressources linguistiques est donc devenue un champ de recherche important en linguistique computationnelle. Des techniques automatiques, basées sur les similarités sémantiques entre les mots dont on veut estimer la polarité et des mots dont la polarité est connue, ont été développées ces dix dernières années et leur efficacité a été confirmée.

Contexte et sémantique pour une indexation de documents semi-structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les documents semi-structurés comme les documents XML présentent l’avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l’information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d’exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d’Information (RI) n’utilisent pas ou peu la structure des documents alors que les langages de requête issus de la communauté Bases de Données (BD) n’exploitent pas le contenu textuel et ne permettent pas une présentation des résultats par ordre de pertinence.

Définition et exploitation des méta-rôles des utilisateurs pour la recherche d'information collaborative.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information collaborative est un processus particulier impliquant un Abstract Collaborative information retrieval is a particular setting involving a set of users

Evaluer le passage à l'échelle dans des environnements à pertinence multivaluée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La croissance continuelle et exponentielle des volumes d’information numérique affecte principalement des domaines comme celui de la Recherche d’Information (RI). Toutefois, peu de travaux en RI ont jusqu’alors abordé les questions d’efficience et d’efficacité des sys- tèmes de RI dans le contexte du passage à l’échelle dans la taille des corpus. Face à la masse grandissante d’information, il est préférable du point de vue de l’utilisateur moyen que les documents retournés soient classés par ordre de pertinence décroissante ; ce qui implique de prendre en compte de multiples niveaux de pertinence pour les documents.

Fusion des réponses de systèmes de question-réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réponses données par plusieurs systèmes de questions-réponses proviennent de l’application de stratégies différentes, et de ce fait permettent de répondre à des questions différentes. La combinaison de ces systèmes vise alors à accroître le nombre total de questions résolues. Cet article présente la combinaison de trois systèmes : QAVAL, qui s’appuie sur un module de validation de réponses et deux versions du systèmes RITEL qui s’appuie sur une analyse multi-niveaux appliquée aux questions et aux documents.

Involving Validity Indices in Document Clustering.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract The goal of any clustering algorithm is to find the optimal clustering solution with the optimal number of clusters. In order to evaluate a clustering solution, a number of validity indices are used during or at the end of a clustering process. They can be internal, external or relative. In this paper, we provide two main contributions: First, we present an experimental study comparing the major relative indices in the context of document agglomerative cluster- ing.

L'Agrégation en Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier donne une nouvelle présentation des modèles standards de la recherche d’information, décrits selon deux dimensions. La première porte sur les sources d’évidence qu’utilisent les modèles et la manière dont ils les agrègent pour mesurer l’importance ou le poids d’un terme dans un document. La seconde concerne la manière dont ces poids sont agré- gés pour calculer un score de pertinence. Les mécanismes d’agrégation utilisés dans les deux cas sont alors explicités et critiqués motivant le recours à une nouvelle famille de méthodes basées sur de nouveaux mécanismes d’agrégation plus adaptés.

Les Signaux Sociaux Émotionnels : Quel impact sur la recherche d’information ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Une grande partie des traces des utilisateurs exprimées par des signaux sociaux (ex. j’aime, +1, rating) sont attribuées aux ressources web. Ces signaux sont souvent exploités par les systèmes de RI comme des sources d’évidence additionnelles pour trier les résultats de recherche. Notre objectif dans cet article est d’étudier l’impact des nouveaux signaux sociaux, appelés Facebook reactions (j’adore, haha, grrr, wouah, triste) sur le tri de ces résultats. Ces réactions permettent aux utilisateurs d’exprimer des émotions plus nuancés par rapport aux signaux classiques (ex.

Modèles de RI fondés sur l'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans une premier temps, nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d’ordonnancement (retrieval function): ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d’information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une définition formelle.

Recherche d'Information Sociale en Langue Arabe : Cas de Facebook

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche de recherche d’information (RI) en langue arabe sur Facebook, qui exploite toutes les traces des utilisateurs (ex. polarité, partage, j’aime, haha) laissées sur des publications Facebook pour estimer leur importance sociale. Notre objectif est de montrer comment ces signaux peuvent jouer un rôle vital dans l’amélioration de la recherche en langue arabe sur Facebook. Premièrement, des polarités (positive ou négative) portée par les signaux textuels (ex.

Recherche d'information XML utilisant un principe de vote.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit une approche pour la recherche d’information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méthode proposée a été expérimentée et évaluée dans le cadre de la campagne INEX 2004.

Segmentation de flux de documents. Application aux documents administratifs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche de segmentation supervisée de flux de documents. L’approche traite le flux de documents comme une suite de paires de pages et étudie la relation qui existe entre elles pour déceler une continuité de documents ou une rupture. Dans un premier temps, des descripteurs sont extraits des pages et une approche est proposée pour fusionner ces descripteurs en un seul vecteur qui modélise la relation entre les paires de pages.

Suggestion d'experts pour renouveler le comité de programme d'une conférence.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le processus d’évaluation par les pairs permet de valider les progrès scientifiques communiqués dans des articles de recherche. Cette grande responsabilité repose sur les comités éditoriaux des journaux, sur les comités de programme des conférences et sur chacun de leurs membres. De plus, avec un grand nombre de conférences scientifiques organisées chaque année, la recherche d’experts pour participer au comité de programme devient une tâche fréquente et coûteuse. Dans cet article, nous proposons une modélisation d’expert basée sur différentes preuves d’expertise, notamment sur les citations, pour émettre des suggestions d’experts dans le cas d’une recherche de membres pour renouveler le comité de programme d’une conférence.

Analyse et transformation des questions médicales en requêtes SPARQL.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La conception des systèmes de questions-réponses nécessite une analyse profonde des questions posées. Cette tâche primordiale requiert d’être étudiée et évaluée séparément. Dans cet article, nous nous intéressons à l’analyse de questions en domaine médical. Plus pré- cisément, nous étudions la transformation de questions posées en langage naturel en requêtes basées sur un langage formel. Cette étude examine trois points clés : (i) Quelles sont les car- actéristiques d’une question médicale, (ii) Quelles sont les méthodes les mieux adaptées pour l’extraction des informations utiles et (iii) Comment transformer les informations extraites en une représentation formelle.

Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous proposons une technique à base d’apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypo- thèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec l’al- gorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite représentés dans l’espace de ces groupes de termes.

Classification active de flux de documents avec identification des nouvelles classes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d’apprentis- sage non supervisé, permet de repérer les documents les plus informatifs à l’aide d’une mesure d’incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d’un graphe à topologie dynamique dont les noeuds sont des représentants de docu- ments étiquetés, formant ce qu’on appelle l’’espace couvert par les classes connues’.

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documen- taire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de documents XML en fonction de leur régularités structurelles.

Classification de Sentiments Multi-Domaines et Passage à l'Echelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La classification de sentiments multi-domaines est un problème complexe: en effet, les distributions de caractéristiques sont alors différentes dans les ensembles d’apprentissage et de test. Différentes propositions permettent de limiter la baisse de performance inhérente à ce cadre. Cependant, la classification de sentiments est une tâche particulière car le web participatif nous donne accès à une quasi-infinité de données étiquetées. Cela soulève de nou- velles questions: à partir de quel volume de données les distributions d’apprentissage et de test convergent elles?

Correction de césures et enrichissement de requêtes pour la recherche de livres.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les livres numérisés accessibles sur Internet constituent une importante source d’in- formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d’Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l’impact sur une tâche de recherche de livres. Nous décrivons également une série d’expériences sur l’enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu’utiliser un grand nombre de mots ainsi qu’une répartition adéquate des poids entre la requête initiale et l’enrichissement apporte une amélioration significative par rapport à l’état de l’art.

Critères d'évaluation pour les interfaces des systèmes de recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La visualisation (ou restitution) des résultats d’une recherche est une étape essentielle dans tout processus de recherche d’information. En effet, les interfaces utilisateur d’information servent de lien entre les utilisateurs et les systèmes de recherche d’information, et permettent donc de donner un u sens » aux résultats pour les utilisateurs. Face à l’importance que prend la visualisation des résultats, de nombreuses interfaces (textuelles, 2D ou 3D) ont été proposées depuis une dizaine d’années.

Détection de fausses informations dans les réseaux sociaux : l’utilité des fusions de connaissances.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux sociaux permettent une diffusion massive et rapide des informations. Un Abstract Social networks make it possible to share rapidly and massively information. Yet, one of their major drawback comes from the absence of verification of the piece of information, especially with viral messages. This is the issue addressed by the participants to the Verification Multimedia Use task of Mediaeval 2016. They used several approaches and clues from different modalities (text, image, social information).

Extraction d'un vocabulaire de surprise par mélange de filtrage collaboratif et d'analyse de sentiments.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’informatique subit actuellement une mutation profonde: les améliorations maté- rielles et les grandes quantités de données disponibles fournissent un terrain fertile à la re- cherche en apprentissage automatique. Dans ce contexte, le principal défi est de tenir compte des préférences des utilisateurs pour proposer un accès personnalisé à l’information. Les sys- tèmes de recommandation créent des profils utilisateurs et objets en utilisant les revues utilisa- teurs, et ces profils reflètent les préférences des utilisateurs et les caractéristiques des objets.

Fusion multimodale image/texte par réseaux de neurones profonds pour la classification de documents imprimés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La classification de documents imprimés est une tâche réalisée en entrée de multiples chaînes de traitement et d’analyse d’archives numériques, ce qui en fait un point critique dans de tel systèmes. Afin d’extraire des éléments caractéristiques de chaque catégorie parmi lesquels ces pièces doivent être classés, des données textuelles ou des images sont utilisés. Nous présentons dans cet article une analyse de différentes approches pour la catégorisation de documents exploitant des données textuelles ou des images en entrée, ainsi qu’un système de classification utilisant l’information du texte et de l’image de façon jointe en un modèle de réseau de neurone convolutionnel.

Grammatical Inference and Textual Information Extraction.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’objectif de l’Extraction de Connaissances Textuelles (ECT) est la recherche de mo- tifs intéressants dans les documents. La plupart des techniques employées dans ce domaine n’utilisent pas la structure linguistique, étant donnée le coût d’une analyse morpho-syntaxique (complète) et l’absence du respect des règles grammaticale (langue naturelle) dans ces textes. Dans ce contexte, l’Inférence Grammaticale peut être utilisée pour extraire la structure d’un texte (ou de ses sous-languages) afin de permettre une recherche informée dans une base de données textuelles.

Intégration de règles d'association pour améliorer la recherche d'informations XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La reformulation de requêtes constitue un moyen d’améliorer la recherche d’informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règles d’association dans le système de recherche d’informations que nous avons développé pour les documents XML. Cela présente l’avantage de ne pas dépendre d’une connaissance du domaine préétablie qui n’est pas toujours disponible mais plutôt de s’appuyer sur une connaissance dynamique et cachée.

Modèles d'Ordonnancement pour l'Annotation Automatique d'Images dans les Réseaux Sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons un modèle d’ordonnancement de données relationnelles pour ap- prendre automatiquement à annoter des images dans les sites permettant le partage social d’images. Ce modèle apprend à associer une liste ordonnée d’étiquettes à une image en consi- dérant simultanément l’information de contenu (texte/image) et les informations relationnelles entre les images. Il est capable d’utiliser aussi bien des informations relationnelles implicites comme les similarités visuelles ou les informations relationnelles explicites comme l’amitié entre deux utilisateurs, où le fait que deux images possèdent le même auteur.

Nouveau modèle pour la datation automatique de photographies à partir de caractéristiques visuelles.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons, dans cet article, une méthode de datation de photographies par Abstract We present in this paper, a method for dating photographs by using their visual content.

Régularisation Spatiale de Représentations Distribuées de Mots

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Stimulée par l’usage intensif des téléphones mobiles, l’exploitation conjointe des don- nées textuelles et des données spatiales présentes dans les objets spatio-textuels (p. ex. tweets) est devenue la pierre angulaire à de nombreuses applications comme la recherche de lieux d’at- traction. Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d’objets spatiaux et la définition de fonctions d’appariement entre ces objets. Dans cet article, nous nous intéressons au problème de représentation de ces objets.

Routage sémantique des requêtes dans les systèmes pair-à-pair.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes pair-à-pair (P2P) se sont imposés ces dernières années comme la technologie majeure d’accès à différentes ressources sur Internet. De nombreuses recherche concer- nant la sélection des meilleurs pairs contenant les données appropriées à une requête,ont émergé et constituent un axe de recherche très actif. L’efficacité de la recherche dans ces systèmes, et surtout le cas non structuré, peut être améliorée en introduisant de la sémantique dans le processus de routage des requêtes.

Cascade de CRFs et SVM pour la détection de références bibliographiques diffuses dans les articles scientifiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le contexte d’une bibliothèque d’articles scientifiques, les références bibliographiques Abstract In the context of a library of scientific articles, bibliographic references are a major

Choix d'une mesure d'association pour une extension de requête contôlée : la question de l'orientation de la mesure.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une étude comparative de mesures d’association dans le contexte de la construction automatique de thésaurus. L’étude porte plus particulièrement sur la question de l’orientation de la mesure d’association. Différentes solutions sont distinguées et testées dans le cadre d’une tâche de filtrage adaptatif dans laquelle le thésaurus est utilisé pour sélectionner des termes d’indexation à ajouter au cours de l’apprentissage. Les résultats obtenus sur le corpus OSHUMED montrent une forte influence de l’orientation considérée.

Classification conceptuelle d'une collection documentaire - Intertextualité et Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Une collection documentaire est généralement représentée comme un ensemble de do- cuments mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d’interprétation d’un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d’accès à l’information correspondent à des usages spécifiques et où les documents sont liés par de nombreux types de relations. Cet article propose un modèle permettant de rendre compte de cette complexité des collections do- cumentaire dans les outils d’accès à l’information.

Comparaison des stratégies d'indexation pour les langues asiatiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En recherche d’information, les langues chinoise et japonais présentent des défis multiples. Contrairement aux langues européennes, les mots ne se sont pas délimités de manière explicite ce qui pose un problème pour l’indexation. Pour cette raison, plusieurs travaux ont proposé différentes stratégies pour représenter les documents (et requêtes) rédigés dans ces langues. Cet article présente une comparaison des stratégies d’indexation les plus courantes. En particulier, nous avons comparé quatre stratégies pour le chinois (unigrammes, bigrammes, uni- et bigrammes et finalement les mots), deux pour le japonais (bigrammes et mots) et trois pour le coréen (mots, bigrammes et morphèmes).

Contextualisation automatique de Tweets à partir de Wikipédia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux sociaux sont au centre des communications sur internet et une grande Abstract Social networks are central in nowadays internet communication and community exchanges. The emergence of Twitter led to the creation of a new tool for sharing information, where messages are bound to 140 characters. Publications on this social network are short and straightforward and often sent in real time from mobile phones, which make it difficult to appre- hend without some kind of context.

Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les services sociaux de microblogging jouent un rôle important dans notre société. Twitter est l’une des plateformes de microblogging les plus populaires, utilisées par les in- ternautes pour trouver des informations pertinentes (sujets d’actualité, tendances populaires, informations sur certains internautes, etc.). Dans ce contexte, la recherche d’information pro- venant de telles données a récemment gagné un intérêt majeur et ouvert de nouveaux défis. Cependant, la taille de ces données ainsi que des requêtes est généralement courte et peut avoir un impact sur le résultat de la recherche.

Extraction d'information à partir d'articles médicaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’essentiel de l’information médicale est actuellement accessible dans diverses bibliothèques numériques ou sur le Web. Toutefois, l’usager désire parfois obtenir une information précise mais perdue dans un document spécifique. Dans cet article, nous proposons une approche automatique à ce problème d’extraction d’information. A partir du titre et du résumé d’articles médicaux touchant le domaine de la génétique, notre système s’avère capable d’y extraire le descripteur caractérisant un gène spécifique. Notre stratégie d’extraction, basée sur la régression logistique, a été évaluée sur un corpus de documents lié au forum d’évaluation TREC et a démontré une performance supérieure à la moyenne.

Indexation semi-automatique de textes : thésaurus et transducteurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode de classification ne nécessitant pas de phase d’apprentissage. Son but est d’améliorer l’indexation manuelle des documents textuels, une opéra- tion souvent menée au sein de certains systèmes d’information requérant un niveau de précision élevé. Le système, qui apporte une aide à l’indexeur humain, est semi-automatique. Par analo- gie à la terminologie utilisée en apprentissage automatique, la méthode est dite supervisée car elle exploite une définition préalable des catégories d’indexation.

La visualisation de données relationnelles au service de la recherche d'informations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de la recherche d’informations, la restitution des documents s’effectue selon leur score de pertinence calculé, correspondant à une requête précise. Cependant des questions se posent quant à la représentation des documents et des requêtes ainsi que leur mise en correspondance. Le graphe est utilisé comme moyen de représentation et de visualisation de données, sans nécessiter de pré requis mathématique particulier. Cet article présente les apports de la visualisation d’information à la recherche d’information, en s’attachant au processus de conception d’un outil de visualisation et d’analyse développé par l’équipe SIG/EVI de l’IRIT le prototype VisuGraph.

Modèle neuronal tripartite pour la représentation de documents

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nombreux travaux en recherche d’information (RI) ont montré que l’utilisation des sources d’évidence provenant de ressources sémantiques externes pourrait améliorer la performance de l’appariement. Par ailleurs, les approches neuronales sont devenues des modèles de référence qui permettent de capturer à partir des corpus, la sémantique latente des mots qui peut être injectée dans les modèles RI. Ce papier présente un modèle qui a pour but de réduire le fossé sémantique en RI en combinant ces deux sources d’évidence.

Polarité des jugements et des interactions pour le filtrage collaboratif et la prédiction de liens sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons à l’étude des similarités entre utilisateurs dans des systèmes de filtrage collaboratif, et en particulier à l’exploitation de la polarité (note positive ou négative) des jugements. Nous proposons une mesure qui prend en compte les biais liés à la popularité de l’item et à la propension de l’utilisateur à noter de manière positive ou négative. La validité de cette mesure de similarité est évaluée par le biais de deux tâches (recommendation et prédiction de lien), et montre que ces deux mesures permettent de distinguer trois types de relations entre utilisateurs.

Retweeter ou ne pas retweeter : Le dilemme des portails de diffusion d’information temps-réel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’étude des caractéristiques contextuelles a été largement traitée en Recherche d’Information (RI), mais les applications concrètes sur de vrais flux de données ne sont pas très répandues. Dans cet article, notre problématique concerne la décision automatique de retwee- ter un message. En considérant le centre d’intérêt d’un utilisateur, nous proposons un modèle pour effectuer un filtrage automatique en temps-réel du flux Twitter en utilisant de multiples caractéristiques contextuelles. Le modèle sépare l’aspect contextuel du contenu du message en lui-même, tout en conservant une très grande vitesse d’exécution.

Structuration sémantique des documents XML : Expérimentations et évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La norme XML permet la représentation d’un document selon un découpage logique qui ne reflète généralement pas la sémantique de son contenu. Il serait donc intéressant de compléter la structure logique des documents XML par une structure Abstract The XML standard represents a logical structuring of documents that generally do not reflect the semantics of the content. It would be interesting to complete the logical structure of an XML documents with a semantic structure.

Une approche multi-vue pour l'extraction terminologique bilingue.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente une approche multi-vue pour la traduction de termes de spécial- ité, basée sur un lexique bilingue et un corpus comparable. Nous proposons d’étudier dif- férents niveaux de représentation pour un terme : le contexte, le thème et la graphie. Ces trois approches sont tout d’abord étudiées individuellement, puis combinées afin de sélection- ner les meilleures traductions. Des expériences menées sur la traduction de termes médicaux du français vers l’anglais montrent une amélioration de l’approche classique par contexte, at- teignant une précision de 80,4% de bonnes traductions au rang 1.

Une nouvelle approche pour la modélisation du prol de l'utilisateur dans les systèmes de filtrage d'information basés sur le contenu: le modèle de filtre détecteur de nouveauté.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un mécanismme original pour la modélisation du profil de l’utilisateur dans les systèmes de filtrage d’information basés sur le contenu. Ce mécanisme repose sur un modèle de filtre basé sur la détection de la nouveauté. En exploitant les bouclages de pertinence positif et négatif, ce modèle permet à la fois de construire incrémentalement une représentation synthétique, ou profil, du besoin de l’utilisateur et d’adapter ce profil selon le changement de ses centres d’intérêt.

Validation du type de la réponse dans un système de questions réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de la recherche de réponse à une question posée en langue naturelle dans des textes, de nombreuses questions attendent une réponse d’un certain type. Par exemple la question u Quel président succéda à Jacques Chirac ? » attend en réponse une entité du type président. La méthode présentée dans cet article vérifie que la réponse renvoyée est du bien type cherché. Pour cela elle suit une approche par apprentissage automatique en utilisant trois types de critères.

Améliorer la classification de documents par combinaison de descripteurs visuels et textuels.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La contribution principale de cet article est de proposer une nouvelle méthode de clas- sification des images de documents combinant les caractéristiques textuelles visuelles extraites respectivement avec les techniques des sacs de mots (BoW) et sacs de mots visuels (BoVW). Alors que les tentatives classiques de combinaison telles que celles basées sur le ‘Borda-Count’ aboutissent à des résultats décevants, nous proposons ici une combinaison par apprentissage. Les expériences de cet article ont été réalisées sur une base de données industrielles de 1925 images de document.

Apprentissage de l’évolution langagière dans des communautés d’auteurs

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les modèles de langue sont au coeur de nombreux de travaux, notamment dans les domaines de la recherche d’information et de la fouille de texte. Plutôt qu’une analyse fine de la sémantique des textes, ces modèles statistiques visent à extraire des distributions d’occurrence de mots dans différents contextes. Divers types d’approches ont été proposés dans la littérature, du simple modèle multinomial unigramme à des modèles à variables latentes pour la prise en compte de dépendances complexes dans les textes.

Apprentissage non-supervisé pour la segmentation automatique de textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une approche basée sur des techniques d’appren- tissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l’entité textuelle de base. Notre système découvre d’abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est en- suite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l’efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de

Audit d'une base de documents étiquetée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage Abstract The context of this paper, already presented at ICDAR 2015, is the labelling of a

Classification Supervisée de Questions : Rôle de l'Expansion Sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Fournir de bonnes réponses à une question donnée en cherchant au sein d’un grand corpus de documents est une tâche difficile. Il est nécessaire de percevoir et de reconnaître la question à un niveau qui permet d’imposer des contraintes sur l’ensemble des réponses pos- sibles. Une contrainte fréquemment utilisée est la catégorie des questions qui permet de déduire le type de réponse attendue. L’objectif est de fournir des informations supplémentaires afin de réduire l’écart entre la question et sa réponse.

Contrainte de correspondance Document-Document pour la RI. Application à la Divergence de Kullback-Leibler.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit une contrainte d’un modèle de recherche d’information décrivant les comportement attendu d’un système si un document du corpus est posé en requête, la contrainte DDMC (Document-Document Matching Constraint). Cette contrainte n’étant pas vérifiée par un modèle classique de recherche d’information (modèle de langue basé sur un calcul de néga- tive de Divergence de Kullback-Leibler avec lissage de Jelinek-Mercer), nous présentons une modification de ce dernier modèle qui permet de vérifier DDMC.

Evaluation de la contextualisation de tweets.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse à l’évaluation de la contextualisation de tweets. La contextuali- sation est définie comme un résumé permettant de remettre en contexte un texte qui, de par sa taille, ne contient pas l’ensemble des éléments qui permettent à un lecteur de comprendre tout ou partie de son contenu. Nous définissons un cadre d’évaluation pour la contextualisation de tweets généralisable à d’autres textes courts. Nous proposons une collection de référence ainsi que des mesures d’évaluation adhoc.

Extension du modèle de langue pour la RI avec la position du terme.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des modèles de RI se basent généralement sur la combinaison de trois facteurs dans leur fonction de pondération, qui sont : la fréquence du terme dans le document (TF), la fréquence du terme dans la collection (ou l’IDF) et la taille du document. Quelques approches ont proposé d’intégrer la position du terme dans le document dans l’objectif de surpondérer les termes qui apparaissent au début du document. Dans cet article, nous nous situons dans cette perspective.

Filtrage Collaboratif avec un Algorithme d'Ordonnancement.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé A ce jour, la plupart des travaux en filtrage collaboratif se basent sur la prédiction de notes pour générer des recommandations. Dans ce papier, nous choisissons d’explorer une autre voie, consistant à ordonner correctement les articles selon les goûts des utilisateurs. D’abord, nous définissons une erreur d’ordonnancement qui prend en compte les préférences par paires d’articles. Puis nous construisons un algorithme efficace qui optimise cette erreur. Enfin, nous testons notre approche sur une base standard de filtrage collaboratif.

Introduction du nouveau centre de données biomédicales Décrypthon.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract This paper presents the design and the implementation of the new high performance biomedical data center of the Décrypthon computing grid which provides a strong potential for calculation and storage to high trhoughput biological applications and projects. In order to efficiently share the biological data required by the application, the Décrypthon data center is integrated in the computing grid to provide local databases of nucleotide, genomic and proteomic sequences.

Mining the Web for lists of Named Entities.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les entités nommées jouent un rôle important en extraction d’information. Dans cet article, nous proposons une méthode pour extraire des entités nommées de la même classe au sein de listes HTML. Au lieu de partir d’une classe donnée et d’extraire les entités correspon- dantes, nous proposons une nouvelle approche qui consiste à identifier des ensembles d’entités nommées sans connaître leur classe d’appartenance. Un avantage évident de cette approche est qu’elle peut s’appliquer à tout type d’entité nommée (c’est à dire à des entités nommées de n’importe quelle classe).

Modèle d'indexation dynamique à base d'ontologies.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose un modèle de données pour une indexation basée sur une ontologie de référence représentant la sémantique des termes d’indexation. Le modèle proposé vise à permettre une indexation en temps réel qui suit la dynamique du corpus tout en assurant la disponibilité des documents et de l’index. Ceci permet de garder la cohérence entre les documents de la collection, l’index et l’ontologie de référence. Notre modèle permet ainsi d’éviter la reconstruction de l’index lors de la modification du corpus de documents car il reste à jour en permanence.

OBIRS-feedback, une méthode de reformulation utilisant une ontologie de domaine.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les performances d’un système de recherche d’information (SRI) peuvent être dégradées en termes de précision du fait de la difficulté pour des utilisateurs à formuler précisément leurs besoins en information. La reformulation ou l’expansion de requêtes constitue une des réponses à ce problème dans le cadre des SRI. Dans cet article, nous proposons une nouvelle méthode de reformulation de requêtes conceptuelles qui, à partir de documents jugés pertinents par l’utilisateur et d’une ontologie de domaine, cherche un ensemble de concepts maximisant les performances du SRI.

Personnalisation de l'information: aperçu de l'état de l'art et définition d'un modèle flexible de profils.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de la personnalisation est de faciliter l’expression du besoin de l’utilisateur et de lui permettre d’obtenir des informations pertinentes lors de ses accès à un système d’information. La pertinence de l’information se définit par un ensemble de critères et de préférences personnalisables spécifiques à chaque utilisateur ou communauté d’utilisateurs. Les données décrivant les utilisateurs sont souvent regroupées sous forme de profils. Le contenu du profil d’un utilisateur varie selon les approches et les applications.

Question-Réponse multilingue : influence du multilinguisme et stratégies.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un système de question-réponse bilingue, capable de traiter des questions en français en cherchant la réponse dans des documents en anglais (ou potentielle- ment l’inverse). Deux stratégies de passage d’une langue à l’autre y sont décrites et évaluées. Ces stratégies concernent à la fois la recherche d’information dans le corpus et l’extraction de la réponse. Dans un premier temps, nous étudions l’apport de la traduction de bitermes, et l’influence de la complétion des dictionnaires de traduction.

Une méthode collaborative pour identifier les spams: contribution à la qualité de l’information dans les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Contrer les actions des utilisateurs mal intentionnés dits “spammeurs” est un réel défi pour maintenir un haut niveau de performance dans les applications mises en oeuvre dans les réseaux so- ciaux. Les méthodes conventionnelles de détection de spams imposent des délais de traitement impor- tants et inévitables, allant par exemple jusqu’à des mois pour traiter de grandes collections de tweets. Ces méthodes entièrement dépendantes de l’approche d’apprentissage supervisé choisie pour produire des modèles de classification, requièrent un ensemble de données vérité terrain qui n’est pas disponible pour ce type d’applications.

À la recherche des paramètres des modèles de RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous abordons ici le problème de l’estimation des paramètres des modèles standard de la recherche d’information sur de nouvelles collections pour lesquelles aucun jugement de pertinence n’est disponible. Pour cela, nous nous reposons sur des collections passées pour lesquelles des jugements de pertinence sont disponibles et introduisons une nouvelle représen- tation des requêtes indépendante de la collection considérée. À partir de cette représentation et des collections passées, nous apprenons une fonction de régression capable de fournir, pour une nouvelle requête, une valeur à chaque paramètre des modèles standard de la recherche d’information.

Architecture Asymétrique pour les Modèles Neuronaux d'Appariement de Textes

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans les modèles neuronaux d’appariement de textes, les entrées subissent les mêmes transformations pour construire les représentations correspondantes. La nature de la tâche d’appariement est défini à partir du type des entrées du modèle et de la relation entre elles. Nous distinguons deux types d’appariement : (1) l’appariement symétrique fait référence aux tâches d’appariement à des entrées de même nature, telles que l’identification des paraphrases et la classification de documents.

Detection of abusive messages in an on-line community.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La modération du contenu posté par les utilisateurs de communautés en ligne est majoritairement effectuée manuellement. De par la taille des données à traiter, les méthodes au- tomatiques ont un intérêt certain pour réduire la charge de travail. Actuellement, l’industrie utilise des approches basiques à base de recherche de mots, comme par exemple le filtrage des messages contenant certains mots interdits. Nous nous intéressons dans cet article à une tâche de classification permettant de déterminer si un message est abusif ou non.

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous étudions l’appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l’aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l’appariement exact entre les mots, le processus d’appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les mots de la requête qui ne sont pas dans le document.

Indexation de structures de documents par réseaux bayésiens.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre objectif est d’étudier l’apport des réseaux naïfs augmentés dans les problèmes de classification d’images. Les images utilisées dans notre étude représentent la structure d’un type de documents qui contiennent des blocs de textes et de graphiques. Nous avons proposé trois variantes des réseaux bayésiens. En premier lieu les réseaux bayésiens naïfs RN qui malgré leur structure simple ont donnés un très bons résultats. En second lieu, les réseaux bayésiens naïfs augmentés par un arbre TAN.

Indexation et représentation comparative : application au discours électoral.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit quelques approches afin d’extraire les termes les plus représentatifs d’un site web ou d’un ensemble de documents en comparaison avec d’autres sites ou un corpus de référence. Nous montrons que la fréquence d’occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s’appuie sur une distribution binomiale des mots et le calcul d’un score normalisé (score Z) mettant en lumière les termes comparativement les plus appropriés.

Influence de l'hétérogénéité sémantique sur les performances d'un système de RI distribuée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous considérons des systèmes pair-à-pair pour le partage de documents dans lesquels chaque pair utilise une ontologie pour représenter ses documents. Lorsque tous les pairs n’utilisent pas la même ontologie, le système est sémantiquement hétérogène, ce qui constitue à priori un frein à l’inter- opérabilité. Nous proposons un système dont l’organisation générique en couches logicielles sépare les algorithmes dédiés à la diminution de l’hétérogénéité de ceux utilisés pour la recherche d’informa- tion sémantique distribuée.

Mots audio-visuels joints pour la détection de scènes violentes dans les vidéos.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente une représentation audio-visuelle des données pour la détection des scènes violentes dans les films. Les travaux existants dans ce domaine considèrent l’information visuelle ou l’information audio; voire leur fusion classique. Jusqu’à présent peu d’ap- proches ont exploré leur dépendance mutuelle pour la détection de scènes violentes. Ainsi, nous proposons un descripteur qui fournit des indices multimodaux audio et visuels; tout d’abord en assemblant les descripteurs audio et visuels, ensuite en révélant statistiquement les motifs conjoints multimodaux.

Prédiction des buzz sur Twitter.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La prédiction des buzz sur Internet est une tâche difficile notamment parce que le phé- nomène est dépendant de paramètres très divers, liés au contenu du message lui-même mais aussi au contexte de sa diffusion et à la dynamique de propagation de l’information sur la toile. Ces difficultés se trouvent augmentées par la dimension du Web et la dispersion et la fragmen- tation des informations qui s’y trouvent. Twitter est un espace d’expérimentation plus contraint et délimité que le Web dans sa globalité; dans cet article, nous présentons une méthode de prédiction des buzz appliquée à la prédiction des pics de ré-émissions (retweets) des messages postés sur Twitter.

Recherche d'information dans des documents structurés par proximité des termes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons une méthode pour calculer un score d’un élément quelconque d’un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d’un terme de la requête une fonction d’influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d’influence décroit linéairement de 1 à 0 selon la distance à l’occurrence.

Recherche de la pertinence et de la nouveauté dans les textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de recherche d’information s’intéressent à retrouver les documents pertinents par rapport à un besoin défini par un utilisateur. Certains systèmes se sont intéressés à mieux répondre au besoin de l’utilisateur en considérant un niveau de granularité plus petit que le document. Dans ces systèmes, les informations restituées à l’utilisateur ne correspondent pas aux documents mais aux passages susceptibles de correspondre au besoin exprimé. Cet article répond à la double tâche proposée dans le programme TREC : rechercher les passages pertinents et ceux qui apportent de la nouveauté.

Représentation Dynamique de Documents pour une Recherche Documentaire Intelligente.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec le développement des supports de stockage, la quantité de documents disponibles Abstract With the development of internet and storage devices, the quantity of available doc- uments increases quickly. It is necessary to have an information retrieval system able to ap- prehend efficiently these enormous quantities of documents. In this paper we propose DIIR (Dynamic Indexing for Information Retrieval), an information retrieval model based on the vector space model where the representation of documents is made dynamically in order to ex- pand requests and to adapt the term weights of documents.

Réseau de neurones profond et SVM pour la classification des sentiments.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le développement des forums, des blogs et de la vente en ligne pousse les utilisateurs à laisser de plus en plus d’informations en libre accès sur le web. Une partie de ces informations décrit des sentiments: elles permettent de développer des modèles d’analyse d’opinions et de faire des sondages dans divers domaines en récupérant simplement ces données textuelles. Nous proposons d’utiliser des réseaux de neurones pour apprendre des modèles de classifica- tion d’opinions efficaces.

Réseaux possibilistes pour un modèle de recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans ce papier un modèle de recherche d’information utilisant les réseaux Abstract This paper proposes a model for Information Retrieval (IR) based on possibilistic directed networks. Relations documents-terms and query-terms are modeled through possibility and necessity measures rather than a probability measure. The relevance value for the doc- ument given the query is measured by two degrees: the necessity and the possibility. More precisely, the user’s query triggers a propagation process to retrieve necessarily or at least possibly relevant documents.

Vers une indexation personnalisée de photographies par apprentissage non supervisé de régularités.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche pour indexer des images photographiques avec pour objectif de permettre une bonne qualité d’annotation des images et aussi un moyen de visualiser, pour un utilisateur non expert, ce que le système apprend pour éventuellement corriger un apprentissage défectueux. Notre approche repose sur la génération de régularités dans l’espace des caractéristiques extraites en se basant sur un apprentissage non supervisé, puis sur un apprentissage supervisé afin d’associer ces régularités à des termes d’indexation.

Was it better before ? Automated Quotation Detection in Ancient Texts.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse à l’application des travaux en recherche de citations dans le contexte de documents anciens en langue grecque. La notion de citation est définie dans le contexte de ces documents, et les approches automatiques ustatistiques et sémantiquesu qui permettent de les découvrir sont évaluées à la lumière de cette définition et des ressources disponibles. Nous étudions également les effets spécifiques à notre corpus sur les métriques de performance.

Apprentissage de conversion de documents semi-structurés à partir d'exemples.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Une majorité de travaux de Recherche d’Information dans les collections de documents semi-structurés se focalise sur le traitement de bases homogènes et ne sont pas utilisables sur des corpus de documents hétérogènes issus du Web par exemple. Nous présentons ici la mé- thode ISM (Incremental Structure Mapping) permettant la conversion de documents XML issus de sources hétérogènes dans un schéma de médiation. ISM est centrée document et permet la prise en compte simultanée de la structure et du contenu des documents.

Catégorisation automatique de pages web chinoises - documents spécialisés vs grand public sur le tabagisme.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La catégorisation (ou classification supervisée) de textes concerne généralement le thème traité ou le type de document. Nous nous intéressons ici à une dimension particulière, le public visé, en distinguant deux grandes catégories : textes destinés au grand public, et textes destinés à des spécialistes du domaine traité. Nous testons la catégorisation, selon cette opposition, de pages web en langue chinoise sur le thème du tabagisme. Dans ce contexte, nous obtenons les conclusions suivantes : une segmentation des textes chinois en mots plutôt qu’en sinogrammes n’améliore pas la catégorisation mais facilite son interprétation ; des attributs supplémentaires relevés à la lecture humaine du corpus n’améliorent pas la catégorisation ; un arbre de décision ou un SVM sont plus performants sur un corpus de test proche du corpus d’entraînement (F1 = 98;5 %) que Na¨ıve Bayes ou Kppv ; les Kppv ou un arbre de décision

Combining Subword information and Language model for Information Retrieval

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En recherche d’information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l’on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités de traduction entre termes dans le cadre des modèles de langue neuronaux (Zuccon et al.

Extraction de patterns successifs dans des images de document en combinant histogrammes de forces et de droites discrètes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une méthode originale pour la recherche de séries de Abstract The problematic of automatically searching series of broad patterns in technical

Graphe de communauté pour la validation de relations dans le cadre de la population de bases de connaissances.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’extraction de relations entre entités à partir de textes est une étape importante pour des tâches d’extraction d’information ou de découverte de connaissances. Les systèmes pro- duisent de nombreux candidats et la tâche de validation de relation consiste à décider si une relation candidate est correcte ou non en fonction des informations fournies par les systèmes. Dans cet article, nous proposons un nouvel ensemble de traits fondés sur l’analyse des graphes engendrés par les relations entre entités, qui complète ceux provenant d’une analyse linguistique.

Impact de l'information visuelle pour la Recherche d'Images par le contenu et le contexte.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les documents multimédia composés de texte et d’images sont de plus en plus présents grâce à Internet et à l’augmentation des capacités de stockage. Cet article présente un modèle de représentation de documents multimédia qui combine l’information textuelle et l’information visuelle. En utilisant une approche par sac de mot, un document composé de texte et d’image peut être décrit par des vecteurs correspondant à chaque type d’information. Pour une requête multimédia donnée, une liste de documents pertinents est retournée en combinant linéairement les résultats obtenus séparément sur chaque modalité.

La prédiction efficace de la difficulté des requêtes : une tâche impossible?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les moteurs de recherche d’information (RI) retrouvent des réponses quelle que soit la Abstract Search engines found answers whatever the user query is, but some queries are more

Modèle de compréhension du besoin en information pour la recherche d'information conversationnelle

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La RI repose sur un cadre standard qui interroge des collections de documents à partir d’un besoin en information exprimé sous la forme d’un ensemble de mots-clés. Notre contri- bution vise à dépasser ce paradigme habituel en traitant directement le besoin en information exprimé en langage naturel pour tendre vers une nouvelle génération de systèmes de RI axés sur l’aspect conversationnels (appelés aussi “search oriented conversational systems”). Une première étape réside alors dans la formulation de requêtes à partir de besoins en informa- tion exprimés en langage naturel.

Modèle évolutif d'un profil utilisateur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La prise en compte des besoins, des intentions et des spécificités cognitives, cuturelles ou autres, qui caractérisent le profil d’un utilsiateur constitue un élément déterminant pour améliorer la pertinence des réponses lors d’une session de Recherche d’Information dans de grandes bases de documents. La modélisation des profils et la manière de les adapter à différents utilisateurs qui n’ont pas une idée précise sur l’information qu’ils recherchent, nous permet d’offrir un accès personnalisé au contenu de documents scientifiques fondé sur l’exploitation du profil d’utilisateur.

Normalisation et validation d'images de documents capturées en mobilité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La numérisation de documents à l’aide des smartphones introduit un nombre impor- tant de dégradations qui doivent être corrigées ou détectées sur le mobile, avant l’envoi de données sur un réseau payant ou la perte de disponibilité du document. Dans cet article, nous proposons un système permettant de corriger les problèmes de perspective et d’illumination avant d’estimer la netteté de l’image pour un traitement OCR. L’étape corrective repose sur une détection des contours, suivie d’une normalisation de l’illumination.

Quantification et identification des concepts implicites d'une requête.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une méthode non supervisée pour l’identification et Abstract In this paper we introduce an unsupervised method for mining and modeling la- tent search concepts. We use Latent Dirichlet Allocation (LDA), a generative probabilistic topic model, to exhibit highly-specific query-related topics from pseudo-relevant feedback doc- uments. Our approach automatically estimates the number of latent concepts as well as the needed amount of feedback documents, without any prior training step.

Quel est l'auteur de ce roman ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons le problème de l’attribution d’auteur d’une oeuvre écrite. Comme représentation des textes, les études récentes s’appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l’analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et différences entre les représentations des écrits. En appliquant l’approche du plus proche voisin, nous pouvons estimer l’auteur de chaque texte.

Ridgelet-based signatures for natural image classification.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous proposons une nouvelle représentation des images naturelles permettant de les organiser en groupes sémantiquement consistants. Les catégories concernées par la méthode sont identifiées par les propriétés statistiques des scènes naturelles. Les images sont décrites par une signature basée sur les ridgelets. Elle est combinée à une classifieur à vecteur support (SVM),qui est particulièrement adapté à la représentation des données en grande dimension, résultant en un système de reconnaissance efficace.

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d’information que l’utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n’as pas toujours un sens, car il s’agit uniquement d’une contrainte physique. Dans la réalité, l’utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d’un noeud comme unité de base.

Un modèle de RI basé sur des critères d'obligation et de certitude.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé l existe un grand nombre de modèles de recherche d’information chacun ayant pour but de répondre au mieux aux attentes des utilisateurs. Le modèle que nous proposons se base sur une formulation précise de la requête reflétant le besoin de l’utilisateur : Chaque terme de la requête est augmenté par deux critères, l’un exprimant l’obligation ou non de l’apparition du terme dans les documents et l’autre exprimant la certitude de l’utilisateur quand au terme utilisé.

Une plate-forme open-source de recherche d'information sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les méthodes de RIS visent à s’affranchir des problèmes classiques de synonymie et polysémie via le passage au niveau conceptuel. Elles reposent souvent sur l’utilisation d’une ressource sémantique. La qualité des résultats dépend des fonctionnalités sémantiques mises en place ainsi que de la qualité de la ressource utilisée. Malgré la profusion des propositions, l’apport d’une sémantique explicite reste à prouver. Nous proposons une décomposition des fonctionnalités qui sont communes aux différentes méthodes de RI.

Automatic Detection of Depressive Users in Social Media

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La dépression est une affection courante qui concerne environ 350 millions de personnes dans le monde selon les estimations de l’Organisation Mondiale de la Santé. La détection de ce trouble est donc un enjeu majeur de santé publique. Plusieurs recherches en psychologie ont démontré l’existence d’un lien fort entre l’état dépressif d’un individu et son expression langagière. Dans cet article, nous proposons de repérer automatiquement ces indices linguistiques dans le but de détecter les comportements dépressifs à partir de messages postés sur les réseaux sociaux.

Classification automatique de textes basée sur une ontologie normée. Application du Extensible Business Reporting Language (XBRL) au Reuters Corpus Volume 1 (RCV1).

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous démontrons que l’utilisation d’une ontologie normée selon le domaine d’application permet d’améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d’un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en finance nous aident à coder 1 000 des 45 000 nouvelles portant sur les fusions et acquisitions.

Compression de structure XML pour la recherche d'information structurée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d’information structurée, puis nous proposons une méthode de compression des données de cette représentation.

Désambiguïsation d’entités nommées par apprentissage de modèles d’entités à large échelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La désambiguïsation d’entités consiste à lier automatiquement des mentions d’entités identifiées dans un texte et des entités présentes dans une base de connaissances. L’approche générale consiste à produire, pour une mention donnée, des entités candidates puis à sélection- ner la meilleure parmi celles-ci, selon un ensemble de critères. Notre travail se focalise sur cette dernière étape, avec une méthode fondée sur l’apprentissage de modèles permettant d’opérer une discrimination entre une entité et les entités qui lui sont ambiguës.

Détection et segmentation des blocs de texte manuscrits et imprimés dans des documents complexes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons un système de segmentation des zones de texte imprimées ou manuscrites dans des documents complexes. La méthode réalise une première classification des composantes connexes en tant que texte/non-texte, puis un deuxième étage discrimine les composantes manuscrites des composantes imprimées. Les composantes de texte sont ensuite regroupées en blocs homogènes à l’aide d’un algorithme basé sur la détection des rectangles blancs. Nous présentons les résultats obtenus par le système lors de la première campagne MAURDOR.

Extraction de relations n-aires interphrastiques guidée par une RTO.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une méthode d’extraction d’instances de relations n- aires dans un texte guidée par une Ressource Termino-Ontologique (RTO) de domaine. Une RTO est une ressource comportant une composante conceptuelle (l’ontologie) et une compo- sante terminologique (la terminologie), dans laquelle les termes sont distingués des concepts qu’ils dénotent. L’ontologie permet la modélisation de relations n-aires, reliant des arguments pouvant être des concepts symboliques et des quantités. La méthode proposée s’applique aux relations n-aires formulées de façon implicite dans le texte et dont les instances d’arguments peuvent être exprimées à travers différentes phrases du texte.

Extraction des bulles de bandes dessinées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les bandes dessinées et les mangas sont l’une des formes les plus populaires de Abstract Comics and manga are one of the most popular and familiar forms of graphic content

Impact de la reconnaissance de l'écriture en-ligne sur une tâche de catégorisation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse à la problématique de la catégorisation automatique de docu- ments manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de recon- naissance de l’écriture en-ligne et leur version originale électronique. Les résultats montrent qu’aucune perte significative des performances n’est à signaler lorsque 78 % des termes d’in- dexation sont correctement reconnus dans les documents à catégoriser.

Méthodes de classification pour l’identification de nœuds importantes dans les graphes dynamiques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nos jours, nous nous intéressons à la détection d’entités importantes, ceci peut être des mots-clés importants dans un document ou Twitter, ou des individus importants dans un réseau de mouvement. Nous pouvons modéliser ces données sous la forme d’un graphe dy- namique et utiliser des métriques de centralité telle que la centralité de proximité temporelle. Malheureusement, cela peut être coûteux. Dans ce travail, nous comparons la précision de plu- sieurs méthodes de classification supervisée, les unes par rapport aux autres, à la détection de ces noeuds importants.

Pseudo-réinjection de pertinence basée sur un modèle de langue mixte combinant les termes simples et composés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous présentons une nouvelle technique de reformulation de requête. Cette technique considère la requête comme un ensemble de termes composés et un ensemble de termes simples. Pour déterminer les termes d’expansion on additionne les poids des relations d’un terme candidat avec chacun des termes de la requête (simple, composé). Un terme candidat est choisi s’il est fortement en relation avec la plupart des termes de la requête.

Recherche bilingue et multilingue d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s’avère moins bonne que l’être humain.

Recherche d'information flexible basée CP-nets.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier décrit une approche de recherche d’information (RI) flexible fondée sur l’utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d’une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d’autre part pour l’évaluation flexible de la pertinence des documents. Le raisonnement et l’inférence sur les préférences qualitatives n’étant pas aisés, nous devons quantifier les préférences. Nous proposons alors une approche de pondération automatique des requêtes CP-Nets.

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec la prolifération des téléphones portables munis d’appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l’information à partir de requêtes images prises d’un téléphone portable. Nous présentons également des résultats expérimentaux sur l’identification de scènes, basés sur une collection test d’images originales et réalistes de scènes à Singapour. Abstract With the proliferation of camera phones, many novel applications and services will emerge.

Un modèle pour l'interrogation visuelle des documents structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons un modèle d’interrogation visuelle des documents structurés permettant de représenter graphiquement les requêtes utilisateurs sous forme de graphe, et d’effectuer ainsi des requêtes d’une rare complexité syntaxique et sémantique. Le modèle est validé par le développement d’un prototype XmlBrowser permettant d’explorer et d’interroger une collection de documents structurés (Xml). Abstract In this article, we present a visual querying model of the structured documents making it possible to represent graphically the users query in the form of graph, thus to carry out query of a rare syntactic and semantic complexity.

Une approche pour la recherche sémantique de l'information dans les documents semi-structurés hétérogènes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente SHIRI-Querying, une approche pour la recherche sémantique de l’information dans les documents semi-structurés. Nous proposons une solution pour pallier l’incomplétude et l’imprécision des annotations au moment de l’interrogation. Cette solution repose sur deux types de reformulations élémentaires qui exploitent la notion d’agrégation et la structure des documents. Nous présentons l’algorithme DREQ qui combine ces transfor- mations élémentaires pour construire des reformulations ordonnées de la requête utilisateur. L’étude de notre approche sur deux corpus réels montre que les reformulations augmentent considérablement le rappel et que la précision est meilleure pour les premières réponses retournées.

Vers des méta-règles de contexte appréciées par la IIE pour la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le processus de Fouille de Textes (FT), basé sur l’extraction des règles d’association en utilisant un algorithme, génère une quantité importante de règles d’association. Dans cet article, ce sont des règles d’association non redondantes résultantes d’un processus d’extrac- tion à partir d’un corpus de textes. Nous proposons tout d’abord de montrer l’intérêt et l’utilité de règles d’association filtrées par une mesure de qualité autre que la confiance, en particulier l’Intensité d’Implication Entropique (IIE).

Apprentissage de métrique appliqué à la détection de changement de page Web et aux attributs relatifs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article un nouveau schéma d’apprentissage de métrique. Basé sur l’exploitation de contraintes qui impliquent des quadruplets d’images, notre approche vise à modéliser des relations sémantiques de similarités riches ou complexes. Nous étudions comment ce schéma peut être utilisé dans des contextes tels que la détection de régions impor- tantes dans des pages Web ou la reconnaissance à partir d’attributs relatifs. Abstract This paper introduces a novel distance metric learning framework.

Apprentissage de Représentation appliqué à la Recommandation pour la Littérature Scientifique

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La littérature scientifique forme un large réseau d’information reliant des acteurs va- riés (laboratoires, entreprises, institutions, etc.). La vaste quantité de données générées par ce réseau constitue un graphe hétérogène attribué dynamique, dans lequel de nouvelles informa- tions sont constamment produites et dont il est de plus en plus difficile d’extraire du contenu d’intérêt. Dans cet article, je présente mes premiers travaux de thèse réalisés en partena- riat avec un acteur industriel.

Apprentissage des schémas de propagation dans les multi-graphes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous considérons le problème de l’étiquetage de noeuds dans un multi-graphe- ou graphe multi-relationnel- dans lequel les noeuds peuvent être connectés simultanément par dif- férents types de relations. De nombreux problèmes se modélisent ainsi, comme par exemple les réseaux sociaux ou bien les bases de données bibliographiques. Les relations peuvent être expli- cites (par exemple amitié dans un réseau social) ou bien implicite (par exemple des similarités de contenu calculées sur les données).

Détection d’opinion argumentée à partir de Twitter

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Savoir ce que pensent les gens est fondamental pour la prise de décision. Avec la croissance explosive des réseaux sociaux ces informations sont disponibles à profusion, sous forme d’avis, d’opinions ou d’un jugement formé sur quelque chose ou quelqu’un pour défendre un point de vue. Plusieurs chercheurs ne se sont concentrés que sur l’identification et la définition de l’opinion. Nous proposons dans cet article de définir et de caractériser l’opinion argumentée selon les composantes d’arguments associées.

Étude d’un modèle d’inférence de connaissances à partir de textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche automatisée d’inférence de connaissances basée sur l’analyse de relations extraites à partir de textes. Son originalité repose sur la définition d’un cadre tenant compte (i) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel et (ii) de l’exploitation possible d’une connaissance a priori formalisée dans un modèle de connaissances de type ontologie (taxonomie). Ce cadre permet notamment de définir des règles de propagation de l’information basées sur la théorie des croyances afin d’inférer de nouvelles connaissances à partir des relations extraites.

Filtrage de l'indexation textuelle d'une image au moyen du contenu visuel pour un moteur de recherche d'images sur le web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous décrivons une méthode de filtrage de l’indexation textuelle d’images qui traitent de sujets généralistes. Pour cela, nous construisons d’abord des classes vi- suelles pour chaque mot-clé du lexique au moyen de classifications ascendantes hiérarchiques des vecteurs visuels dans l’espace visuel. Puis, nous testons la validité de l’association mot- clé/classes visuelles à l’aide d’une base de test et nous mesurons la performance de la classifi- cation obtenue à l’aide du score u normalized score ».

Intégrer plus de connaissances linguistiques en recherche d'information peut-il augmenter les performances des systèmes ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article pose la question de l’intérêt en RI de la combinaison au Abstract None

Mesure de la netteté sur une image seule dans des documents anciens.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente différentes méthodes permettant d’analyser le flou de focus dans le contexte de numérisation. Nous allons définir des méthodes pour mesurer cette information. Ensuite, nous estimerons la pertinence de ces mesures en faisant varier le flou. Puis enfin, nous associerons ces informations en utilisant un modèle d’apprentissage supervisé afin d’évaluer le gain possible de cette mesure. Abstract This article presents some way to do quality control after digitization, specially out of focus problem.

Modèle probabiliste pour l'extraction de structures dans les documents semistructurés - Application aux documents Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le développement des systèmes de gestion de contenu a profondément changé la nature du Web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d’une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l’hétérogénéité des données et le caractère implicite de de la structure des documents Web.

Prédire la difficulté des requêtes : la combinaison de mesures statistiques et sémantiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La performance d’un Système de Recherche d’Information (SRI) est étroitement liée à la requête. Les requêtes pour lesquelles les SRI échouent sont appelées dans la littérature des u requêtes difficiles ». L’étude présentée dans cet article vise à ana- lyser, adapater et combiner plusieurs prédicteurs de difficulté de requêtes. Nous avons considéré trois prédicteurs: un lié à l’ambiguïté des termes, un basé sur la fréquence des termes et une mesure de répartition des résultats.

Recherche de documents structurés en mobilité : un modèle et une mesure d'évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les travaux en recherche de documents structurés ne s’intéressent que peu pour le moment à leur emploi dans un contexte de mobilité. Dans de tels cas, on pose que l’objectif d’un système de recherche d’information demeure inchangé (il est de satisfaire le besoin d’information d’un utilisateur), mais il faut intégrer que les écrans des systèmes mobiles sont petits et que le réseau utilisé n’a pas une grande bande passante. Nous proposons dans cet article une première approche, relativement simple, qui prend en compte ces aspects, en privilégiant les parties de documents structurés petites en terme de taille.

Regroupement de relations pour l'extraction d'information non supervisée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En contexte de veille, l’extraction d’information non supervisée a pour but d’extraire Abstract The purpose of unsupervised information extraction is to extract information from text without fixing the type of information. Our work concentrates on the task of extracting and characterizing new relations between given entity types. We first propose in this article a filtering procedure to remove false relation candidates by combining heuristics and machine learning models. Best results achieve a score of 77.

Relations explicites entre différentes représentations d'image dans un modèle de graphe visuel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons dans ce papier une nouvelle méthode pour exploiter la relation entre différents niveaux de représentation d’image afin de compléter le modèle de graphe visuel. Le modèle de graphe visuel est une extension du modèle de langue classique en recherche d’infor- mation. Nous utilisons des régions d’images et des points d’intérêts (associées automatiquement à des concepts visuels), ainsi que des relations entre ces concepts, lors de la construction de la représentation sous forme de graphe.

SRI à base d'inclusion graduelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article étudie, d’un point de vue expérimental, l’apport des inclusions graduelles issues de la théorie des ensembles flous pour la modélisation d’un système de recherche d’in- formation (SRI), comme l’ont proposé de manière théorique (Bosc et al., 2008b). Documents et requêtes sont représentés par des ensembles flous, appariés par des opérateurs flous, dont le choix est crucial pour obtenir un système adapté à la RI. S’ils sont bien choisis, le SRI flou ob- tenu est proche des SRI classiques et obtient des résultats aussi bons, en conservant l’avantage de son cadre théorique fort.

X-IOTA: Une plateforme distribuée ouverte pour l'expérimentation en Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Réaliser des expérimentations en Recherche d’Information est une activité lourde car nécessitant à la fois des outils rapides pour traiter des collections de taille significative, mais également des outils flexibles pour laisser le plus de latitude possible au champ de l’expérimen- tation. Le système X-IOTA a été développé pour répondre tout particulièrement au critère de flexibilité et donc pour favoriser la mise en place rapide d’expérimentations variées introduisant des aspects traitement de la langue.

A New Question Answering Approach with Conceptual Graphs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec la disponibilité croissante des bases de connaissances structurées à grandes échelles et des techniques de traitement automatique du langage naturel (TALN) aidées par des techniques avancées de recherche d’information (RI), les systèmes de questions-réponses (QR) sont entrés dans une ère de commercialisation. Cependant, les types de questions auxquelles on peut répondre sont un peu limités aux connaissances encyclopédiques qui sont souvent bien structurées sous forme de triplets ou, par ailleurs, localisées dans un segment de texte.

Construction des profils utilisateurs à base d'une ontologie pour une recherche d'information personnalisée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information (RI) personnalisée tend principalement à modéliser l’utili- sateur selon un profil puis à l’intégrer dans la chaîne d’accès à l’information, afin de mieux ré- pondre à ses besoins spécifiques. Ce papier présente une extension d’une approche de construc- tion implicite du profil utilisateur précédemment développée où les centres d’intérêts sont re- présentés à base de termes pondérés. L’extension de cette approche permet d’obtenir une re- présentation sémantique de ces centres à base de concepts pondérés en utilisant l’ontologie de l’ODP.

Estimation du paramètre de collection des modèles d'information pour la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous explorons dans cet article plusieurs méthodes permettant, a priori, d’estimer le paramètre de collection des modèles d’information. Jusqu’à présent, ce paramètre a était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d’estimation de ce paramètre et montrons qu’il est possible d’améliorer les performances du système de recherche d’information lorsque ce paramètre est estimé de façon adéquate. Abstract In this paper we explore various methods to estimate the collection parameter of the information based models for ad hoc information retrieval.

Évaluation d'outils de reformulation interactive de requêtes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de travaux de recherche sur la modélisation de l’utilisateur et sur le développement d’un système de recherche d’information apprenant, nous présentons une nou- velle approche d’évaluation d’outils de reformulation interactive de requêtes prenant en compte le temps au cours d’une session de recherche. En suivant un protocole d’expérimentation uti- lisateur adapté, nous montrons que les performances globales d’un outil de reformulation de requêtes ne sont pas significatives de ses performances au cours d’une session de recherche et varient selon l’utilisateur.

Extension de requêtes par relations morphologiques acquises automatiquement.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse au problème de la formulation différente d’une même idée, d’un même concept, en recherche d’information à travers la prise en compte du phénomène de la variation morphologique. L’approche proposée est une méthode simple de reconnaissance des variantes morphologiques utilisées pour l’enrichissement des requêtes au sein d’un système de recherche d’information (SRI). À l’inverse de nombreux travaux déjà réalisés dans ce domaine, la technique proposée présente la particularité de ne nécessiter aucunes ressources ni connais- sances externes, et d’être applicable par conséquent à une grande variété de langues.

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Mon, 01 Jan 0001 00:00:00 +0000

Résumé ans cet article, nous nous intéressons à l’extraction des interactions entre médicaments et aliments, une tâche qui s’apparente à l’extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l’apprentissage profond. A partir de cet état de l’art, nous présentons une méthode basée sur un apprentissage supervisé et les résultats d’une première série d’expériences.

Identification de personnes dans des flux multimédia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un système d’identification de personnes dans des flux multimédia. Ce système a été engagé dans le défi REPERE, co-organisé par l’ANR et la DGA et qui s’est terminé en 2014. La tâche principale du défi consistait à identifier des individus apparaissant dans au moins une des modalités portées par la vidéo, qu’il s’agisse de locuteurs audibles ou de visages visibles à l’écran. Un des verrous scientifiques majeurs de cette tâche est lié à la combinaison des modalités audio et vidéo.

Interactions entre le calcul de collocations et la catégorisation automatique de textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article d’étudier les interactions entre l’extraction de collo- cations et la catégorisation automatique de textes. C’est-à-dire, dans un premier temps, utiliser la répartition des textes dans les différentes classes afin d’extraire des chaînes spécifiques à chacune (calculées par agglutination de collocations) ; puis, dans un second temps, utiliser ces chaînes spécifiques pour améliorer la catégorisation. Abstract In this paper we describe some interactions between collocations and automatic text categorization.

Modèle de proximité: Conception et comparaison à une méthode de recherche de passages.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre étude se situe dans le domaine de la recherche d’informations. Certains mo- dèles classiques comme le modèle vectoriel permettent de classer les documents par ordre de pertinence alors que d’autres, qui n’offrent pas cette possibilité de classement, possèdent des fonctionnalités particulières comme repérer les documents où les termes de la requête appa- raissent proches les uns des autres. Cette dernière idée ayant conduit à des améliorations des résultats, nous formulons l’hypothèse que plus les occurrences des termes d’une requête se re- trouvent proches dans un document, plus ce document doit être positionné en tête de la liste de réponses retournées par un système.

Prédiction du SRI à utiliser en fonction des critères linguistiques de la requête.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En recherche d’information (RI), plusieurs techniques existent et sont utilisées par les systèmes pour répondre de manière efficace aux requêtes des utilisateurs. Nous nous intéressons dans ce papier à comment utiliser les caractéristiques linguistiques des requêtes pour prédire le(s) meilleur(s) système(s) à utiliser pour une requête donnée. Pour ce faire, nous avons utilisé 13 critères linguistiques définis dans (Mothe et al, 2005) pour catégoriser les requêtes de la campagne TREC 3, 5, 6 et 7.

Query Expansion by Local Context Analysis.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La tâche de notre recherche est de fournir le contexte de recherche à un moteur de Abstract Query expansion (QE) aims at improving information retrieval (IR) effectiveness by

Recherche d'information entre des bases de connaissances

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous nous intéresserons à la recommandation de contenus, et plus par- ticulièrement au sein de bases de connaissances. Le sujet de thèse présenté ici se focalise sur la représentation de documents textuels en prenant en compte plusieurs échelles (phrase, para- graphe et document entier) et l’exploitation de celle-ci par un système de recommandation, soit au sein de la même base de connaissances, soit entre des bases différentes.

Recherche et filtrage d'information dans des transcriptions de conversations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons dans cet article au problème de l’indexation de documents audio de type u conversation téléphonique ». Nous nous interrogeons en particulier sur le bien fondé de l’utilisation, pour ce type de documents, des méthodes d’indexation classiquement utilisées en recherche d’information textuelle. Pour répondre à ces questions, nous revisitons certaines hypothèses de la recherche d’information en étudiant la spécificité et l’applicabilité de ces hypothèses à des transcriptions de conversations téléphoniques.

Reclassement d'images par le contenu.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode permettant de reclasser les images fournies par un moteur de recherche par mots-clés à l’échelle du web et à l’état de l’art. Cette méthode utilise le contenu visuel des images et elle est basée sur l’idée que les images pertinentes doivent être semblables entre elles et que les images non pertinentes doivent être différentes entre elle et des images pertinentes. Cette idée a été implémentée en classant les images en fonction de la distance moyenne de celles-ci avec leurs plus proches voisines.

Semantic Clustering of Social Networks using Points of View.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les algorithmes classiques de détection de communautés dans les réseaux sociaux utilisent l’information structurelle pour détecter des groupes, i.e la topologie du graphe de relations. Toutefois, ils ne prennent en compte aucune information externe qui peut guider le processus et aider à la réalisation des analyses du réseau selon différentes perspectives. La méthode proposée utilise de façon conjointe, l’information sémantique du réseau social, repré- sentée par des points de vue, et son information structurelle.

Techniques d'apprentissage supervisé pour l'extraction d'événements TimeML en anglais et français.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’identification des événements au sein de textes est une tâche d’extraction d’informations importante et préalable à de nombreuses applications. Au travers des spécifications TimeML et des campagnes TempEval, cette tâche a reçu une attention particulière ces der- nières années, mais aucun résultat de référence n’est disponible pour le français. Dans cet article nous tentons de répondre à ce problème en proposant plusieurs systèmes d’extraction, en faisant notamment collaborer champs aléatoires conditionnels, modèles de langues et k- plus-proches-voisins.

Analyse des noms agentifs dans les espaces vectoriels distributionnels

Mon, 01 Jan 0001 00:00:00 +0000

Résumé otre étude s’inscrit dans le cadre d’une thèse ayant pour but d’exploiter les modèles distributionnels pour décrire sémantiquement des classes de mots définies selon des critères morphologiques. Nous utilisons des indices morphologiques et formels fournis par une base lexicale pour cibler les noms agentifs déverbaux construits par suffixation en-eur. Nous montrons qu’il est possible de constituer un représentant prototypique de la classe sémantique des noms agentifs en-eur dans les modèles distributionnels.

Apprentissage de représentation pour la détection de source dans les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Récemment, divers travaux se sont interessés à la détection de source de diffusion dans les réseaux sociaux : il s’agit de déterminer l’utilisateur à partir duquel une information propagée a initiallement été émise. Dans cet article, nous proposons une nouvelle méthode pour la détection de source de diffusion, basée sur des techniques d’apprentissage de représentation. Plutôt que de s’appuyer sur un modèle de diffusion appris a priori pour estimer la source des diffusions observées, l’idée est de projeter les utilisateurs du réseau dans un espace de représentation, dans lequel la source de diffusion peut être efficacement extraite en fonction des positions relatives des utilisateurs infectés par l’information propagée.

Audiovisual production invariant searching.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche de l’information non textuelle est un point fondamental dans l’industrie audiovisuelle où les besoins d’outils pour manipuler des contenus multimédia sont importants et diversifiés. Dans les documents vidéo, l’extraction de signature de style est un procédé extrêmement intéressant, puisqu’il fournit une nouvelle caractéristique pour la classification de contenus. Les documents vidéo peuvent avoir des caractéristiques et des propriétés très différentes. Cependant, on peut identifier des points communs à toutes les émissions politiques, ou toutes les retransmissions de matchs de football, ou encore tous les films réalisés par un même réalisateur.

Classification avec style : Une application aux discours gouvernementaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une analyse lexicale d’un corpus composé des discours sur l’état de l’Union de 1790 à 2013 pour un total de 223 allocutions écrites par 41 présidents des Etats-Unis. Une classification automatique basée sur la fréquence d’occurrences de tous les lemmes indique que la chronologie correspond à un facteur important dans le regroupement des présidents, plus que les affinités de parti. Une attribution d’auteur indique que, pour 96% des discours, on détecte le bon président.

Comparaison du modèle vectoriel et de la pondération tf*idf associée avec une méthode de propagation d'activation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’objet de ce papier est de montrer qu’il est possible de mettre le modèle vectoriel et la pondération tfidf associée en correspondance avec le calcul d’une résonance dans un réseau associatif basé sur une méthode très simple de propagation d’activation. Nous décrivons un réseau associatif associant termes et documents puis un calcul de résonance entre une requête et un document dans ce réseau. La pondération tfidf apparaît naturellement dans le calcul et nous expliquons comment chacun des facteurs s’interprète dans la propagation d’activation.

DefAcro : mesure de qualité pour le choix de la définition des acronymes ambigus.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un ensemble de mesures de qualité pour déterminer le choix de la meilleure définition pour un acronyme non défini dans la page Web le contenant. L’approche contextuelle que nous proposons utilise des statistiques calculées à partir de pages Web pour déterminer la définition appropriée. Les premiers résultats sont très satisfaisants car la défini- tion pertinente des acronymes est trouvée dans 92 à 98% des cas. Abstract This paper offers a set of quality measures to determine the choice of the best ex- pansion for an acronym not defined in the Web page that uses it.

Dimensionalité intrinsèque dans les espaces de représentation des termes et des documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’examen des propriétés des espaces de représentation des documents ou des mots en RI (typiquement, R navec n très grand) fournit de précieuses indications pour aider la recherche. Récemment, plusieurs travaux ont montré qu’il était possible d’étudier la dimensionalité réelle des données, appelée dimensionalité intrinsèque, en certains points de ces espaces (Houle et al., 2012a). Dans cet article, nous proposons de revisiter cette notion de dimension intrinsèque sous la forme d’un indice noté dans le cas particulier de la RI et d’étudier son utilisation pratique en RI.

Etude comparative de stratégies de sélection de prédicteurs pour l'attribution d'auteur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’attribution d’auteur peut être vue comme une tâche en catégorisation de textes qui Abstract The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, !2, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution.

Etude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l’impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montrent qu’un regroupement des phrases en classes sémantiques améliore la qualité des résumés. Abstract This paper introduces the experiences we led in order to evaluate the impact of a sentence unsupervised clustering algorithm on a multi-document summarization system.

Evaluation de la précision pour un système hypertexte.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d’une mesure d’appariement entre les mots clés d’une requête et le texte ancre associé aux liens hypertextes des pages. Nous avons évalué cette fonction de correspondance par des expérimentations sur la collection TREC-9 et nous concluons que pour certains types de requêtes, notre système fournit de meilleures réponses en terme de précision.

Influence de mesures de densité pour la recherche de passages et l'extraction de réponses dans un système de questions-réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous comparons différentes méthodes de filtrage et d’extraction d’une réponse candidate dans le cadre d’un système de questions-réponses. Ces expériences sont effectuées sur un sous-ensemble du corpus de la campagne Technolangue-EQueR, première campagne francophone de questions-réponses utilisant des questions et un corpus en français. Nous évaluons la méthode que nous avions retenue lors de notre participation à cette campagne. Celle-ci est basée sur une densité et une compacité des mots de la question dans le contexte d’une réponse candidate, elle est présentée et comparée à deux autres approches : l’une utilisant un décompte des mots communs, l’autre une similarité de type Cosine.

Lisibilité et recherche d'information : vers une meilleure accessibilité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons en premier lieu une mesure de la lisibilité adap- tée à des lecteurs dyslexiques en utilisant des caractéristiques issues d’une analyse fine des causes des difficultés de lectures rencontrées. Nous proposons ensuite un cadre pour la prise en compte de la lisibilité dans la mesure de pertinence accordée par les systèmes de recherche d’informations, qui est généralement calculée sur la seule base de la similarité.

Navigation conceptuelle dans une base de connaissances sur l'usage des plantes en santé animale et végétale

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De plus en plus de bases de connaissances sont développées dans le domaine de l’envi- ronnement et du vivant. L’enjeu de ce travail est de rendre ces connaissances accessibles à des utilisateurs ayant des préoccupations variées. Notre cas d’étude concerne une base de connais- sances rassemblant environ 30 000 descriptions d’usage de plantes en Afrique, à effet pesticide, antimicrobien et antiparasitaire de synthèse. Dans cet article, nous proposons une architecture de système pour explorer et naviguer dans les connaissances grâce à l’analyse de concepts for- mels et proposons un nouvel algorithme faisant émerger un nouveau contexte d’emploi d’une plante dans un cas d’utilisation.

Ordonnancement d'entités appliqué à la construction de snippets sémantiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les avancées de l’initiative Linked Open Data (LOD) ont permis de mieux structurer le Web des données. En effet, quelques jeux de données servent de centralisateurs (par exemple, DBpedia) et permettent ainsi de maintenir les différentes sources de données du LOD liées entre elles. Ces jeux de données ont également permis le développement de services de détection des entités du Web des données dans une page du Web des documents (par exemple, DBpedia Spot- light).

Recherche de passages pertinents dans les fichiers logs par enrichissement de requêtes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de question réponse sont considérés comme la prochaine génération des moteurs de recherche. Notre article s’intéresse à la première étape d’un tel processus qui consiste à rechercher des passages pertinents possédant des réponses. Une telle tâche peut se révéler difficile en raison de la complexité des données traitées, des fichiers logs dans notre cas. Notre contribution repose sur un double enrichissement de requêtes primitives en utili- sant une méthode d’apprentissage fondée sur la notion de ‘monde lexical’, des connaissances morpho-syntaxiques et une nouvelle fonction de pondération des termes.

Rôle de la matrice d'information et pondération des composantes dans les noyaux de Fisher pour PLSI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Des similarités entre documents à base de catégories sémantiques latentes et de noyaux de Fisher ont été proposées pour la première fois il y a dix ans par T. Hofmann dans le contexte du “Probabilistic Latent Semantic Indexing”, puis étendues par Nyffenegger et al. (2006). Le présent article présente une étude approfondie et une révision de ces modèles par (1) une des- cription unifiée et simplifiée, (2) une étude du rôle de la matrice d’information de Fisher G (), et (3) une analyse de l’impact des paramètres associés aux catégories latentes.

Analyse des inférences pour la fouille d’opinion en chinois

Mon, 01 Jan 0001 00:00:00 +0000

Résumé a fouille d’opinion est une activité essentielle pour la veille économique, facilitée par les réseaux sociaux et forums dédiés. L’analyse repose généralement sur des lexiques de sentiments. Pourtant, certaines opinions sont exprimées au moyen d’inférences. Dans cet article, nous proposons une classification des inférences utilisées en chinois dans des commentaires touristiques, à des fins de fouille d’opinion, selon trois niveaux d’analyse (réalisation sémantique, modalité de réalisation, et mode de production).

Annotation semi-automatique de grandes BD images : Approche par graphes de voisinage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’annotation d’images constitue l’outil principal pour l’association d’une sémantique à une image. Dans cet article nous nous intéressons à l’annotation semi-automatique d’images. En effet, avec la grande masse de données gérées à travers le monde et surtout avec l’avènement du web, l’annotation manuelle de ces images est pratiquement impossible. Cet article présente un travail préliminaire sur une démarche basée sur les graphes de voisinage. La démarche que nous proposons offre, comme montré dans la section des expérimentations, des résultats d’annotation intéressants.

D'une compacité positionnelle à une compacité probabiliste pour un système de Questions / Réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une discussion sur la définition d’un score de compacité pour permettre l’extraction d’une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être succinctement décrit comme une fonction liée a la densité des termes de la question dans le voisinage d’une réponse candidate, est présenté en détail. Ensuite, une discussion nous amène à envisager une extension de ce score, initialement défini d’un point de vue positionnel, vers un modèle probabiliste ; cela afin de mieux prendre en compte des critères d’importance variable pour les mots de la question.

Data-to-Text: Vers la génération de texte à partir de données non-linguistiques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons à la problématique de la génération du langage natu- rel dont l’objectif est de transcrire un contexte d’entrée vers une description adéquate de ce contexte. Plus particulièrement, nous abordons la problématique du “data-to- text” qui se focalise sur les descriptions de données non linguistiques, comme les ta- bleaux numériques ou les graphiques. Dans ce papier, nous exposons l’état de l’art relatif à ce domaine : nous décrivons les mécanismes de base de la traduction neu- ronale automatique (NMT) qui sont les fondements des modèles de génération et les avancées récentes pour le cas particulier du “data-to-text”.

Détection de locuteurs dans les séries TV.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La segmentation de flux audio en locuteurs apparaît particulièrement délicate lors- qu’elle est appliquée à des films de fiction, où de nombreux personnages parlent dans des conditions acoustiques variables (musique de fond, bruitages, fluctuations dans l’intonation…). Au-delà d’une telle variabilité acoustique, ce type de films exhibe cependant de la régularité sur le plan visuel, particulièrement dans les passages dialogués. Nous introduisons dans ce papier une méthode en deux temps pour procéder à la segmentation en locuteurs d’épisodes de séries TV : un premier regroupement en locuteurs est effectué localement, dans les limites de scènes visuellement identifiées comme des dialogues ; les locuteurs conjecturés sont ensuite comparés lors d’une deuxième phase de regroupement afin de détecter les locuteurs récurrents : cette deuxième étape de regroupement a lieu sous la contrainte que les différents locuteurs impliqués dans un même dialogue soient assignés à des groupes distincts.

Expansion de requêtes par apprentissage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche d’expansion automatique de requêtes par appren- tissage. L’expansion de requêtes se fait par l’ajout de termes provenant de règles d’association entre termes. Le problème d’expansion de requêtes est modélisé comme un problème de classifi- cation superviséE qui vise à déterminer les règles d’association les plus adaptées pour enrichir une requête donnée. Un ensemble de données d’entraînement est construit en utilisant un algo- rithme d’exploration de règles d’association pertinentes, basé sur les algorithmes génétiques.

Extraction de propriétés de produits.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le travail présenté dans cet article vise à extraire automatiquement certaines carac- téristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d’un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l’aborder, nous avons testé deux approches : une méthode d’extraction fondée sur des dictionnaires et une méthode d’apprentissage automatique avec les CRF (Champs Aléatoires Conditionnels), pour lesquels nous avons essayé un grand nombre de modèles.

Filtrage de textes dans le but de produire un résumé de documents multiples.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de la conférence d’évaluation DUC, nous avons développé un système de résumé automatique de documents multiples qui se base sur l’extraction des phrases clés. La méthode proposée utilise un algorithme génétique qui permet de combiner les phrases des documents sources pour former les extraits, qui seront croisés et mutés pour générer de nouveaux extraits. L’examen des résultats obtenus dans les deux sessions DUC'04 et DUC'07 a montré un écart significatif au niveau des performances du système développé.

Identification et structuration hiérarchique des titres dans les documents HTML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une méthode pour automatiquement identifier et structurer hiérarchiquement les titres dans les documents HTML. Bien que la syntaxe HTML propose des balises de titres, l’usage de ces balises dans beaucoup de documents n’est pas correct ou ces balises ne sont pas utilisées. Notre méthode se base sur les propriétés visuelles, telles la taille ou la couleur de la police, obtenues grâce aux feuilles de style (CSS).

Langage de recherche d'associations sémantiques à partir d'une base de connaissances.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de l’extraction d’associations sémantiques (liens complexes/chemins), nous définissons des requêtes d’extraction des chemins comme sorte d’extraction des relations complexes dans un graphe RDF reliant deux entités spécifiées. Plusieurs besoins d’extraction des chemins peuvent être formulés. Néanmoins, les langages d’interrogation RDF existants n’offrent pas de mécanisme adéquat pour formuler des requêtes destinées à l’extraction des chemins. Afin de pallier à cette défaillance, nous proposons un nouveau langage (PmSPARQL) permettant d’étendre le langage d’interrogation actuel de W3C (SPARQL).

Méthodologie pour une représentation multi-dimensionnelle des documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La représentation des documents et questions en Recherche d’Information (RI) est res- tée une représentation majoritairement uni-dimensionnelle (i.e., vecteur). Cette représentation a des limites : Comment par exemple représenter un document qui traite de plusieurs thèmes ou une question ambiguë ? Ces problèmes sont importants pour développer des systèmes de RI interactifs ou cherchant à diversifier les résultats. Les modèles actuels sont soit basés sur des heuristiques, soit sur des modèles latents qui pré-supposent un nombre limité de thèmes pour décrire les documents.

Modèles de Document Parcimonieux basés sur les annotations et les word embeddings – Application à la personnalisation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons dans cet article des modèles de langues parcimonieux sociaux de documents qui permettent de détecter les termes les plus importants du document et d’éliminer les termes communs ou non significatifs. La détection de ces termes est guidée et renforcée par les liens entre les termes du document et ses annotations sociales (tags). En prenant le contre- pied des approches classiques de personnalisation qui généralement s’intéressent en priorité aux profils utilisateurs ou à la fonction de correspondance, notre proposition porte sur la mise en avant des termes les plus importants des documents afin de mieux personnaliser les réponses.

Semantic Clustering using Bag-of-Bag-of-Features.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le calcul de distances entre représentations textuelles est au coeur de nombreuses ap- plications du Traitement Automatique des Langues. Les approches standard initiallement déve- loppées pour la recherche d’information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d’attributs) avec des pondérations de type TF-IDF ou des variantes, une représentation vectorielle et des fonctions classiques de similarité comme le cosinus.

Une approche non supervisée pour le typage et la validation d'une réponse à une question en langage naturel : application à la tâche Entity de TREC 2010.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’entités nommées a été le sujet de nombreux travaux en recherche d’in- formation. Dans ce papier, nous cherchons à déterminer si une entité est d’un type donné, et ce de manière non-supervisée et quel que soit son type. Nous proposons pour cela une approche basée sur l’utilisation de modèles de langage estimés à partir du web. De plus, nous souhaitons déterminer si cette nouvelle information peut être utilisée efficacement pour améliorer le clas- sement des réponses (entités) candidates à une question en langue naturelle.

Une méthode pour l'évaluation automatique de la difficulté d'une requête.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans des applications de recherche documentaire, il est souvent utile d’avoir une me- sure de confiance dans l’ensemble de document trouvés, afin de pouvoir proposer un traitement spécifique (automatique ou interactif) des requêtes particulièrement difficiles, ou encore sim- plement avertir l’utilisateur de la faible fiabilité de l’information proposée. Pour cela, nous avons analysé différents indicateurs potentiels de performance de recherche par rapport aux requêtes données. Cet article se concentre sur les scores utilisés par différent types de systèmes de recherche documentaire pour le classement relatif des documents, et leur utilisation comme estimateurs absolus de performance.

Vers un passage à l'échelle pour un SGBD d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Un système de gestion de bases d’images doit a priori s’appuyer sur un système de gestion de bases de données (SGBD). Dans cet article, nous examinons expérimentalement les limitations des SGBD relationnels. Nous identifions ainsi un certain nombre d’écueils et apportons Abstract An image database system should use a database management system (DBMS). In this paper, we experiment relational DBMS limitations for such a purpose. We identify a number of pitfalls and provide some solutions too.

Classification de Structures Arborescentes : Cas de Documents XML

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode de classification structurelle de documents XML. Notre approche consiste d’abord à extraire automatiquement la structure arborescente de chaque document XML à classer, et ensuite à utiliser cette structure comme modèle de représentation pour la classification du document XML correspondant. L’appariement de ces structures est fondé sur un calcul de leurs similarités. Pour l’expérimentation nous avons utilisé un corpus INEX. Abstract In this paper we present a clustering method for XML documents.

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Mon, 01 Jan 0001 00:00:00 +0000

Résumé et article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d’un modèle de résolution des coréférences en français à l’aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s’inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en passant par des classifieurs spécifiques à chaque type de situation interactive, puis chaque type de relation de coréférence.

Evaluation de la réponse d'un système de question-réponse et de sa justification.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de question-réponse fournissent une réponse à une question en l’ex- trayant d’un ensemble de documents. Avec celle-ci ils fournissent également un passage de texte permettant de la justifier. On peut alors chercher à évaluer si la réponse proposée par un système est correcte et justifiée par le passage. Pour cela, nous nous sommes fondés sur la vérification de différents critères : le premier tient compte de la proportion et du type des termes communs au passage et à la question, le second de la proximité de ces termes par rapport à la réponse, le troisième compare la réponse à considérer avec celle obtenue par le système de question-réponse F RASQUES utilisé sur le passage à juger et le dernier est une vérification du type de la réponse.

Évaluation de modèles de classification automatique appliqués à la détection d'opinions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente et évalue différentes stratégies de classification automatique d’opinions. Ces dernières sont exprimées dans des phrases que le système doit classifier comme renfermant ou non une opinion. Dans ce but, nous avons retenu une classification basée sur le modèle Naïve Bayes et une autre basée sur des séparateurs à vaste marge (SVM). Comme alternative, nous suggérons un modèle basé sur le vocabulaire spécifique et le calcul d’un score normalisé (score Z).

Evaluation modulaire d'un système de questions-réponses sur un corpus de questions semi-spontanées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une évaluation séquentielle du système de questions-réponses modulaire et stochastique SQuALIA. L’évaluation se fonde sur un corpus de question semi- spontanées obtenu en faisant poser 20 questions de référence à des adultes francophones, non francophones ou dyslexiques. Les expériences montrent que ce sont les fautes d’orthographe qui ont le plus d’impact sur les modules d’analyse. En moyenne le système parvient à ne trouver des réponses qu’à 60% des questions posées, ce qui conduit à imaginer l’intégration d’un correc- teur orthographique en amont des systèmes, plus de souplesse dans l’analyse, et la conservation de l’incertitude tout au long du processus en le formalisant à l’aide d’un modèle probabiliste.

Influence des lexiques d’émotions et de sentiments sur l’analyse des sentiments

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les consommateurs ont l’habitude de consulter les critiques postées sur internet avant d’acheter un produit. Mais, il est difficile pour le consommateur de connaître l’opinion globale du produit vu le nombre important de ces critiques. L’analyse des sentiments permet de détecter la polarité (positive, négative ou neutre) sur une opinion exprimée et donc de classer ces critiques. Notre but est de déterminer l’influence de l’expression des émotions sur l’analyse de la polarité des critiques de livres.

Interprétation linguistique de requêtes pour un moteur de questions réponses grand public.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit l’utilisation d’une plateforme de traitement automatique des langues naturelles pour le développement d’une fonction de réponses à des questions dans un moteur de recherche. Cette plateforme est utilisée pour faire une interprétation linguistique des re- quêtes. L’intérêt de cette approche est triple. Premièrement elle permet d’identifier uniquement les requêtes qui correspondent à des questions factuelles pour lesquelles le moteur a une ré- ponse précise. Deuxièmement, elle reconnait ces questions quelque soit leur forme linguistique y compris avec des erreurs.

Lecture Séquentielle de Documents pour la Classification.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d’un agent qui lit un docu- ment phrases après phrases et qui peut à tout moment décider d’associer un document à une ou plusieurs catégories données. L’algorithme proposé se base sur une formalisation de la classi- fication de texte en tant que Processus de Décision Markovien, et un apprentissage du modèle par des techniques de renforcement.

Modèle Neuronal de Recherche d’Information Augmenté par une Ressource Sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nombreux travaux en recherche d’information (RI) ont montré l’apport de la sémantique des mots pour améliorer l’appariement de document-requête. D’une part, la sémantique symbolique dérivée de ressources externes permet de représenter des entités et leurs relations explicites. D’autre part, la sémantique distributionnelle inférée des corpus permet de représenter les relations sémantiques implicites d’un corpus. Dans cet article, nous proposons de combiner ces deux types de représentations sémantiques. Ainsi, nous présentons un modèle neuronal pour la RI ad-hoc qui exploite les représentations sémantiques latentes des documents et des requêtes en bénéficiant des concepts et des relations exprimés au sein d’une ressource externe.

Modèles de langue appliqués à la recherche d'information contextuelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Il est reconnu que le contexte joue un rôle important en recherche d’information (RI). Or, très peu de systèmes opérationnels le considèrent. Dans cet article, nous considérons un des aspects du contexte u le domaine d’intérêt de l’usager. Nous caractérisons un domaine d’intérêt par un ensemble de documents. Nous utilisons une approche de modélisation de langue statistique pour établir un modèle de langue du domaine. Ce modèle est utilisé de trois façons : pour étendre la requête initiale, pour réordonner les documents retrouvés, et pour exploiter les relations lexicales spécifiques au domaine.

Modèles de langue pour la mise à jour d'un profil d'entité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous souhaitons renvoyer à partir de documents issus du Web, ceux apportant des informations nouvelles sur une entité donnée. Ces documents peuvent ainsi servir à mettre à jour un profil existant (par exemple une page Wikipedia) de cette entité. Notre approche se base initialement sur un appariement des mentions de l’entité afin de renvoyer un premier ensemble de documents pertinents, puis s’appuie sur des modèles de langue estimés à partir de différentes unités d’information.

Query by Example for Symbolic Still Image Retrieval.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit et défini l’utilisation de requêtes par l’exemple (QBE) dans le cadre de recherche symbolique d’images photographiques. La nouveauté de cette approche consiste en l’utilisation conjointe d’indexation symbolique automatique et d’un formalisme de représentation de connaissances pour représenter le contenu des images. De plus, le mécanisme d’abstraction perm la recherche d’images par l’exemple et le bouclage de pertinence basés sur la représentation symbolique des images, et pas sur leur description signal de bas niveau.

Tied Spatial Transformer Networks for Character Recognition.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une nouvelle approche appliquée aux réseaux de neurones convolutionnels Abstract This paper reports a new approach applied to convolutional neural networks (CNNs),

Translating Chinese Romanized Name into Chinese Idiographic Characters via Corpus and Web Validation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La performance en recherche d’information translingue dépend de la qualité des ressources de traduction utilisées pour passer de la langue source (requête d’utilisateur) vers la langue cible des documents. Les listes de traduction de noms de personnes sont rares, et constituent en même temps des ressources essentielles pour la recherche d’information translingue entre des langues utilisant des jeux de caractères différents. Les dictionnaires de traduction d’entités nommées peuvent être extraits des corpus bilingues avec un certain succès, mais le problème du recouvrement de ces corpus bilingues, rares, reste présent.

Utilité et perception de la diversité dans les systèmes de recommandation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De récentes études ont montré que la diversité dans les systèmes de recommandation est positivement corrélée à la satisfaction des utilisateurs et renforce/facilite leur choix d’un item (Castagnos et al., 2010). Si l’impact de cette nouvelle dimension a été mesuré, les raisons d’un tel succès restent cependant encore inexpliquées. Forts de ce constat, notre objectif est d’analyser plus finement l’utilité réelle et perçue de la diversité dans les systèmes de recomman- dation.

Vers une annotation sémantique des images web fondée sur des patrons RDF.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de cet article est de proposer une nouvelle méthode d’annotation sémantique d’images en RDF utilisant les facteurs contextuels de l’image. L’idée de base consiste tout d’abord à préparer différents patrons d’annotation RDF en utilisant une collection et une on- tologie de domaine, puis à projeter les documents de collection sur ces patrons vides afin de les instancier, et enfin à utiliser une mesure permettant d’ordonner les patrons du plus repré- sentatif au moins représentatif.

An Integrated Approach for Context-Aware Query Recommendation in Folksonomies.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’essor des sites collaboratifs sur Internet a permis la naissance de nouvelles formes d’indexations des contenus du Web, créées librement par les usagers et partagées au sein de réseaux sociaux, baptisées sous le nom de folksonomie. Considérées comme source de don- nées, ces dernières s’avèrent d’un grand intérêt pour la Recherche d’Information. Cependant, la démarche de recherche dans les folksonomies diffère des stratégies de recherche de la traditionnelle médiation des moteurs de recherche dans la mesure où elle ne prend pas en considéra- tion l’aspect social et comportemental des usagers.

Building a Knowledge Base Using Microblogs: the Case of Festivals and Location-Based Events.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les médias sociaux comme twitter sont très utilisés lors d’un évènement (conférence, catastrophe, évènement culturel…) pour collaborativement commenter ou donner des avis sur son déroulement. Les utilisateurs du réseau social sont alors avertis via les personnes qu’ils suivent ou en recherchant les tweets portant sur l’évènement. Cependant compte tenu de la taille d’un tweet, l’information obtenue par un seul post est souvent très partielle. L’utilisation d’un ensemble de tweets sur un évènement peut permettre d’avoir une vue plus complète en combinant toutes les informations postées.

Classification de documents combinant la structure et le contenu.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c’est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise.

Construction de patrons lexico-syntaxiques d’extraction pour l’acquisition de connaissances à partir du web

Mon, 01 Jan 0001 00:00:00 +0000

Résumé et article présente une méthode permettant de collecter sur le web des informations complémentaires à une information prédéfinie, afin de remplir une base de connaissances. Notre méthode utilise des patrons lexico-syntaxiques, servant à la fois de requêtes de recherche et de patrons d’extraction permettant l’analyse de documents non structurés. Pour ce faire, il nous a fallu définir au préalable les critères pertinents issus des analyses dans l’objectif de faciliter la découverte de nouvelles valeurs.

Définition d'un profil multidimensionnel de l'utilisateur : Vers une technique basée sur l'interaction entre dimensions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La personnalisation d’un processus d’accès à l’information a pour objectif de délivrer à l’utilisateur une information appropriée à ses préférences, ses centres d’intérêts ou plus globalement son profil. Ce papier présente une technique de construction du profil de l’uti- lisateur qui s’inscrit dans une approche statistique utilisant le comportement de l’utilisateur comme source permettant de prédire implicitement son modèle. Cette technique s’articule plus particulièrement sur l’interaction entre dimensions du profil représentées par l’historique des recherches et centres d’intérêt de l’utilisateur.

Enrichissement d'ontologie par une base générique minimale de règles associatives - application aux maladies neurologies : les dystonies.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons d’utiliser une base générique minimale de règles as- sociatives entre termes (RA), afin d’enrichir automatiquement une ontologie de domaine exis- tante. Initialement, des RA non redondantes entre termes sont extraites à partir d’un corpus du domaine. Ensuite, le rapprochement des termes candidats est effectué grâce à la mise en cor- respondance entre les concepts de l’ontologie initiale et les prémisses des RA, moyennant trois mesures de distance que nous définissons.

Exploitation de syntagmes dans la découverte de thèmes

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de cet article est d’étudier l’apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l’hypothèse qu’ajouter des syntagmes à la représentation des documents– pour lesquels ne sont traditionnellement considérés que les mots simples– permettrait d’améliorer la qualité d’un modèle de thèmes, en l’occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un corpus catégorisé de 20 000 résumés d’articles scientifiques.

Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d’obtenir les mêmes performances que dans le cas d’une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc- tions exactes d’un grand nombre de mots composés qui peuvent être présents dans une requête.

Modélisation de l'extraction des descripteurs visuels - Intégration de relations topologiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Malgré son rôle majeur dans l’annotation automatique, le processus d’extraction des descripteurs visuels n’est pas encore explicitement modélisé, et la contribution de chacune de ces étapes sur la qualité de l’annotation n’est pas suffisamment étudiée. Dans cet article, nous proposons un modèle (appelé phrasage) pour l’extraction des descripteurs visuels. Afin de construire des descripteurs plus riches, nous définissons, à partir de ce modèle, la prise en compte de relations topologiques entre régions d’intérêt via une nouvelle technique de regroupement.

Passé, présent, futurs : induction de carrières professionnelles à partir de CV.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’extraction, la structuration et l’exploitation d’informations à partir de données textuelles brutes est une tâche complexe. L’apprentissage de représentation permet de dépasser la barrière syntaxique que représente le codage textuel et d’encoder les informations selon des règles définies. Les dernières avancées en apprentissage statistique ont permis d’améliorer considérablement l’analyse sémantique des textes. Dorénavant, le principal verrou technolo- gique se déplace vers le raisonnement afin d’extrapoler des connaissances non-explicites. Dans cet article, nous nous intéressons à l’apprentissage d’un espace latent sur un large corpus de CV pour l’induction de carrières professionnelles.

SC-LSH: Une Méthode d'Indexation pour une Recherche de Similarité Approximative dans l'Espace Multidimensionnel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Locality Sensitive Hashing (LSH) est l’une des techniques les plus prometteuses pour la résolution des problèmes de la recherche des plus proches voisins dans l’espace de grande dimension. Euclidien Exact LSH (E2LSH) est la variante la plus populaire du LSH qui a été appliquée avec succès dans de nombreuses applications multimédia. Toutefois, l’E2LSH présente des limitations qui affectent les performances de recherche. La principale limitation de l’E2LSH est l’espace mémoire important utilisé.

Séparation imprimé-manuscrit par étude de la linéarité et de la régularité du texte.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de cet article est de proposer une méthode pour la séparation entre manuscrit et imprimé dans des documents. La méthode proposée repose sur des descripteurs originaux appartenant Abstract In this paper, we address the issue of separating handwriting from printed text in doc- ument images. We present a reliable method based on a novel set of features belonging to two different categories, linearity and regularity, invariant to translation and scaling.

Traduction automatique de termes biomédicaux pour la recherche d'information interlingue.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une méthode de traduction automatique de termes biomédicaux. Cette méthode s’appuie sur une technique originale d’apprentissage supervisé de règles de réécriture et sur l’utilisation de modèles de langue. Les évaluations présentées montrent que notre technique est très performante et permet de traduire à partir et à desti- nation de n’importe quelle langue pourvu que leurs différences soient suffisamment régulières pour être apprises. Cette méthode de traduction est appliquée et évaluée sur une tâche de RI interlingue dans le domaine biomédical avec des requêtes dans différentes langues (français, espagnol, portugais, russe, italien); les bons résultats obtenus démontrent l’intérêt de cette ap- proche automatique pour la recherche d’information.

Une méthode contextuelle d'extension de requête avec des groupements de mots pour le résumé automatique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous décrivons les différentes étapes de construction du système de Abstract This paper describes the different steps which lead to the construction of the LIP6 extractive summarizer. The basic idea behind this system is to expand question and title key- words of each topic with their respective cluster terms. Term clusters are found by unsupervised learning using a classification variant of the well-known EM algorithm. Each sentence is then characterized by 4 features, each of which uses bag-of-words similarities between expanded topic title or questions and the current sentence.

Utilisation des liens entre documents structurés pour la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une approche pour rechercher des documents structurés qui intègre les liens existants entre les parties de documents ainsi que la composition structurelle des documents. Les liens entre les parties de documents sont caractérisés par des notions d’exhaustivité et de spécificité relatives, utilisées pour définir la valeur de pertinence des parties de documents. Nous proposons une approche par fonction de correspondance stratifiée pour utiliser ces éléments lors de la recherche de documents.

Algorithme de recherche approximative dans un dictionnaire fondé sur une distance d'édition définie par blocs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons un algorithme de recherche approximative de chaînes dans un dic- tionnaire à partir de formes altérées. Cet algorithme est fondé sur une fonction de divergence entre chaînes– une sorte de distance d’édition: il recherche des entrées pour lesquelles la distance à la chaîne cherchée est inférieure à un certain seuil. La fonction utilisée n’est pas la distance d’édition classique (distance DL); elle est adaptée à un corpus, et se fonde sur la prise en compte de coûts d’altération élémentaires définis non pas sur des caractères, mais sur des sous-chaînes (des blocs de caractères).

Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé et article explore la construction de représentations formelles d’énoncés en langue naturelle. Le passage d’un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l’analyse syntaxique de l’énoncé à une représentation sémantique. Nous ciblons l’aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c’est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l’enjeu serait d’apporter une aide au concepteur.

Apprentissage Actif avec une Méthode de Réordonnancement pour l'Indexation et la Recherche de Vidéos.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche de vidéos peut être faite en ordonnant les échantillons en fonction de scores de probabilité produits par des classifieurs. Il est souvent possible d’améliorer la per- formance des systèmes par un réordonnancement de ces échantillons. Dans cet article, nous proposons une telle méthode et nous proposons également la combinaison de cette méthode avec un apprentissage actif pour l’indexation de vidéos. Les résultats expérimentaux montrent que la méthode de réordonnancement proposée a été en mesure d’améliorer la performance du système avec une augmentation d’environ 16-22% du score en moyenne sur la tâche d’indexa- tion sémantique en TRECVID 2010.

Diversité de recommandations - Application à une plateforme de blogs et évaluation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de recommandations (SR) ont pour objectif de proposer automatiquement à l’usager des objets en relation avec ses intérêts. Dans le contexte de la recherche documen- taire, les intérêts de l’usager peuvent être modélisés à partir des contenus des documents visités ou des actions réalisées. Pour tendre vers des recommandations plus pertinentes, nous propo- sons un modèle de SR qui construit une liste de recommandations répondant à un large spectre d’intérêts potentiels.

Extraction de zones informatives dans des images de formulaire en couleur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons, dans cet article, une approche permettant de localiser des zones informatives dans des documents couleur, par extraction de zones rectangulaires de couleur homogène. L’objectif de ce travail est d’obtenir des ancres pour le répérage et l’extraction d’information textuelle. L’approche proposée repose sur trois étapes. La première consiste à procéder à un filtrage de bruit, tout en évitant de créer de nouvelles couleurs ou de causer des distortions des contours.

Feature Selection in Sentiment Analysis.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cette communication, nous proposons une nouvelle méthode pour la sélection des termes et la classification automatique de sentiments. Pour déterminer les caractéristiques les plus adéquates d’une catégorie, nous nous appuyons sur le score Z. Cette mesure nous permet de définir les termes pertinents et, recourant à la mesure du gain d’information, nous pouvons également évaluer les termes dans le voisinage des termes pertinents. Sur ces deux éléments, nous proposons un nouveau modèle de classification.

Impact précoce du poids des balises pour la recherche d'information ciblée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article traite de l’intégration des balises XML dans la fonction de pondération des termes, pour la recherche d’information (RI) XML ciblée. Notre modèle permet de considérer un certain type d’information structurelle: les balises qui représentent la structure logique des documents (titre, section, paragraphe, etc.) ainsi que les balises liées à la mise en forme (gras, italique, centré, etc.). Nous prenons en compte l’influence des balises sous forme d’un poids en estimant la probabilité pour une balise de mettre en évidence les termes pertinents.

Modélisation de relations dans l'approche modèle de langue en recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous abordons dans cet article le problème de la prise en compte de relations (par exemple de nature syntaxique ou sémantique) dans un modèle de langues en recherche d’infor- mation. En particulier, nous proposons, sur la base du modèle de langue, un cadre complet pour la prise en compte de relations, étiquetées ou non. Afin d’illustrer ce cadre, nous avons conduit une série d’expériences fondées sur différentes indexations structurées (grammaire de dépen- dances et graphes de relations entre concepts) dans le domaine médical.

Passage à l'Echelle - Une méthodologie d'étude de l'influence du volume de collection sur les modèles de Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Peu de travaux en Recherche d’Information (RI) ont jusqu’alors abordé les questions d’efficience et d’efficacité des systèmes de RI dans le contexte du passage à l’échelle dans la taille des corpus. Nous proposons une démarche expérimentale reproductible (pour l’étude de l’influence du passage à l’échelle sur les modèles de RI) basée sur la construction d’une col- lection sur laquelle une caractéristique donnée est la même quelle que soit la portion de collection selectionnée.

Personnalisation de services Web: approche fondée sur la composition.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nos jours, les exigences des clients contraignent souvent les entreprises à assurer une diversité de plus en plus accrue dans la gamme de leurs produits et services. Ceci a donné lieu, très récemment, au paradigme de personnalisation de masse. Ainsi les produits et services seront conçus de sorte à permettre un maximum de configurations différentes. La prolifération exponentielle du nombre de services offerts sur le Web et l’aspect cosmopolite de ce dernier motivent l’application de ce paradigme aux services Web.

Processing Natural Language Queries to Disambiguate Named Entities and Extract Users' Goals : Application to e-Tourism.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une étude qui s’inscrit dans le cadre d’un projet plus large qui Abstract This paper presents a study which is part of a broader project. This latter aims at providing

Recherche d'information et analyse bibliographique appliquées à la mise à jour automatique de Swiss-Prot.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l’information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu’un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l’information de l’entrée de cette protéine dans la base.

Réseaux de neurones de quaternions pour le traitement du langage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les algorithmes d’apprentissage automatique, comme les réseaux de neurones (NN), ont permis d’atteindre des performances notables dans de nombreuses tâches liées au traite- ment automatique du langage (TAL). En TAL les contenus sont généralement représentés dans des espaces lexicaux ou thématiques. Les méthodes de traitement des contenus- y compris celles basées sur des NN- opèrent donc dans des espaces où les relations statistiques entre les élé- ments du document sont faiblement considérées.

Système de recherche d'information pour les tâches métier.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’usager peut avoir du mal à trouver les informations pertinentes dont il a besoin pour accomplir sa tâche métier. Pour résoudre ce problème nous présentons dans cet article l’architecture d’un système de recherche d’information applicable à un contexte métier qui permettra d’adapter les résultats de recherche d’information nécessaires aux tâches métier. Le système repose sur une proposition de modèle triptyque du contexte métier qui englobe la modélisation des trois parties interdépendantes du contexte : l’usager, la tâche et l’environnement.

Accès personnalisé à de multiples serveurs d'informations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit une approche de la recherche d’information permettant l’accès personnalisé à plusieurs serveurs d’information. L’accès à des serveurs d’informations distribués est souvent effectué en trois étapes, la première consiste à sélectionner les serveurs pertinents pour la requête, puis soumettre la requête à ces serveurs sélectionnés et finalement fusionner les résultats retournés par ces serveurs. L’objectif de cet article est d’intégrer l’utilisateur via son profil dans les processus de sélection et de fusions des résultats des serveurs.

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’inscrit dans le cadre général de la problématique du passage à l’échelle dans la taille des corpus en l’abordant plus précisément sous l’angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d’une évaluation expérimentale de leur impact sur l’efficacité de la recherche. Abstract None

Attribution d'auteur par ensembles de séparateurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’attribution d’auteur peut être analysée comme une tâche particulière en catégorisation de textes. Dans cette perspective, on définit d’abord une liste d’attributs pertinents (vocables dans cet article). Ensuite, on entraîne un modèle de classification afin de discriminer entre les auteurs potentiels. Pour améliorer la performance moyenne on peut s’appuyer sur un ensemble de séparateurs, la solution retenue étant celle de la majorité (bagging). Afin de générer ce groupe de classifieurs, nous présentons deux formes de variations possibles, d’une part en perturbant les profils d’auteurs et, d’autre part, la liste des attributs.

Clustering de documents dans des collections hétérogènes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La classification non supervisée (ou clustering) de documents permet d’organiser thématiquement une collection de documents de façon à faciliter l’accès à l’information, ou à proposer une vue synthétique du contenu d’un ensemble de documents. Néanmoins, quand la collection considérée contient des documents de type différent, cette hétérogénéité perturbe les résultats du clustering, en regroupant plus volontiers les documents selon leur type que selon leur thème. Nous présentons dans cet article une approche simple pour la prise en compte de l’hétérogénéité de la collection dans le clustering, en utilisant une sélection des traits de représentation qui s’appuie sur les différences de distributions des termes selon les types de document.

Extraction automatique de termes-clés : Comparaison des méthodes non supervisées de la littérature.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un état de l’art et une comparaison des méthodes non Abstract This article presents a state of the art and a comparison of unsupervised methods

Extraction de formules chimiques dans des documents manuscrits composites.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous abordons dans ces travaux, le problème de la segmentation de documents de cahiers de la chimie en zones homogènes. Les documents à traiter sont manuscrits sans contraintes composés de zones de textes, de tableaux et de graphiques, représentant l’expres- sion graphique de l’expérience réalisée. L’objectif de ce premier travail est d’extraire, dans chaque document, le bloc contenant le schéma graphique. Nous proposons une méthode d’ex- traction et de classification des structures élémentaires du document sur lesquels s’appuiera une technique de séparation verticale des blocs.

GraphDuplex: visualisation simultanée de N réseaux couplés 2 par 2.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’analyse des réseaux sociaux fait un usage intensif d’outils de visualisation et, dans le domaine de la recherche d’information, l’exploration visuelle de réseaux lexicaux est utilisée comme une aide à la désambiguïsation ou au raffinement de la requête. Ces deux types de réseaux se trouvent associés via Internet lorsqu’un contenu textuel est lié à une activité sociale (méls, blogs, travail collaboratif). Dans cet article, nous présentons un logiciel de visualisation simultanée de plusieurs réseaux, GraphDuplex, qui, combiné à des méthodes statistiques, permet par exemple d’étudier conjointement un réseau social (ou plusieurs) et son réseau lexical associé.

On the use of tolerant graded inclusions in information retrieval.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, un modèle de recherche d’information fondé sur la théorie des ensembles flous est considéré. Tout d’abord, nous montrons que le mécanisme de recherche dans un tel modèle peut être défini en termes d’inclusion graduelle. Cette approche est fortement liée à la notion de division dans un contexte de bases de données relationnelles. Dans un deuxième temps, nous mettons en évidence plusieurs axes d’extension de l’inclusion graduelle, l’objectif étant de rendre l’indicateur d’inclusion (et donc le mécanisme de matching document-requête) plus tolérant, aux exceptions notamment.

Regroupement d’auteurs : Qui a écrit cet ensemble de romans ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente le problème du regroupement d’auteurs c’est-à-dire étant donné un ensemble n d’écrits, retournez le nombre k d’auteurs et regroupez dans k classes les textes par auteur. Liée au problème de l’attribution d’auteur, cette question possède toutefois la propriété d’être non-supervisée. Sur la base de deux collections de documents, une écrite en français, la seconde en anglais, diverses mesures de distance sont proposées et évaluées. Au niveau du choix des attributs, les m (avec m = 50 à 2 000) mots les plus fréquents ou les m unigrammes et bigrammes de lettres sont étudiés.

Représentations et régularisations pour la classification de sentiments.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d’un nouveau genre présentant de forts enjeux économiques et scienti- fiques. L’exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d’opinion est également d’affiner les profils d’uti- lisateurs et d’utiliser les sources ouvertes du web pour effectuer des sondages.

Résumé automatique guidé de textes: État de l’art et perspectives

Mon, 01 Jan 0001 00:00:00 +0000

Résumé es systèmes de résumé automatique de textes (SRAT) consistent à produire une représentation condensée et pertinente à partir d’un ou de plusieurs documents textuels. La majorité des SRAT sont basés sur des approches extractives. La tendance actuelle consiste à s’orienter vers les approches abstractives. Dans ce contexte, le résumé guidé défini par la campagne d’évaluation internationale TAC (Text Analysis Conference) en 2010, vise à encourager la recherche sur ce type d’approche, en se basant sur des techniques d’analyse en profondeur de textes.

Segmentation thématique : apport de la vectorisation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à la segmentation thématique d’émissions télé- visées à partir de la transcription automatique de leur bande-son. La segmentation thématique de textes a fait l’objet de travaux depuis de nombreuses années, et les techniques mises en oeuvre reposent souvent sur des descriptions de contenu et des calculs de similarité utilisés en recherche d’information. Dans cet article, nous proposons une technique s’inspirant des tra- vaux de morphologie mathématique utilisés en segmentation d’image.

Une approche de représentation de l'information en RI basée sur les sousarbres.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier propose une approche de recherche d’information basée sur l’utilisation Abstract The paper proposes an approach to information retrieval based on the use of a conceptual structure both for indexing document and expressing user queries. The conceptual structure is hierarchical and it is formally represented as a weighted tree. In this approach, the evaluation of queries is based on the comparison of minimal sub-trees containing the two sets of nodes corresponding to the concepts expressed in the document and the query respectively.

Vectorisation des processus d'appariement document-requête.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans la plupart des applications de RI, calculer rapidement la proximité entre do- cuments et requêtes est crucial. Avec les modèles vectoriels, ce calcul se fait généralement de manière très efficace. Cependant, lorsque les requêtes sont très longues ou dans le cas de SRI basés sur des modèles plus avancés, ce calcul devient plus complexe et coûteux. Dans cet article, nous proposons une technique simple pour transformer n’importe quel processus d’ap- pariement requête-document fournissant un score en un problème de calcul de distance entre vecteurs.

ANASTASIA : recommandation de séquences d'activités spatiotemporelles.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec l’augmentation du nombre et de la variété des activités accessibles par les utili- sateurs, la recommandation personnalisée de séquences d’activités devient un enjeu important. Or, la plupart des systèmes de recommandation ne tiennent pas compte des contraintes tem- porelles liées aux activités, ce qui rend la recommandation difficile à suivre par un utilisateur. Dans cet article, nous décrivons une nouvelle approche pour la recommandation de séquences d’activités limitées dans le temps et concurrentes.

Bagging de caractéristiques pour l'authentification d'auteur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les travaux en authentification d’auteur ont montré la difficulté de dépasser une stratégie simple telle qu’un classifieur linéaire opérant sur des représentations de type sac de caractéristiques des documents. Nous proposons pour surmonter cette difficulté d’utiliser les techniques de bagging de caractéristiques qui reposent sur l’apprentissage d’un ensemble de classifieurs appris sur des sous-ensembles aléatoires de caractéristiques, puis sur le vote de ces classifieurs en test. Abstract The authorship attribution literature demonstrates the difficulty to design classifiers that outperform simple strategies such as linear classifiers operating on bag of features rep- resentation of documents.

Clustering Spectral semi-supervisé avec propagation automatique des contraintes par paires.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans un monde guidé par les données, la classification est un outil essentiel pour ai- der les utilisateurs à appréhender la structure de ces données. Les techniques d’apprentissage supervisé permettent d’obtenir de très bonnes performances lorsque l’on dispose d’une base an- notée, mais un risque de sur-apprentissage existe toujours. Il existe de nombreuses techniques de classification non supervisée qui cherchent à construire la structure des données sans dispo- ser de données d’entraînement.

EDOLA : Une nouvelle méthode d'alignement d'ontologies OWL-Lite.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’alignement d’ontologies revêt toute son importance dans des applications nécessi- tant la prise en compte d’une interopérabilité sémantique. Plusieurs approches d’alignement d’ontologies existent dans la littérature. Elles sont basées sur les mesures de similarités. Dans ce papier, une nouvelle méthode d’alignement d’ontologies OWL-Lite est décrite. Le module d’alignement implémente une nouvelle approche d’alignement d’ontologies qui défi- nit un modèle global de calcul de similarité, tout en remédiant au problème de l’intervention de l’utilisateur dans le processus d’alignement.

Génération d'images semi-synthétiques de documents anciens à des fins d'évaluation de performances et d'apprentissage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous étudions comment des données semi-synthétiques permettent d’évaluer finement les performances d’algorithmes ou de fournir des données d’apprentissage à un système de traitement ou d’analyse d’images de documents. Les images semi-synthétiques que nous générons reproduisent fidèlement les défauts des documents anciens liés aux moyens d’impression anciens ou à la dégradation de l’encre des caractères. La première expérimenta- tion réalisée dans cet article vise à comparer les performances de différents descripteurs texture dans l’optique d’une segmentation d’images.

GVC: a graph-based Information Retrieval Mode.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract GVC is a new information retrieval model that is based on Graph Vertices Comparison (GVC). It implements a new similarity measure to compare documents and users’ queries based on graph matching. In this model, graphs are composed of two types of nodes. Documents, queries and indexing terms are viewed as vertices of this bipartite graph where each edge goes from a document or a query ufirst type of nodes- to an indexing term u second type of nodes-.

Identification de descripteurs pour la caractérisation de registres

Mon, 01 Jan 0001 00:00:00 +0000

Résumé ‘article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.

Intrégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une approche sociale pour la recherche d’information dans les microblogs intégrant diverses sources d’évidence au sein d’un réseau bayésien. Notre contribu- tion consiste à étendre la notion classique de pertinence, basée sur la similarité textuelle, par de nouveaux facteurs tels que l’importance sociale des blogueurs et la magnitude temporelle des microblogs. Dans ce papier, l’importance sociale d’un blogueur est assimilée à son in- fluence dans le réseau et est évaluée par un score de PageRank déduit sur le réseau de diffusion des microblogs.

Nouvelle approche de clustering par kernel-pattern via la densité en triades.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La détection des communautés est devenue un domaine de recherche majeur ces dernières années. Plusieurs algorithmes appliqués aux graphes orientés ont été developpés. Ces derniers se focalisent sur la densité de liens à l’intérieur des communautés et considèrent la relation entre les noeuds comme symmétrique, car ils ignorent l’orientation des liens, ce qui biaise les résultats en produisant des communautés non-significatives. Ce document propose un algorithme basé sur l’extraction des kernels via la distribution des triades, utilisant l’optimi- sation de la nouvelle métrique Kernel Degree Clustering (KDC), et trouve des communautés plus sémantiques que la modularité, en accord à la notion de centralisation de l’information.

Prise en compte des liens pour améliorer la recherche d'information structurée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous présentons deux adaptations de l’algorithme PageRank aux collections de documents XML et les résultats d’expérimentation obtenus pour la collection Wikipedia utilisée dans INEX 2007. Ces adaptations que nous appelons ‘DOCRANK’ et ‘HITS_docrank’ permettent un reclassement des résultats renvoyés par l’exécution de base (base run) pour en améliorer la qualité. Nos expérimentations sont effectuées sur les résultats renvoyés par les trois systèmes les mieux classés pour la tâche ‘Focused’ d’INEX 2007.

Proposition d'une nouvelle structure de document pour améliorer la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Actuellement l’information contenue dans les bibliothèques numériques n’est pas totalement décrite et son exploitation est insuffisante. La description de l’information en utilisant des métadonnées nous semble une bonne solution pour envisager une recherche d’information plus pertinente. Notre proposition est fondée sur la création et l’introduction au sein du document de “tags sémantiques” capables de décrire, dans notre cas, des thèses doctorales. Nous présentons l’analyse de quatre outils de Traitement Automatique des Langues (TAL) capables d’extraire automatiquement des concepts.

Recherche d'information dans les documents numériques : vers une variation des modalités d'exécution procédurale.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé ette recherche teste l’efficacité cognitive d’un nouveau système technique facilitant la recherche d’information dans les documents numériques. Ce système utilise un dispositif de prévisualisation par transparence permettant à l’utilisateur de consulter des pages en profondeur. Une expérimentation a été conduite auprès de 36 participants (jeunes et âgés). La tâche consistait à trouver un appartement cible possédant un ou plusieurs critères spécifiques dans un site web d’agence immobilière spécialement conçu. Deux versions de ce site ont été testées.

Une Indexation conceptuelle pour un filtrage par dimensions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le but de résoudre des requêtes multi-dimensions, nous proposons une indexation conceptuelle à l’aide d’un méta thésaurus médical (UMLS). Nous étudions l’impact de cette indexation par rapport à une indexation à base de mots. Nous montrons que l’usage du méta thésaurus est délicat à mettre en oeuvre mais peut donner des résultats supérieurs à une indexation par mots. Nous définissons ensuite la notion de dimensions des requêtes. En utilisant une organisation hiérarchique des concepts du méta thésaurus, nous proposons une technique simple pour filtrer le corpus en fonction des dimensions de la requête.

Vers un modèle d'indexation sémantique adapté aux dossiers médicaux de patients.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente un modèle d’indexation sémantique adapté aux dossiers électro- niques de patients. Ce modèle servira de support à des processus de recherche d’information médicale, permettant à terme de promouvoir l’expérience collective des médecins. Compte tenu de la spécificité de ce type de documents, le processus d’indexation est basé sur la succes- sion d’étapes d’annotation sémantique fondée sur l’utilisation de MeSH (Medical Subject Hea- dings), de désambiguïsation répondant au problème d’homonymie, d’extraction de valeurs cli- niques, puis de pondération des concepts.

AGATHE : une architecture générique à base d'agents et d'ontologies pour la collecte d'information sur domaines restreints du Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La collecte pertinente d’information sur le Web est une tâche très complexe et les moteurs de recherche actuels, reposant sur des méthodes d’indexation et de recherches basées sur des mots-clés, ont de très faibles taux de précision. Les recherches qu’ils réalisent sont essentiellement lexicales statistiques et ne prennent pas en compte leurs contextes sous- jacents. En se limitant à des domaines restreints, la prise en compte de ces contextes est possible et doit conduire à des collectes plus pertinentes.

Apprentissage de représentation pour la diffusion d'Information dans les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Depuis l’émergence des réseaux sociaux en ligne il y a une dizaine d’années, Abstract Modeling the diffusion of information on social media has mainly been treated as a diffusion process on known graphs, and under closed world assumptions. We introduce here a new approach to this problem whose principle is to learn a mapping of the observed interacting users onto a latent representation space in such a way that information diffusion can be modeled efficiently using a heat diffusion process.

Construction d’un corpus multilingue annoté en relations de traduction

Mon, 01 Jan 0001 00:00:00 +0000

Résumé es relations de traduction, qui distinguent la traduction littérale d’autres procédés, constituent un sujet d’étude important pour les traducteurs humains (Chuquet & Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu’à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un corpus parallèle multilingue (anglais, français, chinois) de présentations orales, les TED Talks.

DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’augmentation du nombre de documents numériques gérés par les entreprises n’a fait qu’accroître les difficultés d’exploitation des informations textuelles. Ces difficultés sont en grande partie liées aux volumes à manipuler, mais également à l’hétérogénéité des sources et aux normes de structuration des informations documentaires. Il devient alors nécessaire, voire indispensable, de disposer d’outils d’intégration rendant les informations utiles accessibles, permettant de les manipuler et de les analyser. A cette fin, nous proposons le concept d’entrepôt de documents permettant d’intégrer et d’organiser des informations hétérogènes.

Étude préliminaire à la recherche de photographies muséales en mobilité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article étudie la problématique de l’indexation et de la recherche d’image dans Abstract This paper studies the problem of images indexing and retrieval related to museum

Indexation multi-critères et différentes approches de combinaison.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier s’inscrit dans la continuité de travaux sur l’indexation et la recherche d’in- formation menés au LIUPPA sur des critères géographiques. L’information géographique a trois composantes : le spatial, le temporel et le thématique. Notre équipe a déjà travaillé sur le spatial et le temporel de façon indépendante. Aujourd’hui nous cherchons à combiner ces différentes composantes. Pour cela nous proposons d’utiliser une approche statistique, réser- vée habituellement à l’analyse plein-texte d’un document, pour le spatial et le temporel.

Mesurer la proximité entre corpus par de nouveaux méta-descripteurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Devant le nombre d’algorithmes de classification existants, trouver l’algorithme qui sera le plus adapté pour classer un corpus de documents est une tâche difficile. La méta- classification apparaît aujourd’hui très utile pour aider à déterminer, en fonction des expé- riences passées, quel devrait être l’algorithme le plus pertinent par rapport à notre corpus. L’idée sous jacente est que “si un algorithme s’est montré particulièrement adapté pour un cor- pus, il devrait avoir le même comportement sur un corpus assez similaire”.

On Combining Text and MeSH Searches to Improve the Retrieval of MEDLINE documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé MEDLINE est le plus grand répertoire au monde de résumés biomédicaux. Il demeure le point de départ de toute recherche d’information pour beaucoup de biologistes malgré la disponibilité croissante de l’intégralité des articles sur le Web. Chaque entrée MEDLINE est indexée manuellement avec des termes MeSH et afin d’améliorer la recherche, les champs MeSH ont déjà été utilisés avec succès dans des techniques de upseudo relevance feedback » et d’expansion de requête.

Plateforme d'étiquetage dynamique pour la fouille d'opinion.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les plateformes sociales (Twitter, blogs, forums), vecteurs de la diversité des points de vue de la collectivité, constituent un vivier de données convoité pour la fouille d’opinion et l’analyse de sentiments. Dans ce cadre, les méthodes appliquées en classification n’apprennent souvent que des sorties relativement frustes : celles-ci se réduisent à une polarité ou à une gradation linéaire. Est-il possible d’apprendre des motifs plus riches avec un nombre raison- nable d’exemples ?

Recherche d'information dans un corpus bruité (OCR).

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article désire mesurer la perte de performance lors de la recherche d’information dans une collection de documents scannés. Disposant d’un corpus sans erreur et de deux versions renfermant 5 % et 20 % d’erreurs en reconnaissance, nous avons évalué six modèles de recherche d’information basés sur trois représentations des documents (sac de mots, n-grammes, ou trunc-n) et trois enracineurs. Basé sur l’inverse du rang du premier document pertinent dépisté, nous démontrons que la perte de performance se situe aux environs de- 17 % avec un taux d’erreur en reconnaissance de 5 % et s’élève à u 46 % si ce taux grimpe à 20 %.

Recherche de microblogs : quels critères pour raffiner les résultats des moteurs usuels de RI ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Depuis quelques années, les services de microblogs, comme Twitter, attirent l’attention des internautes. Cet attrait peut s’expliquer par la facilité et la rapidité avec laquelle les internautes peuvent partager des informations, le plus souvent en temps réel. Les microbloggeurs, en parallèle de leur publication de microblogs, cherchent également souvent à collecter des informations récentes sur leurs derniers sujets d’intérêt. Trouver les meilleurs résultats pour un sujet demeure dépendant des caractéristiques des microblogs (comme par exemple la longueur très faible des messages, la qualité du langage utilisé, la fiabilité du diffuseur.

Regrouper des résultats SPARQL par comparaison de leurs contenus tels qu’ils sont agencés dans la base RDF interrogée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une nouvelle approche permettant de regrouper les résultats d’une requête SPARQL selon leurs similitudes. Afin de comparer les résultats, l’originalité de notre approche est de considérer pour chaque résultat les données constituant ce résultat telles qu’elles sont présentes et agencées dans la base RDF interrogée. Nous ne nous limitons donc pas à comparer les résultats entre eux, mais nous les re-contextualisons dans la base où ils ont été sélectionnés afin de tenir compte non seulement des ressources des résultats mais aussi de leurs liaisons avec les autres ressources dans la base, c’est à dire leurs voisinages.

Structure et proximité pour la recherche documentaire.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre étude compare les performances d’un système de recherche d’information basé sur la proximité des occurrences des termes de la requête dans les documents avec un système classique de modèle de langue avec lissage de Dirichlet et le modèle Okapi BM25 . Notre modèle basé sur la proximité calcule en chaque position du document une valeur d’autant plus grande que des occurrences de tous les termes de la requête sont proches de cette position.

Système de recherche d'informations spatiales basé sur le croquis à main levée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La quantité de données géographiques disponibles a considérablement augmenté ces dernières années. L’évolution du Web qui permet de partager et d’accéder à n’importe quel type d’information a encore augmenté cette disponibilité. Cependant, l’interrogation de données géographiques est souvent vue comme une opération difficile et coûteuse, car ces données ont des structures complexes et sont disponibles en différents formats et à différentes échelles. Récemment, des systèmes ont été développés pour permettre aux utilisateurs de dessiner ce qu’ils recherchent au lieu de traduire leurs demandes dans un langage d’interrogation textuelle.

Annotation automatique d’images: le cas de la déforestation

Mon, 01 Jan 0001 00:00:00 +0000

Résumé et article correspond à un état de l’art sur le thème de l’annotation automatique d’images d’observation de la terre pour la détection de la déforestation. Nous nous intéressons aux différents challenges que recouvre le domaine et nous présentons les méthodes de l’état de l’art puis les pistes de recherche que nous envisageons. Abstract utomatic image annotation : the case of deforestation. This paper aims to present the state of the art of the methods that are used for automatic annotation of earth observation image for deforestation detection.

Applying a family of IR models to text description-based service retrieval.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans l’étude rapportée dans cet article, nous appliquons et étudions une famille de modèles de Recherche d’Information (RI) afin de traiter le problème de la recherche de services, dont la description correspond aux requêtes des utilisateurs exprimées sous forme libre. Ainsi, nous appliquons quatre modèles qui, au meilleur de notre connaissance, n’ont été appliqués dans aucune des approches existantes de RI pour la découverte de services. Les deux pre- miere sont basés sur des modèles à base de factorisation de matrices appliquée à l’indexation sémantique latente (Latent Semantic Indexing, LSI).

Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’extraction d’informations bibliographiques depuis un texte non structuré demeure un probléme ouvert que nous abordons, via des approches d’apprentissage automatique, dans le domaine des Humanités Numériques. Nous présentons dans cet article le projet BILBO, soutenu par un Google Digital Humanities Award avec le soutien du projet ANR CAAS : constitution de 3 corpus de référence correspondant à trois localisations des références, élaboration d’un modéle d’annotation puis évaluation. Les champs aléatoires conditionnels (CRFs) sont utilisés pour l’annotation des références bibliographiques et des machines à vecteurs supports (SVMs) pour l’identification des références au sein du texte.

Clustering optimal de gènes fondé sur une mesure de similarité sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans de nombreux domaines d’application de l’analyse de données ou de la recherche d’information, il est utile de grouper de façon non supervisée des objets par similarité sans qu’il soit aisé de les représenter par des vecteurs de propriétés numériques. En biologie moléculaire, la similarité permet de capturer soit la structure complexe des objets (cas des molécules ou des séquences) soit la sémantique de leur description (cas des maladies ou des gènes).

Construire et évaluer une application de veille pour l'information sur les événements sismiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le développement d’applications opérationnelles de veille pour des domaines spéci- fiques nécessite l’intégration de nombreuses techniques et outils issus du champ de la recherche d’information et du traitement automatique des langues. Dès lors, un des défis présidant à une telle intégration est la prise en compte des limitations propres à chacune de ces techniques et outils en termes d’influence sur le résultat final du système. Plus précisément, nous pré- sentons dans cet article une application pour la surveillance des informations concernant les événements sismiques sur le Web.

Détection de communautés multi-relationnelles dans les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’explosion des réseaux sociaux a rendu indispensable leur analyse et leur exploration, notamment pour la détection des communautés. Plusieurs méthodes ont été proposées afin de détecter des composantes possédant des propriétés structurelles spécifiques en termes de graphe au détriment de l’aspect sémantique régissant les différents liens entres les entités du réseau. Dans cet article, nous présentons une nouvelle approche pour la détection de com- munautés dans les réseaux sociaux dont la principale originalité est la prise en considération aussi bien des liens structurels entre les entités que des attributs sémantiques les décrivant.

Exploitation des signaux sociaux pour estimer la pertinence a priori d'une ressource.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous proposons une approche de recherche d’information (RI) qui Abstract In this paper we propose an information retrieval (IR) approach which takes into account the social content associated with a resource to measure its a priori relevance to a query. We show how these characteristics, which are of the form of actions (social signals) such as the number of ’like’ and ‘share’, can be combined to quantify social properties such as popularity and reputation.

Indexation de documents multimédia par réseaux d'opérateurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le franchissement du fossé sémantique entre les descriptions au niveau signal et au niveau sémantique est le principal problème à résoudre pour l’indexation multimédia. Les ap- proches les plus avancées prennent en compte plusieurs types de descripteurs, plusieurs moda- lités et/ou le contexte pour améliorer la détection des concepts. Afin de maîtriser la complexité liée à l’intégration de données et de traitement hétérogènes que cela suppose, nous proposons une approche à base d’opérateurs organisés en réseaux flots de données.

Organisation du contenu du Web selon la perspective des systèmes complexes adaptatifs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le web continue à croître à une vitesse phénoménale. Trouver l’information pertinente sur le web reste toujours un grand défi. La large distribution, l’ouverture et la grande dynamique qui caractérisent le web, en font un système qui exhibe toutes les caractéristiques des systèmes complexes. Afin d’appréhender la complexité d’un tel système, il faudrait alors imaginer des mécanismes de maintenance, de filtrage et d’organisation de son contenu qui puissent prendre en compte sa dynamique évolutive et sa distribution.

Réordonnancement de réponses par transformation d'arbres pour un système de question-réponse oral interactif.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les techniques traditionnelles de recherche d’information montrent des limites pour extraire certaines réponses précises contenues dans des documents. Cet article présente une méthode de recherche d’informations adaptée au contexte d’un système de question-réponse oral interactif en domaine ouvert. Cette méthode vise à améliorer la sélection des meilleures réponses. Nous proposons une approche consistant à mesurer un coût de transformation entre deux arbres textuels qui rend compte des reformulations possibles entre un texte décrivant l’in- formation recherchée (question) et un passage de document.

REVISE, un outil d'évaluation précise des systèmes questions-réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Des campagnes d’évaluations sont organisées chaque année pour évaluer des systèmes de questions-réponses sur la validité des résultats fournis. Pour les équipes, il s’agit ensuite de réussir à mesurer la pertinence des stratégies développées ainsi que le fonctionnement des com- posants. À ces fi ns, nous décrivons un outil générique d’évaluation de type boîte transparente qui permet à un système produisant des résultats intermédiaires d’évaluer ses résultats. Nous illustrerons cette démarche en testant l’impact d’une nouvelle défi nition de la notion de focus.

Sélection de Caractéristiques pour le Filtrage de Spams.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La sélection des caractéristiques est une étape importante dans les systèmes de classification. Elle vise la réduction du nombre de caractéristiques tout en essayant de préserver ou d’améliorer la performance du classifieur utilisé. Dans cet article, nous proposons une démarche de sélection de caractéristiques, basée sur l’apprentissage automatique, dans le contexte du filtrage de spams qui est considéré comme une tâche de catégorisation de textes. Notre approche consiste à évaluer individuellement chacun des attributs décrivant les messages textuels afin d’ordonner les caractéristiques puis en sélectionner un sous-ensemble suite à une évaluation de performances effectuée en utilisant des classifieurs bayésiens (Naive Bayes) ou de type SVM (Support Vector Machines).

Using BLSTM for Interpretation of 2D Languages - Case of Handwritten Mathematical Expressions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons une extension à l’utilisation classique des réseaux de type BLSTM Abstract In this work, we study how to extend the capability of BLSTM networks to process

Connaître la Couleur des Objets pour Segmenter les Images et Améliorer la Recherche d'Images sur le Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les résultats des moteurs actuels de recherche d’images sur le web sont très bruités, c’est-à-dire que quand nous cherchons un objet précis, un grand nombre d’images retournées par le système ne concerne pas la requête : environ 50% de ces images sont hors-sujet. Dans cet article, nous expliquons comment utiliser la connaissance de la couleur des objets pour trouver l’objet recherché dans les images, et nous proposons également deux méthodes pour connaître automatiquement la couleur d’un objet, afin que le traitement dans son ensemble puisse être complètement automatique.

Détection d’influenceurs dans des médias sociaux

Mon, 01 Jan 0001 00:00:00 +0000

Résumé es influenceurs ont la capacité d’avoir un impact sur d’autres individus lorsqu’ils interagissent avec eux. Détecter les influenceurs permet d’identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d’analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d’abord une évaluation de différentes mesures de centralité sur la structure d’interactions extraites de Twitter puis nous analysons l’impact de la taille du graphe de suivi sur la performance de mesures de centralité.

Différentes interprétations d'un modèle de RI à base d'inclusion graduelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Récemment, un modèle théorique de RI à base d’inclusion graduelle a été proposé Abstract Recently, a theoretical fuzzy IR system, based on gradual inclusion measures, has been proposed (Bosc et al., 2008b). In this model, derived from the division of fuzzy relations, the gradual inclusion of a query in a document is modeled by a fuzzy implication. In previous papers, we have shown that, under some assumptions, this model can be seen as a Vector Space Model.

Fusion de systèmes pour la recherche de passages dans des textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé es systèmes de recherche d’information (RI) présentent une grande variabilité dans la liste des documents qu’ils retrouvent en réponse à une même requête. Dans cet article nous étudions l’apport de la fusion des résultats des systèmes pour la RI. Ainsi, nous utilisons les résultats obtenus sur un ensemble de 50 requêtes par différents systèmes qui ont participé à la tâche TREC de sélection de phrases pertinentes. Nous étudions la fusion par union et par intersection des résultats des systèmes, et nous montrons que la fusion aveugle apporte des améliorations peu sensibles.

Identification de phénomènes dans l'analyse d'interactions humaines: Les traces d'interactions humaines, un nouveau domaine d'application pour la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’étude socio-cognitive des interactions humaines médiatisées par ordinateur passe Abstract The socio-cognitve study of human computer-mediated interactions can be done through the analysis of increasingly larger and complex corpora composed of audio-video recording and interaction logÞles. In this article, we present and model the querying of such corpora with IR methods. We show that these models afford the transformation of certain inter- action analysis research questions into known IR problems.

Indexation conceptuelle par propagation. Application à un corpus d'articles scientifiques liés au cancer.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Si la recherche d’information conceptuelle a montré son efficacité dans différents contextes, elle nécessite de disposer de corpus de ressources indexées avec des concepts issus d’une ontologie de domaine. Or le processus d’indexation est souvent lourd et fastidieux et des solutions doivent être imaginées pour assister les experts dans cette tâche. Nous avons étendu notre méthode de propagation d’indexations vectorielles au cas de l’indexation con- ceptuelle, ce qui nous permet de suggérer à l’utilisateur une indexation conceptuelle pour une nouvelle ressource, lorsque celle-ci est positionnée sur une carte sémantique.

Modèle de langue par type de doxel pour l'indexation de documents structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons dans cet article, une utilisation d’un modèle de langue pour une re- cherche d’information sur des documents structurés. Nous présentons également un usage de ressources exogènes et endogènes pour l’indexation et les requêtes. Les ressources endogènes sont les syntagmes extraits du corpus lui même, et les ressources exogènes proviennent de liens (forward links) extraits de Wikipedia. Nous montrons qu’un modèle de langue avec un lissage de type Dirichlet est plus adapté à la recherche d’information sur des documents structurés qu’un lissage par interpolation linéaire de Jelinek-Mercer.

Quels problèmes pour la recherche d’information médicale au Mali ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’entreprise Bupa a effectué une enquête entre juin et juillet 2010 dans 12 pays à travers le monde. Selon cette enquête au moins trois répondants sur cinq faisaient des recherches d’information relatives à leur santé sur Internet. La plupart de ces personnes cherchent en majorité des informations sur une maladie ou les symptômes d’une maladie puis sur les médicaments. Dans la plupart des cas, un moteur de recherche général est utilisé.

Répondre à des questions à réponses multiples : premières expérimentations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Une des difficultés majeures des systèmes de question-réponse concerne l’extraction des bonnes réponses depuis les documents sélectionnés par un moteur de recherche. En effet, il est souvent difficile de procéder à un recoupement des candidats réponses, notamment dans le cas des questions qui attendent plusieurs réponses. Afin de nous focaliser sur les condi- tions d’extraction et de recoupement de réponses multiples, nous avons construit un corpus en u conditions idéales » pour une dizaine de questions à réponses multiples.

Thésaurus distributionnels pour la recherche d'information et vice-versa.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les thésaurus distributionnels sont utiles à de nombreuses tâches du Traitement Auto- matique des Langues. Dans cet article, nous abordons les problèmes de leur construction et de leur évaluation sous l’angle de la recherche d’information. Deux contributions sont proposées. D’une part, en poursuite des travaux initiés par (Claveau et al., 2014), nous montrons com- ment les techniques de RI peuvent être utilisées avec succès pour construire ces thésaurus. Au moyen d’une évaluation directe par comparaison avec des lexiques de référence et au travers de plusieurs expérimentations, nous montrons que les résultats obtenus par certains modèles de RI dépassent les performances des systèmes état-de-l’art.

Un modèle de contexte documentaire par doxels pondérés - Application à un modèle de langue contextuel pour la recherche de documents stucturés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article porte sur la recherche de parties de documents appelées doxels. Nous défi- nissons la notion de contexte documentaire d’un doxel, en utilisant deux éléments : 1) un lissage de type Dirichlet sur des doxels, et 2) une interprétation du contexte d’un doxel par des pro- pagations du contenu des autres doxels de contexte. Nous montrons que cette interprétation de contexte documentaire est exprimable par des combinaisons du contenu intrinsèque lissé et des contenus propagés, non lissés, des doxels.

Utilisation de la couleur pour l'extraction de tableaux dans des images de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche. Abstract Tables are complex elements that can disturb the automatic analysis of the structure of an image of a document.

Vues et mises à jour de données semi-structurées : une analyse de dépendances.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans ce papier nous étudions le problème classique de l’impact d’une mise à jour sur une vue, dans le cadre de données semi-structurées. Nous faisons les hypothèses suivantes: (i) le document source est modélisé par un arbre ordonné étiqueté par des symboles d’arité variable, (ii) une vue V est une requête arbre dont l’évaluation sur le document source fournit la vue partielle du document souhaitée (iii) une classe de mises à jour C est également donnée par une requête arbre sélectionnant les noeuds à modifier.

Apprendre à ordonner la frontière de crawl pour le crawling orienté.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le crawling orienté consiste à parcourir le Web au travers des hyperliens en orientant son parcours en direction des pages pertinentes. Pour cela, ces crawlers ordonnent leurs téléchargements suivant une stratégie d’ordonnancement. Dans cet article, nous proposons d’ap- prendre cette fonction d’ordonnancement à partir de données annotées. Une telle approche nous permet notamment d’intégrer un grand nombre de traits hétérogènes et de les combiner. Nous décrivons une méthode permettant d’apprendre une fonction d’ordonnancement indépen- dante du domaine pour la collecte thématique de documents.

Approche lexicale de la simplification automatique de textes médicaux

Mon, 01 Jan 0001 00:00:00 +0000

Résumé otre travail traite de la simplification automatique de textes. Ce type d’application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d’un lexique existant et d’une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L’alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d’analyser les procédés de simplification mis en place.

Coûts de distance d'édition pour la Recherche d'Information XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information structurée (RIS) sur documents de type XML permet de retourner des parties de documents répondant plus précisément aux besoins des utilisateurs. Ces derniers, parfois exprimés sous forme de requêtes structurées, peuvent tout comme les documents être représentés sous forme d’arbres. Notre approche utilise ces représentations arborescentes et mesure la pertinence des éléments XML au travers de la distance d’édition. Cette dernière se définit comme la somme des coûts minimaux d’opérations de suppression, d’insertion et de substitution permettant de rendre les arbres isomorphes.

Evolution des profils d'entités à l'aide d'un modèle de langue sensible au temps.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Retrouver des informations importantes en temps sur une entité nommée particulière est un réel challenge. En effet, cela implique d’être capable de détecter l’entité dans les documents, mais en plus d’être capable de qualifier d’importante, au regard de l’entité, l’information véhiculée par le document. Dans cet article, nous formalisons un modèle de langue sensible au temps, et nous l’utilisons dans les profils d’entités. Nous mettons en place un ensemble de méta critères qui utilisent pleinement l’amélioration du profil d’entité.

Mesure de similarité pondérée dans l'espace 2D: Application à la reconnaissance de visages.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une nouvelle mesure de similarité pondérée basée sur des matrices pour la classification et la reconnaissance de visages. Le calcul de distances s’effectue entre deux matrices caractéristiques obtenues par deux méthodes bidimensionnelles à savoir l’Analyse en Composantes Principales (ACP2D) et l’Analyse Discriminante Linéaire (ADL2D). Les poids de pondération utilisés sont l’inverse des valeurs propres de la matrice de covariance des matrices de visages triés dans l’ordre décroissant.

Modèle d'espaces de communautés basé sur la théorie des ensembles d'approximation dans un système de filtrage hybride.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de filtrage ont pour but de distribuer des informations de façon personnalisée aux utilisateurs, tout en s’adaptant en permanence au besoin en information de chacun. Dans un système de filtrage hybride s’appuyant sur le filtrage collaboratif, la production de recommandations se base sur des communautés d’utilisateurs qui sont généralement formées conformément au seul critère de proximité des évaluations des utilisateurs sur les recommandations reçues dans le passé. De plus ces communautés restent généralement implicites.

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d’information est vague, ou encore parce qu’il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de noeuds pertinents à une requête orientée contenu ‘Content Only’ composée de simples mots clés dans un corpus de documents XML en prenant en compte la pertinence contextuelle.

Proposition de cadres d'évaluation adaptés à un système de RI personnalisé.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’évaluation d’un système de recherche d’information (RI) personnalisé consiste prin- cipalement à mesurer ses performances. Les cadres d’évaluation classiques en RI basés sur les approches orientées laboratoire méritent d’être étendues et révisées vu que le contexte de recherche de l’utilisateur n’est pas considéré dans le protocole d’évaluation et les col- lections de test. Nous présentons dans ce papier des cadres d’évaluation adaptés à un sys- tème de RI personnalisé. Ces cadres sont basés sur l’enrichissement des collections TREC par des contextes/profi ls utilisateur simulés.

Recherche d'information dans les bases d'images de manuscrits anciens par une caractérisation multiéchelle des écritures.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé -Dans cet article, nous proposons une approche originale de la caractérisation des écritures Abstract The aim of this scientific work is to propose an original approach of writers characterization based on the handwriting multi scale decomposition into two main features: curvature and orientation. For every shape point, those two dimensions are extracted by a Curvelets analysis before getting joined together in a compact signature. Curvelets are a specialised version of anisotropic wavelets which are well adapted to the representation of discontinuities along shapes.

Réponse à des tests de compréhension.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une adaptation d’un système de questions-réponses existant pour une tâche de réponse à des questions de compréhension de textes. La méthode proposée pour sélectionner les réponses correctes repose sur la reconnaissance d’implication textuelle entre les hypothèses et les textes. Les spécificités de cette méthode sont la généra- tion d’hypothèses par réécriture syntaxique, et l’évaluation de plusieurs critères de distance, adaptés pour gérer des variantes de termes.

Solving Concept mismatch through Bayesian Framework by Extending UMLS Meta-Thesaurus.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des systèmes de Recherche d’Information sont basés sur la correspondance exacte entre termes, même si de nombreuses recherches portent sur le problème de la corres- pondance entre variantes de termes issus de mots synonymes, d’une formulation multilingue, ou sur l’utilisation de termes experts très précis. Résoudre ces problèmes nécessite une analyse particulière pour combler l’écart entre l’information contenue dans les documents et le besoin de l’utilisateur. Dans ce travail, nous proposons une solution par enrichissement d’un méta- thésaurus.

Time-efficient Logo Spotting using Text/Non-text Separation as Preprocessing and Approximate Nearest Neighbor Search.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans les systèmes de vision par ordinateur et plus particulièrement les systèmes de recherche Abstract Searching for the most similar matches to high dimensional feature vectors is the most

Towards Incremental Learning with Deep Convolutional Networks

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux de neurones profonds sont des modèles d’apprentissage puissants. Cependant, ils requièrent du temps et des ressources importantes pour être entraînés. Nous proposons d’appliquer une approche d’apprentissage incrémentale pour entrainer ces réseaux en utilisant les informations présententes dans des modèles pré-entrainés. Nous souhaitons pour cela étudier les relations entre les architectures des réseaux, les catégories à apprendre, la quantité de données disponibles et la ’nature’ de ces données. Nous présentons nos résultats sur l’effet des variations des architectures des réseaux en accord avec les données.

Annotation collective dans le contexte RI : définition d'une plate-forme pour expérimenter la validation sociale.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec l’avènement du Web participatif, les lecteurs de documents électroniques sont de plus en plus actifs. En particulier, des systèmes d’annotation leur permettent de commen- ter, de reformuler, de critiquer, etc. des passages de documents. Les approches de RI qui ne considéraient jusqu’alors que le contenu des documents tendent actuellement à exploiter cette dimension participative du Web. L’activité des lecteurs (annotations et débats suscités) peut par exemple améliorer rappel et précision des résultats de RI.

Classification de questions par traduction.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à la classification de questions pour un système de questions-réponses en français. Faisant le constat d’un manque de corpus annoté en français, nous nous interrogeons sur la possibilité d’exploiter les corpus anglais existants, en utilisant des traducteurs automatiques. Nous avons mené une série d’expériences en faisant varier le sens de traduction des corpus et les attributs fournis au classifieur. Les résultats mon- trent qu’il est possible de s’approcher des performances monolingues en traduisant le corpus d’apprentissage.

Classification multi-label à grande dimension pour la détection de concepts médicaux

Mon, 01 Jan 0001 00:00:00 +0000

Résumé ans ce papier, nous présentons une méthode pour associer de façon automatique des concepts à des images. Nous nous focalisons plus particulièrement sur des images médicales à annoter avec des concepts UMLS. Nous avons développé deux modèles de transfert d’apprentissage à partir des réseaux CNN VGG19 et ResNet50 . Nous avons utilisé des modèles avec des techniques simples et que nous avons optimisés pour l’apprentissage. Les résultats que nous avons obtenus en utilisant les données de la tâche ImageCLEF 2017 sont encourageants et comparables à ceux des autres participants.

Factorisation en matrices non négatives pour le filtrage collaboratif.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de filtrage collaboratif (FC) aident un utilisateur à trouver l’information qui l’intéresse à partir des jugements d’autres utilisateurs. Ces systèmes sont utilisés princi- palement par des sites Web pour faire des recommandations. En général, les systèmes de FC demandent aux utilisateurs de fournir des jugements sur des articles de leur choix, exprimés sous la forme d’une note, un réel positif borné. L’objectif d’un système est alors de compa- rer les goûts des utilisateurs afin de prédire les notes qui n’ont pas été fournies au système.

Fusion d'informations pour l'indexation de photos.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode d’indexation de photos appliquée à la reconnaissance de personnes dans des photos personnelles afin de permettre à un utilisateur de les retrouver à partir de requêtes correspondant à des identifiants de personnes. Cette méthode utilise la fusion d’index-FUSINDEX- issus de l’analyse de la photo elle-même et de l’analyse des com- mentaires textuels et oraux qui lui ont été associés. Ces analyses sont effectuées par différents moteurs d’indexations dédiés qui sont intégrés au sein d’un système global d’indexation et de recherche de photos.

Généralisation des opérateurs de dérivation de Galois en recherche d'information basée sur l'analyse formelle de concepts.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information basée sur l’analyse formelle de concepts repose généra- lement sur l’utilisation de la structure de treillis des concepts formels. Les noeuds de ce treillis (i.e. les concepts formels) peuvent être interprétés comme des paires hréponse,requêtei. A ce jour, la quasi-majorité des travaux existant en ce sens utilisent l’opérateur de dérivation de Ga- lois classique (opérateur de suffisance). Il s’avère que cet opérateur se restreint à l’expression de requêtes conjonctives.

Indexation spatiale et temporelle basée sur un principe de "tuilage" : contribution à la recherche d'information géographique dans des documents textuels faiblement structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des moteurs de recherche nécessitent, pour fonctionner, une indexation préalable des documents. Certaines de ces approches sont limitées compte tenu de contextes particuliers ou de la forme particulière de l’information recherchée. Notre contribution porte sur la construction d’index adaptés à la facette spatiale et temporelle spécifique au contexte de l’information géographique tout en permettant une compatibilité avec les outils de recherche génériques. Ce travail présente une stratégie générique d’indexation basée sur le principe du u tuilage ».

Localisation automatique de champs de saisie sur des images de formulaires couleur par isomorphisme de sous-graphe.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une approche permettant la localisation de champs de saisie Abstract This paper presents an approach for spotting textual fields in colored forms. We

Prédiction de la polysémie pour un terme biomédical.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La polysémie est la caractéristique d’un terme à avoir plusieurs significations. La prédiction de la polysémie est une première étape pour l’Induction de Sens (IS), qui permet de trouver des significations différentes pour un terme, ainsi que pour les systèmes d’extraction d’information. En outre, la détection de la polysémie est importante pour la construction et l’en- richissement de terminologies et d’ontologies. Dans cet article, nous présentons une nouvelle approche pour prédire si un terme biomédical est polysémique ou non, avec l’objectif à long terme d’enrichir les ontologies biomédicales après avoir désambiguïser les termes candidats.

Profil utilisateur dans les réseaux sociaux: Etat de l’art

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux sociaux sont de plus en plus utilisés; les utilisateurs y échangent des in- formations et fournissent des éléments sur leur profil. Ces données peuvent être utilisées pour modéliser un individu selon les activités qu’il réalise sur le réseau social: il s’agit du profil de l’ utilisateur. Ces profils peuvent ensuite être analysés et exploités selon le domaine d’applica- tion. Par exemple, les publicités proposées sur les réseaux sociaux sont différentes pour chaque utilisateur selon les préférences de ces derniers.

Recherche d'entités nommées dans les journaux radiophoniques par contextes hiérarchique et syntaxique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente une approche pour la recherche d’entités nommées dans des transcriptions radiophoniques. Nous allons utiliser les structures des entités nommées afin d’améliorer le taux de leur reconnaissance. En effet, l’espace des entités peut être représenté par une structure hiérarchique (arbre). Ainsi, un concept peut être vu comme un noeud dans l’arbre, et une entité comme un parcours dans la structure de l’espace. Nous allons montrer l’apport de cette représentation en utilisant le modèle des Champs Aléatoires Conditionnels (CAC).

Utilisation du Web pour la reconnaissance de mots manuscrits hors vocabulaire.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de reconnaissance de l’écriture manuscrite s’appuient sur des diction- naires prédéfinis obtenus à partir de corpus d’entraînement. La taille de ces dictionnaires ré- sulte d’un compromis entre le taux de reconnaissance des mots du vocabulaire (DV) et la cou- verture du dictionnaire. Si la taille est limitée, beaucoup de mots hors vocabulaire (HV) restent non reconnus. Pour améliorer la reconnaissance des mots HV, sans augmenter le dictionnaire, nous introduisons une étape supplémentaire qui exploite des ressources Web.

Vers un modèle de langue mixte concepts-mots pour la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La majorité des modèles de langue appliqués à la recherche d’information repose sur l’hypothèse d’indépendance des mots apparaissant dans les documents et les requêtes. Plus précisément, ces modèles sont estimés à partir des mots simples sans considérer les éventuelles relations sémantiques et conceptuelles. Pour pallier ce problème, deux grandes approches ont été explorées : la première intègre des dépendances d’ordre surfacique entre les mots (bi-grammes, bi-termes), et la seconde repose sur l’utilisation des ressources sémantiques pour capturer les dépendances entre les mots.

Amélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupe- ment des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème in- dustriel: l’amélioration d’un corpus de libellés de produits diversement orthographiés. Le but de l’algorithme est de retrouver l’écriture la plus compréhensible pour l’humain comme pour la machine (par ex.

BicMIN : Développement et validation d’une nouvelle méthode de classification croisée des séquences de protéines

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les biologistes proposent des classifications de protéines, la classification non supervisée de séquences de protéines en groupes fonctionnels appelés aussi familles permettent de valider ces classifications. Ce problème est très important en bioinformatique, particulièrement depuis l’avènement des méthodes à grande échelle qui produisent une énorme quantité de séquences à analyser. Nous avons conçu, implémenté et validé une nouvelle méthode de bi-regroupement basée sur la présence de courts motifs conservés dans les séquences biologiques.

Exploitation des connaissances d'UMLS pour la recherche d'information médicale. Vers un modèle bayésien d'indexation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information à base de connaissances est largement étudiée, mais avec peu de succès. Dans cet article, nous étudions l’impact de l’exploration d’une base de connais- sance, nommée méta thésaurus UMLS pour la recherche d’information médicale. D’abord, l’in- dexation par concepts d’UMLS extrait dans des textes ne montre qu’une légère amélioration de MAP(Mean Average Precision) par rapport à l’indexation par termes. Nous intégrons ensuite les étiquettes sémantiques des concepts dans une indexation multicouche qui donne des résul- tats encourageants pour la collection ImageCLEF 2006.

Indexation de blocs extraits de pages Web en utilisant le rendu visuel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un modèle d’indexation de pages Web basé sur leur rendu visuel. Dans ce modèle, une page Web n’est plus considérée comme un tout, mais comme la combinai- son d’un ensemble de blocs dont chacun porte sa sémantique propre. L’indexation d’une page Web est réalisée en deux étapes : (1) construction d’un arbre hiérarchique de blocs visuels, en s’appuyant sur la disposition visuelle des blocs de la page (2) indexation textuelle de chaque bloc par un vecteur de termes et tenant compte de l’importance de ces blocs et de l’indexation des blocs contenants, contenus ou voisins.

Inférence semi-automatique et interactive de règles sans vérité terrain.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La conception de systèmes de reconnaissance de documents à partir de documents Abstract Dealing with non annotated documents for the design of a document recognition

Interface de visualisation avec retour de pertinence pour la recherche d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le domaine de la recherche d’images est encore un problème ouvert en comparaison avec les résultats obtenus dans le domaine de la recherche de textes. C’est encore plus vrai en ce qui concerne la recherche d’images par le contenu sémantique. Dans cet article, nous proposons une nouvelle technique de recherche d’images permettant, par la communication avec l’utilisateur, d’extraire de façon rapide et conviviale son objectif. Ici nous proposons une interface graphique 2D adaptée au problème de la recherche d’images permettant une commu- nication bidirectionnelle : du système vers l’utilisateur pour visualiser les résultats courants de la recherche et de l’utilisateur vers le système pour qu’il fournisse des informations de type retour de pertinence pour rafiner sa requête.

Introduction de la sémantique d'un document sous le modèle de langage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des systèmes de recherche d’information classiques se basent sur une indexation par termes simples. Cependant, ces derniers délivrent beaucoup de résultats en réponse aux requêtes des utilisateurs. Ceci est du en partie au fait que le contenu sémantique d’un document (ou d’une requête) ne peut pas être capturé précisément par un simple ensemble de mots clés indépendants. Deux directions sont explorées pour incorporer la sémantique dans les modèles de langage.

MAD : une plateforme mobile pour l'annotation de document vers la classification.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Aujourd’hui, l’incroyable explosion de l’acquisition mobile d’images ou de documents parait sans limite. Bien qu’il soit facile de les partager sur les réseaux sociaux ou sur le cloud, il est encore très difficile de les classer automatiquement, de les trier ou de rechercher à l’inté- rieur de cette base de connaissance. Pour répondre à ce défi, nous devons d’abord proposer une annotation automatique pertinente pour pouvoir utiliser par la suite une recherche lexicale ro- buste.

Points d'intérêt dans les vidéos HDR - Premiére évaluation différentielle de la quantité et de la qualité des points d'intérêt spaciaux et spatio-temporels obtenus sur des vidéos classiques et HDR.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La HDR (High Dynamic Range) permet de représenter des images d’une manière analogue à la représentation de notre système de vision et de manière plus complexe que dont nous disposons à l’heure actuelle sur notre ordinateur. Cet article propose d’analyser le comportement des extracteurs de points d’intérêt spatiaux et spatio-temporels lors de leur utilisation sur des vidéos HDR en les comparant avec leur utilisation sur des vidéos classique afin de déterminer l’influence des informations supplémentaires apportées par la HDR.

Recherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Représentation sémantique de questions pour interroger le Web sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les bases de connaissances du Web sémantique sont généralement représentées sous Abstract The knowledge base of the semantic Web are often represented by RDF triple repository that form a graph. It requires to use a dedicated language as SPARQL for interrogating them, that is generally not known by non-expert users. Moreover, it also require to know the knowledge base schema. To overcome these problems, the development of question answering systems in natural language is currently growing.

Un modèle Bayésien pour l'Agrégation des documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à la recherche agrégée dans des documents structurés XML. Pour cela, nous proposons un modèle de recherche d’information structurée basé sur les réseaux bayésiens. Les relations de dépendances entre requête-termes d’indexa- tion et termes d’indexation-éléments sont quantifiées par des mesures de probabilité. Dans ce modèle, la requête de l’utilisateur déclenche un processus de propagation pour trouver des éléments. Ainsi, au lieu de récupérer une liste d’éléments potentiellement (ou partiellement) pertinents vis-à-vis la requête, notre objectif est de rassembler dans un agrégat des éléments pertinents, non-redondants et complémentaires susceptibles de mieux répondre à la requête.

Alignement des ontologies : Utilisation de WordNet et une nouvelle mesure structurelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’interopérabilité sémantique entre sources d’information hétérogènes est une problématique importante du fait du nombre croissant de sources d’information disponibles sur le web. L’utilisation des ontologies est une voie très prometteuse pour permettre l’interopérabilité, seulement les ontologies eux même peuvent être hétérogènes. L’alignement des ontologies est le noyau de cette interopérabilité, cependant la génération automatique des correspondances entre deux ontologies est d’une extrême difficulté qui est dû aux divergences (conceptuelle, habitudes, etc.

Expertise et système de recherche d'informations en dialogue naturel : vers une considération des connaissances utilisateur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier présente le principe général d’un agent rationnel dialoguant qui prend en compte le profil utilisateur afin d’adapter ses réactions. Sur la base de la théorie de l’interaction nous proposons de modéliser les connaissances de l’utilisateur sur le domaine de recherche. Dans un second temps, des règles de comportement de l’agent sont mises en oeuvre sur la base de résultats expérimentaux en ergonomie cognitive. La prise en compte du modèle utilisateur est illustrée pour le cas d’une recherche sur Internet.

Filtering and Ranking for Social Media Monitoring.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La veille sur les média sociaux est aujourd’hui une activité commune parmi le person- nel de relations publiques et de communication, qui doit surveiller autour d’entités, projets et produits. Cette tâche n’est pas facile car 1) l’information se trouve sur plusieurs média diffé- rents et 2) les mots clés nécessaires sont souvent ambigus. Ce papier adresse la classification et le trie de résultats provenants de média sociaux. Les évaluations avec un corpus expérimental prouve l’éfficassité de la classification et aussi du gain en performance avec le trie.

Identification Semi-Automatique de Mots-Germes pour l’Analyse de Sentiments et son Intensité

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le but d’exploiter les opinions dans les tweets, cet article présente une classification à partir du sentiment contenu au sein des tweets. Nous présentons une méthode d’identifi- cation de nouveaux mots-germes. Ils sont utilisés pour la prédiction de l’intensité de sentiments des mots en co-occurrence avec ces mots-germes. Ensuite, le calcul de similarités entre sen- timents est appliqué en utilisant: la mesure de la similarité entre deux mots et l’utilisation de plongement de mots (e.

La recherche d'information évolutive dans des documents de type encyclopédique : l'apport de techniques linguistiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous présentons la notion d’information évolutive : le développement de ce concept s’inscrit dans le cadre d’un projet de recherche industriel visant la recherche automatique de segments textuels nécessitant une mise à jour de l’information dans un but éditorial. Pour répondre à cet objectif nous faisons l’hypothèse de la nécessité d’associer des techniques issues de la recherche d’information à des techniques linguistiques. Abstract In this article we present the concept of evolving information : the development of this concept lies within the scope of an industrial research project aiming at the automatic search for textual segments requiring an update of information with a leading aim.

Quels facteurs de pertinence pour la recherche de produits ecommerce ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Un moteur de recherche e-commerce vise à fournir un accès rapide et efficace à des produits qui correspondent aux besoins et aux préférences de l’utilisateur parmi une liste de produits similaires ou étroitement liés. Nous avons participé à la campagne d’évaluation u Living Lab for Information Retrieval » qui proposait une tâche de recherche de produits évaluée par des utilisateurs réels lors de scénarios de recherche réelle sur un site de e-commerce.

Recherche d'information médicale pour le patient: Impact de ressources terminologiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le droit d’accès au dossier clinique par les patients est inscrit dans le code de Santé Publique. Cependant, ce contenu reste difficile à comprendre. Nous proposons une expérience, où les requêtes des patients sont utilisées pour retrouver les documents pertinents. Nous util- isons le moteur de recherche Indri, basé sur le modèle statistique de la langue, et des ressources sémantiques. L’accent est mis sur la variation terminologique (e.g. synonymes, abréviations) pour faire le lien entre la langue des experts et des patients.

Représentation par graphe de mots manuscrits dans les images pour la recherche par similarité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans ce papier, nous proposons une nouvelle approche de la recherche de mots par similarité reposant sur une structure de graphes intégrant des informations sur la topologie, la morphologie locale des mots ainsi que des informations contextuelles dans le voisinage de Abstract Effective information retrieval on handwritten document images has always been a challenging task. In this paper, we propose a novel handwritten word spotting approach based on graph representation.

Sélection adaptative de Services de Recherche d'Information web par l'analyse du besoin et du comportement de l'utilisateur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le cadre de travaux de recherche sur la modélisation du besoin et du comporte- ment de l’utilisateur, nous décrivons une approche de sélection de Services de Recherche d’In- formation (SRI) web adaptés au besoin de l’utilisateur. Un système expérimental intégrant une modélisation de l’utilisateur par un profil représentant ses centres d’intérêt, une modélisation du comportement par un mécanisme de récupération des interactions utilisateurs et une base de SRI généralistes et verticaux, est présenté.

Survey of the Adequate Descriptor for Content-Based Image Retrieval on the Web: Global versus Local Features.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé On reconnait actuellement, dans les systèmes de recherche d’image par contenu, deux méthodes pour la description du contenu des images : à travers des attributs locaux ou à travers des attributs globaux. Dans ce papier, nous proposons deux méthodes pour la recherche d’image qui sont basées sur la similitude visuelle. La première caractérise les images par des attributs globaux, alors que la seconde est basée sur les attributs locaux. Concernant le descripteur global, les attributs sont calculés sur l’ensemble de l’image, alors que pour le descripteur local, les attributs sont définis sur les régions de l’image.

Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information sur documents semi-structurés de type XML (RIS) permet de renvoyer à l’utilisateur des granules documentaires se focalisant sur les besoins exprimés. La requête et les documents structurés pouvant être vus comme des hiérarchies d’éléments imbriqués, nous considérons que leur proximité structurelle peut être évaluée au travers de la similarité entre leurs arborescences respectives. Dans ce cadre, nous proposons un modèle de RIS combinant au calcul de score sur le contenu une mesure de similarité structurelle basée sur la distance d’édition (le coût minimal d’opérations pour transformer un arbre en un autre).

Vers un modèle de Recherche d'Information Sociale pour l'accès aux ressources bibliographiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Adaptation du modèle de langue pour le tri des réponses dans les BD.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’information sur le web est de plus en plus extraite depuis des bases de données (BD) où les langages d’interrogation sont basés sur une recherche exacte. L’utilisateur se trouve confronté au problème de réponses nombreuses lorsque sa requête est peu sélective. Pour remédier à ce problème, plusieurs approches ont été proposées, à l’instar de celles utilisant les techniques de relaxation des requêtes. D’autres travaux proposent de classifier les résultats. Une autre classe d’approches, au quelle on s’intéresse, suggère l’adaptation des techniques de la recherche d’information (RI) pour trier les résultats dans les BD.

Aide à l'interprétation de documents juridiques - une approche centrée utilisateur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous présentons un projet de recherche en cours visant à améliorer les interactions d’utilisateurs de différentes catégories professionnelles avec un système d’information dédié au droit du transport et de la logistique. L’objectif vise à concevoir et à mettre au point un environnement numérique de travail (ENT) destiné à un public professionnel (entreprises de la filière logistique, juristes, risk managers, assureurs, avocats, …) et non professionnel (usagers ou salariés des transports).

Annotation de vidéos par paires rares de concepts.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La détection d’un concept visuel dans les videos est une tâche difficile, spécialement Abstract Single visual concept detection in videos is a hard task, especially for infrequent concepts or for those difficult to model. This question becomes even more difficult in the case of concept pairs. Two main directions may tackle this problem: 1) combine the predictions of their corresponding detectors in a way that is widely used in information retrieval, or 2) build super- vised learners for these pairs of concepts by generating annotations based on the occurrences of the two individual concepts.

Automatic relevant Source Discovery over the Internet based on user profile.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La rapide croissance d’Internet ces dernières années a rendu difficile la découverte Abstract The enormous growth of the Web in recent years has made difficult the discovery of new sources of interest on a given topic, even thanks to an existing set of relevant sources. To address this problem, we introduce an approach to provide users with new relevant sources of information by exploiting their needs. It aims at combining a personalized crawler with a collaborative filtering system.

Étude préliminaire de reconnaissance d’écriture sur des documents historiques

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce travail s’intéresse à l’extraction d’informations dans les registres comptables de la Comédie-Italienne du XVIII e siècle. Ces derniers renferment des informations précieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l’acculturation des acteurs italiens de cette époque. L’extraction d’informations, dans des documents anciens non encore étudiés, est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation en blocs, lignes ou mots, extraction de caractéristiques, reconnaissance d’écri- ture manuscrite.

Expansion de requêtes pour la recherche d'information multilingue.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Exploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les moteurs de recherche communs exploitent le contenu des documents qu’ils indexent. Or, les internautes créent également des données explicites (tags, annotations, commentaires, notes, données de géoréférencement, etc.) et implicites (clics, logs, etc.) qu’il semble utile de prendre en compte pour améliorer l’indexation. Nos travaux concernent actuellement deux problématiques. Premièrement, comment analyser les bookmarks sociaux pour en extraire les centres d’intérêts des individus et leurs tendances tout en prenant en compte la dimension temporelle?

L'intégrale de Choquet discrète pour l'agrégation de pertinence multidimensionnelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans ce papier, nous nous intéressons à étudier le problème de l’agrégation multi- critères dans le domaine de la recherche d’information (RI). Nous proposons une nouvelle ap- proche basée sur l’intégrale de Choquet pour l’agrégation de pertinence multidimensionnelle. La principale originalité de cet opérateur, outre sa capacité à modéliser des interactions entre les différentes dimensions de pertinence, est sa capacité à généraliser de nombreuses fonctions d’agrégation classiques. L’évaluation de l’efficacité de notre approche est effectuée dans une tâche de recherche de tweets, où les critères conjointement utilisés sont, la pertinence théma- tique, l’autorité et la fraîcheur.

Recherche multi-terminologique de l'information de santé sur l'Internet.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’informations et des connaissances médicales devient de plus en plus facile et accessible sur Internet pour le professionnel de santé, l’étudiant, mais aussi pour le patient et le cyber citoyen. CISMeF (Catalogue et Index des Sites Médicaux Francophones) est un outil visant à cataloguer et indexer les sources les plus importantes d’information de santé institutionnelles en France afin de les mettre à disposition du public. L’indexation des ressources Internet est mono-terminologique du fait qu’elle soit fondée exclusivement sur le thésaurus MeSH (traduit par l’US National Library of Medicine).

RI-TAL : le TAL au service de la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Comment le Traitement Automatique des Langues peut-il servir la Recherche d’Information? Abstract How may Natural Language Processing serve Information Retrieval? This paper

Utilisation des syntagmes nominaux dans un système de recherche d'information en langue arabe.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans un contexte riche, un système de recherche d’information doit être capable de trouver les meilleurs résultats possibles. Dans ce but, notre étude s’intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d’analyse d’une approche linguistique à la capacité d’une approche statistique traitant des corpus de grandes tailles. L’approche statistique se base sur la fouille de données textuelles et principalement sur la technique d’analyse sémantique latente tandis que l’approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l’information contenue dans le texte que les termes simples.

Validation syntaxique de relations sémantiques pour la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec l’objectif d’améliorer la précision des systèmes de recherche d’information, c’est-à-dire les premiers résultats retrouvés par le système, des travaux se sont basés sur des indexations structurées des documents, à base d’arbres ou de graphes. La plupart de ces travaux utilisent comme index des structures uniques et certaines. Les décisions qui ont amené à la sélection de certaines informations lors de la création de la structure à partir du texte ne sont plus disponibles et ne sont pas utilisées.

Apprentissage de représentations de documents et leur exploitation en recherche d’information

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Afin de calculer la similarité document-requête, la majorité des modèles en recherche d’information (RI) représentent les documents et les requêtes sous forme de u sacs de mots » (bag of words) pondérés ou un sac de concepts, issus d’une ontologie linguistique ou construits automatiquement par des techniques de type LSI ou LDA, pour combler l’écart entre le voca- bulaire utilisé par la requête et celui présenté dans les documents. D’autres approches dites word2vec proposent de modéliser les termes sous forme de vecteurs.

Association d'un détecteur de visages et d'un détecteur d'entités nommées pour l'annotation automatique d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une méthode d’annotation d’images de visages dans un grand corpus réel de documents texte-images. Cette méthode s’appuie sur l’utilisation conjointe d’un détecteur de visages et d’un détecteur d’entités nommées : les images contenant des visages sont annotées par les entités nommées les plus fréquentes dans le texte accompa- gnant les images. Bien que basique, cette méthode donne de bons résultats. Elle constitue un premier pas vers des méthodes d’indexation textuelle des images plus élaborées et basées sur des caractéristiques haut-niveau des documents.

Experiments on two Query Expansion Approaches for a Proximity-based Information Retrieval Model.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’expansion de requêtes est une technique bien connue pour dépasser l’exigence de recherche par mot exact en recherche d’information. Cependant, l’expansion automatique vient avec le risque de dérive de la requête. Dans ce travail nous avons eu ce problème en essayant d’étendre des requêtes booléennes pour un modèle de recherche basé sur la proximité. Ce modèle obtient une bonne précision dans les campagnes d’évaluation mais il rend très peu de résultats.

Extraction et interprétation d'information géographique dans des données non structurées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente le projet “Pyrénées Itinéraires Virtuels”. Ce projet consiste à va- loriser un fonds documentaire patrimonial localisé dans le territoire pyrénéen. Dans ce cadre, nous proposons des modèles unifiés pour la définition formelle d’entités spatiales. Ces modèles permettent de mettre en place un système de recherche d’information basé sur le contenu sé- mantique de documents multi-formats. L’objectif de ce projet est d’étendre les fonctionnalités de systèmes de gestion de base documentaire classiques en permettant une gestion plus fine des restrictions spatiales dans une recherche.

Indexation de sous-collections pour l'amélioration de la haute précision.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente une méthode de recherche d’information basée sur une indexation en deux étapes. L’objectif est de trouver si affiner l’indexation et la recherche sur une sous-collection homogène améliore la qualité de l’information recherchée. Nous évaluons l’intérêt d’une telle approche en termes de précision en utilisant les modèles de recherches okapi BM25 et TF-IDF et les collections TREC-7 et TREC-8 ad hoc. Les résultats montrent que cette méthode améliore significativement les hautes précisions au moins sur 44% des requêtes.

Integration of Shape Context and Neural Networks for Symbol Recognition.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les descripteurs de contexte de formes ont été utilisés comme caractéristiques dans les classifieurs kuplus proches voisins avec des résultats remarquables. Néanmoins, l’utilisation de cette approche sur de grosses bases de symboles ou dans des contextes applicatifs à la volée reste difficile à cause de sa complexité calculatoire. Pour dépasser ces limitations, nous pro- posons l’utilisation des descripteurs de contexte de formes avec des réseaux de neurones au lieu de l’approche kuppv.

Mesure de la similarité entre termes et labels de concepts ontologiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une méthode permettant de mesurer la similarité entre des termes et des concepts ontologiques. Notre métrique permet de prendre en compte les mots proches communs aux deux chaînes de caractères à comparer mais également d’autres carac- téristiques telles que la position des mots dans ces chaînes, ou encore, le nombre d’opérations de suppression, d’insertion ou de remplacement de mots nécessaire à la construction d’une des deux chaînes à partir de l’autre.

Querying by examples.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Regroupement par popularité pour la RI semi-supervisée centrée sur les entités.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Filtrer des documents web à propos d’entité (personne, entreprise …) pour que seuls les documents d’intérêt soient gardés est un réel challenge. L’intérêt peut être qualifié de différente manière comme la nouveauté ou le fait qu’une information soit récente. Nous avons pu voir au cours des dernières années que des systèmes s’entraînent à détecter l’intérêt d’un document au regard d’une entité. Pour des raisons de passage à l’échelle, il n’est pas pensable d’avoir des données annotées manuellement pour chaque entité recherchée.

Répondre à des requêtes cliniques PICO.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à l’évaluation de requêtes cliniques exprimées Abstract In this paper, we address the issue of answering PICO (Patient/Problem, Intervention,

Un modèle de bibliothèque numérique collaborative - ARMARIUS.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manuscrits anciens numérisés : Armarius. Celui-ci fournit des interfaces d’annotation manuelle et semi-automatique. Il propose également un système d’assistance pour aider l’utilisateur à annoter et à exploiter les manuscrits.

Une approche sémantique basée sur l'apprentissage pour la recherche d'image par contenu.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cette dernière décennie témoigne un accroissement exponentiel des données multimé- dia (texte, image, son et vidéo). La recherche d’information au sein de cette masse de données, en particulier les images, devient un processus incertain. Aussi, le problème se pose au niveau de l’indexation puisque les techniques actuelles ne permettent pas de décrire efficacement le contenu des images. Dans ce papier, nous nous concentrons sur le problème de découverte de connaissance à partir du contenu des images et nous proposons une nouvelle approche pour l’indexation sémantique des images.

A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’hypothèse de cluster est l’hypothèse fondamentale de l’utilisation du clustering dans la recherche d’information. Elle indique que les documents semblables ont tendance à être pertinents pour la même requête. Des travaux passés testent intensivement cette hypothèse avec les méthodes de la classification ascendante hiérarchique (CAH). Mais leurs conclusions ne sont pas cohérentes en termes d’efficacité de la recherche. La limite principale dans ces travaux est le problème de passage à l’échelle lié a là CAH.

Construction et enrichissement d'une ontologie à partir d'un corpus de textes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons un processus de construction et d’enrichissement d’ontologies à partir de textes. Les ontologies sont des structures dans lesquelles les concepts d’un domaine et les relations entre ces concepts sont formellement définis. De plus en plus de travaux font appel à des ontologies mais leur construction et leur enrichissement constituent encore un frein. Notre méthode de construction repose sur la recherche de termes dans les textes.

Évaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Plongement incrémental dans un contexte de dissimilarité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le domaine de la reconnaissance statistique de formes est basé sur la représentation Abstract Statistical pattern recognition framework is based on a numerical description of ob- jects and can thus be easily combined with efficient machine learning methods. On the other hand structural pattern recognition methods use a limited set of machine learning methods but encode a rich description of objects through structural models such as strings or graphs. This CIFED 2014, pp.

Recherche contextuelle d'information dans un environnement mobile.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche contextuelle d’information (RCI) a pour objectif de mieux répondre aux besoins de l’utilisateur en lui délivrant l’inf ormation adaptée à son contexte spécifique de recherche. Cet article présente une approche de RCI dans le cas d’un environnement mobile, où le contexte spatio-temporel de l’utilisateur et son contexte cognitif, sont à la fois considérés pour lui délivrer de l’information pertinente. Nous proposons de construire des profils situationnels basés sur l’historique de recherche annoté par le contexte spatio- temporel pour personnaliser les résultats de recherche.

Recherche contextuelle d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche contectuelle d’information a pour objectif de mieux répondre aux besoins de l’utilisateur et de lui délivrer de l’information pertinente selon son contexte spécifique de recherche. Ce papier présente un contexte de recherche à deux dimensions: le contexte de l’utilisateur et le contexte de la requête. On vise à intégrer ces deux dimensions du contexte dans un processus de recherche d’information afin d’asseoir un système de recherche d’information contextuelle.

Reconnaissance et classification de lettrines à base des descripteurs de bas niveau et de représentation structurelle.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’intéresse à un des éléments importants dans l’analyse de graphiques sur Abstract This article tackles some important issues relating to the analysis of a particular case

Speaker diarization de fichiers vidéos hétérogènes issus du web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ces dix dernières années, internet a significativement changé. Le principal change- ment est certainement le contenu proposé, que ce soit dans sa quantité, sa diversité ou encore le média utilisé pour le présenter. Concernant le média audio/video, l’évolution la plus im- pressionnante est le succès continuellement grandissant des sites de partage de vidéos. Mais ce succès entraîne des diffcultés à indexer efficacement le contenu de ces documents. La segmenta- tion et le regroupement en locuteurs (speaker diarization) est une tâche importante s’inscrivant dans ce processus.

Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition intéractive de requêtes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche de mots ou de groupe de mots pour la navigation dans des collections de documents anciens numérisés est un sujet de recherche actif dans la communauté internatio- nale. En raison en particulier de la qualité médiocre de ce type de documents et de l’utilisation d’un langage ancien ou rare, appliquer un simple OCR sur ces documents ne suffit pas, d’autant que certains alphabets ne disposent d’aucun système de reconnaissance automatique.

Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous nous intéressons à l’exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d’extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l’alignement du corpus des Nations Unies (UN), au niveau des phrases.

Un modèle de recherche de fichiers personnels par contexte dans les systèmes d'étiquetage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Depuis peu, les étiquettes sont utilisées largement pour identifier des contenus aussi bien sur le bureau informatique des utilisateurs que sur les sites coopératifs du Web dit 2.0. Notre recherche se focalise sur l’organisation assistée des étiquettes personnelles afin d’améliorer la pertinence des recherches de fichiers personnels associés à des étiquettes. Notre proposition utilise la notion de contexte comme point central. Un contexte est constitué à partir d’un ensemble d’étiquettes affectées par un utilisateur à un fichier.

Un système de recommandation sensible au contexte pour la visite de musée.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre travail concerne les systèmes d’aide à la visite de musée et l’accès au patrimoine culturel. Notre but est de concevoir un système de recommandation, implémenté sur dispositifs mobiles adaptable au profil de l’utilisateur et sensible à son contexte, afin d’améliorer l’ex- périence de l’utilisateur et de l’aider à construire ses parcours en musée en fonction de ses préférences et ses contraintes. Abstract Our work is in the field of the support systems to museum visits and access to cul- tural heritage.

Alignement texte-image sans apprentissage pour les manuscrits médiévaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous décrivons une nouvelle approche pour l’alignement texte-image Abstract In this paper, we describe a new approach for text-image alignment of middle-age

Analyse formelle de concepts pour le routage des requêtes dans les systèmes pair-à-pair.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract None

Annotation d'images sur de grands corpus réels de données.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous vérifions les limitations des techniques d’annotation d’images sur un corpus réel et de grande taille. Pour cela, nous utilisons un corpus de documents texte- images composé de plus de 25000 articles de presse, sur lequel nous évaluons la similarité entre une recherche basée sur le texte et une recherche basée sur l’image. Les systèmes de recherche que nous utilisons sont des outils communs de la Recherche d’Information (RI).

Fusion de ressources hétérogènes pour la recherche d'information multilingue.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Afin d’améliorer la recherche multilingue dans le moteur de recherche Sinequa Engine, nous avons intégré les connaissances multilingues du service Sensagent au module de requêtes du moteur de recherche Sinequa Engine. L’interface développée propose une extension de la requête aux choix de l’utilisateur par traduction des différents mots dans les langues sélectionnées. Pour limiter le grand nombre de traductions que peut engendrer une requête complexe, nous avons déployé un filtrage sémantique par calcul vectoriel.

Identification de documents par classification monoclasse.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Utilisée dans un contexte industriel, la classification d’images de documents néces- site le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes.

Impact des Réseaux Sociaux sur le Processus de Recherche d'Information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’explosion du Web 2.0 (blogs, wikis, sites de partage, réseaux sociaux, etc.) ouvre Abstract The explosion of Web 2.0 (blogs, wikis, sharing Web sites, social networks, etc.) opens new perspectives sharing and dealing with information, allowing the collaborative content construction and the open social networks’ development. Our work deals with information access issues in a context where the user is both producer and consumer of content. We present a state of the art about the impact of the social information on the Information Retrieval (IR) process, positioning the works in relation to certain aspects of integration of social information within the IR model: approaches based on social relationships or informational content provided by the user.

Pondération des concepts en recherche d'information sémantique.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’objectif principal de la pondération en recherche d’information (RI) est d’assigner aux termes d’index des poids sensés traduire leur importance dans les documents où ils apparaissent. En RI sémantique, les termes d’index représentent des concepts. L’importance d’un concept est généralement mesurée soit à travers sa fréquence d’occurrence, soit à travers sa centralité, définie comme son degré de relation avec les autres concepts du document. Dans ce papier, nous proposons et évaluons une approche de pondération des concepts basée sur une nouvelle définition de la centralité.

Recherche d'information dans les systémes P2P hétérogènes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous considérons la recherche d’information sémantique dans les systèmes pair-à- pair. Ces derniers semblent être une solution intéressante pour le partage de données car ils garantissent le passage à l’échelle, et gère la dynamicité. Dans ce contexte, il est difficilement imaginable que tous les participants s’accordent sur l’utilisation d’une même représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le système est sémantique- ment hétérogène. Cette situation limite l’interopérabilité entre participants.

Recherche d'information textuelle et phonétique pour le contrôle de l'étiquetage automatique d'émissions dans un flux télévisuel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En 2007, Naturel (Naturel, 2007) a proposé un système qui associe automatiquement une étiquette, c’est-à-dire un titre, à des émissions issues du découpage d’un flux TV. Cepen- dant, ce système ne permet pas de vérifier la correction des associations étiquette-émission. Nous proposons dans cet article de contrôler cet étiquetage en nous basant sur les transcrip- tions textuelle et phonétique de la bande sonore contenue dans le flux. Nous montrons que des méthodes de recherche d’information permettent d’associer à chaque émission une descrip- tion, issue d’un guide de programmes TV, description qui est ensuite comparée avec l’étiquette originale de l’émission.

Un processus de médiation flexible dans un système d'informations distribué.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons aux systèmes d’informations distribués, ouverts et dynamiques regroupant un nombre important de sources d’informations hétérogènes, autonomes et distri- buées. Notre problème consiste à fournir aux requêtes des utilisateurs des informations qui se- ront les plus pertinentes possibles tout en permettant aux fournisseurs d’informations d’obtenir des requêtes correspondant au mieux à leurs attentes. Cet aspect de la médiation est en général peu traité dans les médiations classiques. Ainsi, nous associons simultanément ces deux visions dans le processus de médiation flexible que nous présentons ici.

Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une première étude sur l’utilisation d’une méthode de détection des cas aberrants à base de distance pour la tâche de vérification de l’auteur. Nous avons considéré une méthode non supervisée basée sur un modèle gaussien multivarié. Pour évaluer l’efficacité de la méthode proposée, nous avons mené une expérimentation sur un corpus de textes littéraires français classiques. Nos résultats préliminaires montrent que la méthode proposée peut réaliser une haute performance de vérification qui peut atteindre un score de F1 de 83%, supérieure à celle de la méthode de référence.

Adaptation des caractéristiques pseudo-Haar pour le word spotting dans les documents manuscrits.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé On présente dans ce papier une approche analytique multi-échelle pour le word spotting dans les documents manuscrits. Le modèle proposé comporte deux niveaux. D’abord, un module de filtrage global permettant de définir des zones candidates répondant à la requête dans le document testé. Ensuite, l’échelle de l’observation est modifiée à un niveau plus fin afin d’affiner les résultats et de sélectionner uniquement ceux qui sont vraiment pertinents. Le présent article se focalise sur la première étape de la méthode.

Aggregated search: From information nuggets to aggregated documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de la recherche agregée est de rassembler des informations provenant de plu- sieurs sources en une seule interface. Elle doit ainsi gérer des problématiques liées aux dif- férents types de contenu (texte, vidéo, image, etc) ainsi qu’à la granularité des résultats. La formation d’un contenu agrégé à partir de différents types de contenus retrouvés contraste avec l’approche commune en RI consistant à renvoyer à l’utilisateur une liste ordonnée de résultats.

Contribution à la recherche d'information : une fonction de correspondance.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Un Système de Recherche d’Information (SRI) dispose d’un modèle de recherche ca- pable de déterminer le degré de similarité qui existe entre un document et une requête. Généra- lement, le mécanisme consiste à apparier les documents et la requête en utilisant une fonction de correspondance. Dans ce papier, nous proposons la définition d’une fonction de correspon- dance qui repose sur les termes contenus uniquement dans l’intersection de la requête et d’un document.

Étude des mesures de similarité sémantique basées sur les arcs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les mesures de similarité sémantique sont des fonctions très utilisées dans plusieurs Abstract Semantic similarity measures are functions widely used in several informatics do- mains among which we can mention natural language processing (NLP), Bioinformatic, Infor- mation Retrievial… They allow to determinate similarity between terms or concepts which have no syntaxic similarity. The goal of this paper is to study a particular semantic similarity group: edges based semantic similarity measures.

Expansion sélective de requêtes par apprentissage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Si l’expansion de requête automatique améliore en moyenne la qualité de recherche, elle peut la dégrader pour certaines requêtes. Ainsi, certains travaux s’intéressent à développer des approches sélectives qui choisissent la fonction de recherche ou d’expansion en fonction des requêtes. La plupart des approches sélectives utilisent un processus d’apprentissage sur des caractéristiques de requêtes passées et sur les performances obtenues. Cet article présente une nouvelle méthode d’expansion sélective qui se base sur des prédicteurs de difficulté des requêtes, prédicteurs linguistiques et statistiques.

Génération d'images semi-synthétiques de documents anciens.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente un logiciel de génération d’images semi-synthétiques de documents anciens et de la vérité terrain associée. Ce travail s’inscrit dans le cadre de la génération de données pour l’évaluation de performances d’algorithmes d’analyse d’images de documents. Ce logiciel permet à un utilisateur de spécifier le contenu et la mise en page des images à générer (choix des fontes, illustrations, interlignes). Plusieurs modèles de dégradations ont été intégrés dans ce logiciel.

Propositions pour la recherche contextuelle d'images dans des documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’inscrit dans le cadre de la recherche d’images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations vi- suelles de l’image. Nous nous proposons ici d’explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu’une image peut être présentée par les autres éléments non images du document XML. Nous proposons d’une part une méthode pour choisir quels sont les éléments d’un document XML pouvant participer au mieux à la représentation de l’image, et d’autre part, une mesure qui évalue pour chaque élé- ment non image sa participation dans la représentation de l’image.

Recherche d'informations dans la blogosphère : Défis et premières évaluations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Recourant au modèle vectoriel tf idf, ainsi qu’à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l’absence d’enracineur s’avère plus efficace que d’autres approches (enracineur léger ou celui de Porter). Abstract This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics.

Semantic Information Retrieval over P2P Network.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Porteurs de nombreux avantages en termes d’évolutivité, de décentralisation et d’auto- organisation, les réseaux P2P se présentent comme une alternative intéressante lorsqu’il s’agit de publier et d’accéder à de l’information. Plusieurs travaux de recherche ont traité du prob- lème du routage des requêtes au sein de systèmes d’information soutenus par des réseaux P2P. Cependant, peu d’entre eux semblent intéressés pour savoir si les mécanismes de routage sé- mantique de requêtes permettent effectivement de fournir aux utilisateurs des informations sé- mantiquement pertinentes en fonction de leurs besoins.

Semantic Query Structuring to Enhance Precision of an Information Retrieval System: Application to the Medical Domain.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des systèmes de recherche d’information représentent la requête, et les do- cuments, comme un sac de termes d’indexation sans aucune relation entre eux. Cette représen- tation pose problème pour les spécialistes d’un domaine spécifique comme le domaine médical. Nous proposons une alternative au sac de termes d’indexation, en fonction de la structuration requête sémantique, afin de répondre à ce besoin de précision dans un domaine spécifique. Cette structuration est obtenue en regroupant les termes d’indexation des requêtes à l’aide des caté- gories prédéfinies appelées dimensions.

6IR : Un index paramétrable pour les requêtes ramifiées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article contient une présentation de notre travail en cours de dévelop- pement dans le domaine de la recherche d’informations dans des bases de documents semi-structurées. Nous cherchons à construire un système d’interrogation u dénommé 6IR pour Structure based IndeX Information Retrieval u qui fournisse une liste de documents similaires au contenu et à la structure d’une requête ramifiée. L’extraction des documents est basée sur l’identification de points communs entre leur structure et celle de la requête.

A Generic Approach Based on Linked Data to Enhance Web Information Retrieval and Increase User Satisfaction.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé De nombreux travaux s’intéressent à l’utilisation des Linked Data pour améliorer la recherche d’information (ex. moteurs de recherche sémantiques, etc.). Dans ce travail, nous proposons de les utiliser pour améliorer la satisfaction de l’utilisateur durant ses interactions avec un système de RI. Nous voulons offrir à l’utilisateur des snippets adaptés à l’expression de son besoin d’information. Pour ce faire, nous nous concentrons sur l’appariement de graphes RDF, après les avoir transformé en graphes bipartis.

Indexation relationnelle pour la recherche de documents structurés interreliés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En recherche d’information, dans le cas de documents structurés sans inter-relations, se pose le problème de naviguer dans la structure des documents résultats. Si nous ajoutons la prise en compte de relations entre doxels qui ne sont pas des relations de composition, le pro- blème de la navigation dans l’espace résultat est encore accru. Dans cet article, nous décrivons une indexation relationnelle du corpus basée sur des valeurs d’exhaustivités et de spécificités relatives entre doxels inter-reliés ; ajoutée à l’indexation structurelle, elle permet d’enrichir l’index des doxels et permettra de favoriser la navigation dans l’espace résultat.

La fiabilité des informations sur le web: le cas Wikipédia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les outils de recherche d’information sur le web doivent tenir compte des phénomènes nouveaux liés à l’apparition des blogs, wikis, et autres publications collaboratives. Parmi ces sites, l’encyclopédie Wikipédia constitue une source importante d’information. La qualité de ses informations a pourtant été récemment mise en cause. Mieux connaître les comportements des contributeurs peut permettre de guider les utilisateurs dans des contenus de qualité parfois disparate. Pour explorer cette voie, nous présentons une analyse du rôle de différents types de contributeurs dans le contrôle de la publication d’articles conflictuels.

La reformulation hybride des requêtes exploratoires à l'aide de concepts explicites et implicites.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les requêtes exploratoires du Web sont souvent courtes et ambigües. De plus, l’utilisation des entités nommées dans ce type de requêtes est fréquente. Dans cet article, nous explorons l’expansion des requêtes exploratoires par l’ajout de termes appartenant aux concepts de la requête. Nous distinguons deux types de concepts : explicites, correspondants aux enti- tés nommées ayants des références aux concepts de l’ontologie YAGO, et implicites que nous trouvons à l’aide de l’approche LSI (Indexation par la sémantique latente) sur les documents de retour de pertinence.

Organizing Personnal Photo Collections Using Both Contextual Metadata and Content Analysis.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec l’utilisation croissante des téléphones mobiles, le nombre de collections de photos personnelles a augmenté de façon remarquable. Ces photos sont conservées le plus souvent sans être organisées, car ce processus, lorsqu’il est réalisé de manière manuelle, est une activité chronophage. L’indexation de ces photos est un besoin crucial pour rendre la recherche d’image par le contenu (CBIR) efficace. Afin d’annoter ces photos, on peut distinguer deux types de métadonnées : les métadonnées contextuelles, relatives à l’environnement lors de la prise, et les métadonnées relatives au contenu des photos.

Quelle méthode ergonomique élaborer pour évaluer les moteurs de recherche exploratoire?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les moteurs de recherche exploratoire sont des logiciels aidant les utilisateurs à explorer un domaine d’intérêt pour y faire des découvertes. Si l’on convient que l’évaluation de ces systèmes vise à vérifier si ces derniers aident effectivement les utilisateurs à réaliser leur tâche d’exploration et à obtenir des résultats inconnus, on constate que les méthodes existantes d’évaluation de ces systèmes ne permettent pas réellement cette vérification. Cet article présente une approche pour élaborer une méthode d’évaluation centrée utilisateurs prenant en compte les comportements et les processus cognitifs liés à une tâche de recherche exploratoire.

Synthèse de flux de messages en temps réel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La supervision d’événements à travers les réseaux sociaux ont connu un engouement certain ces dernières années. Cependant, le nombre considérable de messages publiés rend dif- ficile, voire impossible, pour une personne de suivre ‘ce qui se passe autour de l’événement’. Le filtrage et la génération en temps réel d’une synthèse de messages importants portant sur l’événement permet de répondre à ce besoin. La génération de cette synthèse pose plusieurs problèmes qui rend cette tâche difficile.

Une mesure de similarité sémantique utilisant des résultats de psychologie.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’utilisation d’ontologies, c’est-à-dire de bases de connaissances, en recherche d’infor- mation est devenue une voie très explorée. Cela permet de dépasser de nombreux problèmes liés aux comparaisons terme à terme entre documents ou entre documents et requêtes, en pas- sant à un niveau d’abstraction supérieur qui n’est pas soumis aux limitations intrinsèques à l’utilisation de mots-clés. De nombreuses techniques utilisent désormais les ontologies (expan- sion de requêtes, désambiguïsation sémantique, etc.

Vers une catégorisation visuelle facilitant le partage de connaissances en mode Web 2.0.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Une classification efficace des connaissances partagées facilite la recherche des informations dans une communauté en utilisant des tags bien structurés. Cependant, la construction d’une telle catégorisation collabirative est de plus en plus confrontée aux défis des langues, des thématiques multiples, et des cas où les connaissances partagées sont très variées. Dans cet article, nous introduisons un système iconique structuré qui permettra d’alémliorer la catégorisation textuelle dans un contexte multi-contributeurs (en mode “Web 2.

Classement collaboratif de manuscrits.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Pour chaque projet d’édition numérique de manuscrits, après que le corpus ait été constitué, les chercheurs commencent par le classer. Cette opération demande de grands ef- forts d’interprétation, elle n’est pas neutre mais contribue à la construction du point de vue du chercheur sur son objet d’étude. Ainsi, plusieurs classements peuvent être proposés pour un même sous-ensemble de l’archive. Or il n’existe pas de plateforme informatique spécifi que pour assister les chercheurs dans cette opération délicate.

Evaluation des performances d'un système de recherche d'information utilisant un algorithme de segmentation thématique de pages Web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une méthode de segmentation thématique de pages Web qui utilise à la fois des critères visuels et de format (balises , , couleur, …)]]> afin d’extraire des segments thématiques. Nous utilisons la segmentation pour améliorer les performances d’un système de recherche d’information. Nous proposons de modéliser une fonction de correspondance qui tienne compte à la fois du contenu d’une page Web et du voisinage de cette page définis par les segments thématiques appelés blocs thématiques qui la référencent.

Exploiting Wikipedia Structure for Short Query Expansion in Cultural Heritage.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article aborde le problème des requêtes courtes et précises, qui n’ont pas suffisamment d’informations pour être non ambigües. Le pseudo-relevance feedback (PRF) est une technique efficace pour améliorer la performance de ces requêtes courtes par l’ajout de termes `a la requ^ete. Cependant, cette méthode ne récupère que les termes des documents les plus pertinents de la collection. Si les réponses initiales ne sont pas correctes, comme c’est le cas pour des requêtes courtes, cette expansion ne fonctionnera pas.

L'arbre recouvrant dans l'interrogation de documents XML.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article nous présentons un modèle d’interrogation flexible de données Abstract In this paper, we propose a fuzzy model to querying the XML documents, by taking into account not only the document contents, but also their structure. The concept of minimal size spanning tree is employed to determine the fragments of documents which coincide as much as possible with a query tree and the fuzzy logic framework is used to represent a user’s criteria through weighted formulas according to the level of user’s knowledge in documents structures

Recherche d'Information efficace utilisant la sémantique: le focus.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’indexation sémantique de documents à partir d’ontologies est un domaine qui prend de l’essor, malgré les difficultés d’une indexation automatique ou même semi-automatique, sans parler d’indexation manuelle. Il est possible désormais d’avoir des caractérisations séman- tiques de documents textuels ou non textuels basées sur des ontologies. Partant de ce fait, nous avons mis en place un objet, le focus, qui représente un document ou une requête en pondé- rant les concepts d’une ontologie de manière à indiquer l’importance de chaque concept dans le document.

Représentation temporelle des mots : application au clustering de micro-blogs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les modèles distribués de mots sont un outil précieux pour la classification, le clustering, et plus généralement la représentation des documents. Pour des collections dynamiques, il est nécessaire de prendre en compte l’évolution temporelle de ces représentations. Dans cet article, nous présentons un modèle qui représente les mots sous la forme de trajectoires dans un espace de représentation, trajectoires qui sont déterminées par les groupes auxquels les mots appartiennent. Des expériences préliminaires en clustering sur des micro-blogs montrent l’intérêt de ce type de modèle.

RI sociale : intégration de propriétés sociales dans un modèle de recherche.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une approche de recherche d’information, basée sur le contenu généré par l’utilisateur (CGU). Nos travaux se focalisent sur l’exploitation des CGUs dans la recherche des ressources web (pages, vidéos, etc). En particulier, nous nous intéressons à identifier, extraire et quantifier, à partir de plusieurs réseaux sociaux, certaines propriétés de ces CGUs, telles que la popularité et la confiance. Ces propriétés vont être intégrées dans un modèle de ranking.

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voisins partagés dans un graphe de cooccurrences.

Towards automatic cross-lingual transfer of semantic annotation.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Afin de développer un système d’étiquetage sémantique automatique, les méthodes les plus fréquentes utilisent l’apprentissage supervisé à partir d’un corpus annoté. Et si on a des délais courts et des possibilités humaines et financières limitées, qui nous empêchent de construire un tel corpus d’apprentissage pour la langue de notre choix? Si un tel corpus existe déjà pour une autre langue, cet article propose une méthode pour importer automatiquement le corpus existant dans la langue où nous le nécessitons.

Using Association Rules between Terms and Nominal Syntagms for Tweet Contextualization.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le but de la tâche de contextualisation des tweets organisée par INEX est de fournir, automatiquement, un résumé qui explique un tweet donné. Cet article présente une nouvelle approche de contextualisation des tweets basée sur les règles d’association entre syntagmes, et entre termes. Cette approche permet d’enrichir le vocabulaire de tweets par un ensemble de mots thématiquement proches. L’approche proposée est validée par une étude expérimentale sur la collection INEX 2013.

Apprentissage de classification des requêtes basée sur la confiance et la couverture.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les requêtes médicales sont souvent étiquetées par le type du modèle de recherche estimé donnant les meilleures performances selon des experts du domaine. Dans un travail pré- cédent, nous avons proposé d’automatiser cette tâche d’étiquetage (de classification) manuelle. Dans ce papier, nous proposons une nouvelle approche de classification qui apprend automati- quement à associer à chaque requête l’étiquette du modèle de recherche le plus adéquat. Plus précisément, nous générons un ensemble de règles d’association combinant certaines carac- téristiques des requêtes et les étiquettes des modèles de recherche.

Classification des questions d'opinion dans un système de questions-réponses pour les débats politiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’identification du type de la question est une étape importante dans le développement des Systèmes de Questions-Réponses (SQR). Ramenée le plus souvent à un problème de classification, cette étape vise à déterminer le type de la réponse attendue à la question en attribuant à la question une ou plusieurs classes selon la taxonomie adoptée. Dans la littérature, la plupart des SQR se sont orientés vers des sources d’information monologales. Les conversations, bien qu’elles constituent une partie importante des sources d’information, manquent d’outils robustes de recherche d’information tels que les SQR.

Détection et reconnaissance de texte dans les documents vidéos. Et leurs apports à la reconnaissance de personnes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article présente les différentes étapes de reconnaissance des caractères dans un système de reconnaissance multimodale de personnes dans des documents audiovisuels (défi ANR REPERE). La détection du texte est réalisée par une technique basée sur les caracté- ristiques du texte (texture, couleur, contraste, géométrie, suivi temporel, mesure du gradient cumulé). La reconnaissance du texte est ensuite effectuée avec le logiciel libre de Google Tes- seract. La méthode a été évaluée sur un corpus de journal télévisé contenant 59 vidéos du journaux télévisés de France 2.

Extraction des connaissances à partir du Web pour la recherche des images géoréférencées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les bases de données géoréférencées connaissent un rôle croissant dans une grande variété de domaines d’application. La création manuelle de ces bases de données est cependant une opération coûteuse. Cela a suscuté un intérêt pour l’automatisation de leur construction, par exemple, par l’exploitation des informations géographiques présentes sur le Web. Dans ce travail, nous présentons une nouvelle approche automatique pour la construction d’une base de données géoréférencées multilingues et à large échelle en se basant principalement sur l’encyclopédie collaborative Wikipedia pour identifier les noms géographiques, catégoriser ces noms, trouver leurs coordonnées géographiques et les classer selon une estimation de leur pertinence.

Reconnaissance de l'écriture arabe multifonte à très basse résolution.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans ce travail une approche de reconnaissance de textes arabes imprimés hors-ligne à vocabulaire ouvert et à très basse résolution (72 dpi). La méthode est basée sur les Modèles de Markov Cachés en utilisant la boite à outils HTK. La nouveauté de QRWUH WUDYDLO HVW GDQV O¶DQDO\VH GH FH W\SH GH V\VWqPHV VXU Wrois fontes de calligraphie complexe et présentant de fortes ligatures : DiwaniLetter, DecoTypeNaskh et DecoTypeThuluth.

REDENE - Recherche documentaire assistée par ontologies de domaine adaptatives.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La subjectivité des connaissances devient une dimension incontournable qui se doit d’être intégrée et prise en compte dans le processus d’Ingénierie des Ontologies (IO). Le projet REDENE est fondé (i) sur une formalisation des résultats obtenus en psychologie cognitive sur le fonctionnement de la mémoire humaine- en tenant compte des hypothèses établies dans le domaine des neurosciences- et (ii) sur l’intégration et l’exploitation d’un telle formalisation au sein des processus de recherche d’information basés sur l’usage d’ontologies.

Tweet Contextualization Approach Based on Wikipedia and Dbpedia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La taille des tweets est limitée à un nombre maximum de caractères. Cette contrainte liée à la taille du message entraîne l’utilisation d’un vocabulaire particulier rendant le tweet difficile à comprendre. La tâche de contextualisation des tweets vise à fournir, automatique- ment, un résumé qui explique un tweet donné, ce qui permet au lecteur de bien le comprendre. Nous proposons pour cela différentes méthodes basées sur deux énormes sources de connais- sances à savoir, Wikipédia et Dbpedia.

Unnatural language detection.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le contexte des moteurs de recherche sur le web, l’escalade entre les techniques de classement et les techniques de spamdexing a conduit à l’apparition de faux contenus dans les pages web. Si les séquences aléatoires de mots-clés sont facilement détectables, les pages web produites par des générateurs automatiques dédiés sont beaucoup plus difficiles à détecter. Motivé par cette application, on se concentrera sur le problème plus général de la détection du catactère peu-naturel d’un texte.

Extension automatique d'annotation et classification de documents en utilisant un modèle graphique probabiliste.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Avec la prolifération des images de documents, l’annotation de documents est devenue Abstract With the fast growth of document images, document annotation has become a research

Génération de réponses pour un système de questions-réponses.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les systèmes de questions-réponses (SQR) actuels répondent à une question posée par l’utilisateur en langue naturelle par une information précise ainsi qu’un passage de document justifiant cette information. Le principal défaut de ces réponses est qu’elles ne créent pas d’interaction avec l’utilisateur, ce qui peut être problématique, en particulier dans le cas où le SQR est intégré dans un système de dialogue oral. Cet article présente un système générant des réponses en langue naturelle et pouvant être intégré à tout SQR.

KWSim: Concepts Similarity Measure.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La comparaison des images médicales annotées manuellement peut être réalisée grâce à une comparaison lexicale entre des mots-clés ou en utilisant des thésaurus médicaux existants pour calculer une similarité sémantique entre ces mots. Dans cet article, nous présentons tout d’abord la mesure KW Sim, une technique entièrement automatisée pour le calcul de la similarité sémantique en mappant des concepts (mots-clés) aux différents thésaurus médicaux et en examinant le type de relation u is-a ».

Réédition de documents numériques guidée par un modèle utilisateur.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre travail se situe dans un contexte où une requête documentaire dans une base de documents XML d’un domaine spécifique fournit une masse de documents inexploitable par un humain. Un post-traitement que nous appelons réédition est alors indispensable: il consiste à utiliser des unités d’information qui sont les éléments XML provenant des documents résultats de la requête pour composer de nouveaux documents. Une balise XML n’ayant pas de signification intrinsèque mais une interprétation donnée par son auteur, nous associons à chaque élément XML des connaissances spécifiques pour la réédition.

RI dans les microblogs : que manque-t-il aux approches classiques ?

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous nous intéressons dans cet article à la recherche d’information dans les microblogs. Les modèles de RI classiques, conçus pour des textes plus longs que les 140 caractères d’un microblog, ne sont pas forcément adaptés pour ces derniers. Une analyse de leurs résultats nous a permis d’identifier la différence de vocabulaire entre les microblogs et la requête comme étant la raison principale de leur manque de performance. Pour améliorer la qualité de la recherche, nous proposons d’étendre les microblogs grâce au texte des URL qu’ils contiennent, et également d’étendre les requêtes avec WordNet ou en utilisant des articles de presse.

Stratégies de supervision pour l'apprentissage en-ligne d'un classifieur évolutif de commandes gestuelles.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les interfaces homme-machine tactiles permettent de nouveaux modes d’interaction comme l’utilisation de commandes gestuelles. Afin de mémoriser facilement plus d’une dou- zaine de commandes, il est important de pouvoir les personnaliser. Le classifieur utilisé pour reconnaitre les symboles dessinés doit donc être personnalisable, pouvoir s’initialiser à partir de très peu de données, et évolutif, pouvoir s’améliorer pendant son utilisation. Ces travaux étudient l’importance et les différentes stratégies d’étiquetage du flux de données d’utilisation pour l’apprentissage en-ligne du classifieur.

Aide à la gestion des processus de numérisation en vue de l'OCRisation des ouvrages.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous étudions deux pistes afin d’améliorer le processus de numérisa- tion des documents de la Bibliothèque nationale de France en vue de leur OCRisation. Dans la première partie, nous étudions les corrélations qui existent entre les données bibliographiques du document et les décisions de sélection des documents. Dans la deuxième partie, nous pré- sentons une méthode basée sur la précision et le rappel qui va nous servir à estimer le taux de reconnaissance caractères pour vérifier les résultats de l’OCRisation sans recours à une vérité terrain.

Classification et extraction des documents complexes à partir des images issues d'un périphérique mobile : application aux documents d'identité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article une méthode de classification des images de documents Abstract We propose in this paper a document image classification method. In contrary to

Productions d'annotations par plan pour l'indexation des vidéos.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La qualité des annotations dans les vidéos d’entraînement joue un rôle très important dans la qualité des systèmes de détection automatique d’événements dans les vidéos. Dans cet article, nous proposons une méthode pour la génération d’annotations au niveau des plans à partir d’annotations au niveau des vidéos complètes. Cette méthode utilise des techniques de filtrage en fonction du contenu visuel des vidéos et elle est basée sur l’idée que les plans conte- nant un événement donné ont tendance à être semblables entre eux contrairement aux plans ne contenant pas cet évènement, qui auront plus tendance à être différents du reste des plans.

Reformulation de Requêtes par Structure en RI dans les documents structurés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La reformulation de requêtes permet d’enrichir une requête initiale en fonction de jugements de pertinence afin d’exprimer d’avantage les besoins de l’utilisateur. De nouvelles problématiques sont soulevées lorsque la reformulation s’effectue sur des corpus de documents semi-structurés de type XML. Les différentes approches qui ont été développées sont en général basées sur le contenu seul des éléments. Notre contribution consiste à mettre en oeuvre une nouvelle approche permettant d’étendre la requête initiale avec une structure générique et des mots-clés.

Un moteur d'appariement et transformation de sous-arbres pour la conception interactive de scénarios d'analyse d'images de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit un nouveau moteur d’extraction d’éléments de contenu et d’analyse de structures de pages numérisées. Cette nouvelle méthode se base sur un mécanisme original d’appariement séquentiel et de transformation de sous-arbres. Les sous- arbres permettent la description des structures à localiser dans l’état courant de l’interprétation du document représenté également par une structure arborescente. Un algorithme de recherche d’appariements sous contraintes de sous-arbres pouvant être exploité de manière incrémental permet la mise en place interactive de scénarios d’analyse cherchant à répondre aux besoins spécifiques de chaque usager.

Un système d'aide à la recherche d'information en ligne basé sur les ontologies (SA-RI-Onto).

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La croissance très importante des informations disponibles sur Internet nécessite des outils de recherche de plus en plus performants permettant de discerner efficacement les informations intéressantes parmi des centaines voire des milliers de documents. Seulement, la qualité des résultats fournis par les moteurs de recherche traditionnels n’est pas toujours pertinente surtout quand il s’agit de composer plus d’une requête. Ceci est dû aux ambiguïtés linguistiques et aux concepts abstraits qui ne sont pas bien traités.

Accès personnalisé multicritères à de multiples sources d'informations.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit une approche de la recherche d’information permettant l’accès personnalisé à plusieurs sources d’informations. L’accès à des sources d’informations distribuées est souvent effectué en trois étapes, la première consiste à sélectionner les sources pertinentes pour la requête, puis soumettre la requête à ces sources sélectionnées et finalement fusionner les résultats retournés par ces sources. L’objectif de cet article est d’intégrer l’utilisateur via son profil dans les processus de sélection et de fusion des résultats des sources.

Approche par réutilisation d'annotations sémantiques pour la recherche d'information sur le web.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons une nouvelle approche d’aide à la recherche d’information sur le web. Elle a pour objectif de présenter à l’utilisateur courant des documents réponses pertinents pour sa requête et adaptés à son profil. Elle consiste à utiliser le mécanisme du Raisonnement à Partir de Cas (RàPC) pour mémoriser les sessions de recherche effectuées par les utilisateurs (profil utilisateur, requête, annotation d’un document pertinent, date) et à les réutiliser lorsqu’une session de recherche similaire se présente.

Filtrage de descripteurs locaux pour l'amélioration de la détection de documents.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article propose une méthode simple et efficace qui vise à réduire la quantité de descripteurs locaux à indexer dans un scénario de mise en correspondance d’images de do- cuments. Au cours d’une étape d’entraînement préalable, la mise en correspondance entre un document modèle et un ensemble d’images contenant une instance de ce modèle est calculée en ne retenant que les descripteurs locaux du modèle qui produisent des appariements corrects de façon régulière.

LearnPos : un nouvel outil pour l'apprentissage interactif de positionnement.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé L’analyse de documents structurés nécessite la localisation de données à l’intérieur du document lors du processus de reconnaissance. Dans cet article, nous présentons LearnPos, un nouvel outil générique, indépendant de tout système de reconnaissance de document. LearnPos modélise et évalue le positionnement à partir d’un échantillon d’apprentissage de documents. L’utilisateur est ainsi assisté dans la définition de la structure physique du document. LearnPos peut fournir des positionnements absolus et relatifs, en interagissant avec l’utilisateur.

Reclassement sémantique pour l'indexation de documents multimédia.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article décrit une nouvelle approche pour indexer des documents multimédia (vidéo avec son) par des concepts visuels. En plus des informations relatives au concept cible, l’idée développée propose d’intégrer la détection d’un ensemble d’autres concepts. L’avantage escompté par une telle combinaison est d’améliorer la performance d’un système d’indexa- tion profitant des relations entre les concepts. Des expérimentations sur le corpus TRECVID 2012 sont présentées et commentées. Notre méthode a permis d’améliorer significativement les performances d’un bon système, jusqu’à +6% sur la précision moyenne.

Intégration de connaissances syntaxiques dans les modèles de langue pour la RI.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé En Recherche d’Information (RI) les méthodes purement statistiques basées sur des distributions de mots-clef ont actuellement atteint une limite. Cette limite n’est franchissable que par l’apport massif de connaissances extérieures au sein du système de RI. Nos travaux portent sur l’utilisation en RI des liens de niveaux syntaxiques entre les termes. Nous considérons ainsi les dépendances syntaxiques contenues dans l’arbre de dépendance produit par des analyseurs syntaxiques de surface. Pour intégrer ces informations en RI, le contexte des modèles de langue nous semble favorable.

Un modèle probabiliste pour la détection de l'incertitude dans le langage naturel.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La détection de l’incertitude dans le langage naturel est centrale pour le développe- ment de nombreux modèles exploitant l’analyse de textes e.g. questions-réponses, raisonnement approché, enrichissement de bases de connaissances. Après une synthèse des différentes clas- sifications de l’incertitude et des méthodes de détection correspondantes, cet article introduit une approche supervisée et générique de détection de l’incertitude. Celle-ci se base sur l’ana- lyse statistique de différentes caractéristiques lexicales et syntaxiques afin de construire une représentation vectorielle d’une phrase analysable par des méthodes de classification éprou- vées.

Vectorisation du modèle d'appariement pour la recherche d'images par le contenu.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le développement rapide des techniques de numérisation et de stockage a engendré une croissance accrue du volume des documents électroniques (textes, images, sons et vidéos). Pour faire face à cette grande masse d’informations, en particulier les images, il est nécessaire de développer des outils qui permettent d’optimiser l’accès à de telles sources de données. Le problème qui se pose est la représentation du contenu d’images, puisque les techniques actuelles ne permettent pas de décrire réellement le contenu.

Vers l'alignement des signaux écrit et sonore. Application à la reconnaissance des expressions mathématiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous rapportons de nouveaux résultats sur la reconnaissance des expressions mathématiques (EMs). Nous abordons cette problématique en considérant l’aspect bimodal de l’information : c’est à dire exploiter à la fois le signal de parole et celui de l’écriture manuscrite représentant la même EM. Ceci permet de disposer de plus de fiabilité lors d’un trai- tement automatique, d’autant plus que ces deux modalités s’avèrent être très complémentaires. Nous proposons d’aligner les deux modalités grâce à un classifieur de type réseau de neurones et en adoptant un apprentissage original des associations écrit-audio.

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’interrogation. Par conséquent, un Fichier Inverse Etendu est construit en ex- ploitant le concept de proximité des termes et en utilisant les technologies de classification non supervisée.

La recherche d'information: Une opportunité de collaboration pour les équipesdistribuées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans le contexte économique actuel la division cognitive du travail et la distribution des connaissances et des compétences rendent nécessaires la mise en relation des individus. Dans cet environnement organisationnel turbulent se pose la question de l’accès et du repérage de l’information. Le modèle de recherche d’information que nous proposons ne se réduit pas à la diffusion d’un contenu mais s’accompagne d’une mise en relation entre demandeur et offreur. Nous envisageons cette approche collaborative de la recherche d’information comme l’opportunité de développer le capital social des individus de l’organisation.

Séparateurs à Vaste Marge pondérés en norme L2 pour la sélection de variables en apprentissage d'ordonnancement.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les algorithmes d’apprentissage d’ordonnancement utilisent un très grand nombre de caractéristiques pour apprendre les fonctions d’ordonnancement, entraînant une augmentation des temps d’exécution et du nombre de caractéristiques redondantes ou bruitées. La sélection de variables est une méthode prometteuse pour résoudre ces enjeux. Dans cet article, nous pro- posons de nouvelles méthodes de sélection de variables en apprentissage d’ordonnancement basées sur des approches de pondération des SVM en norme 2. Nous proposons une adap- tation d’une méthode 2-AROM pour la résolution des SVM en norme 0et un algorithme générique de pondération de la norme 2 qui résout les problèmes en norme l0 et et l1.

Structured Indexing Model for Cross-Language Information Retrieval.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans les systèmes récents de bibliothèques numériques ou dans le contexte du Web, les Abstract In recent digital library systems or World Wide Web environment, parallel corpora

Apprentissage d'ordonnancement et influence de l'ambiguïté pour la prédiction d'activité sur les réseaux sociaux.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Nous proposons dans cet article d’apprendre à classer les mots-clés selon leur activité à venir, et comparons deux approches : point-wise et pair-wise. Pour chacune d’elle nous étu- dions l’influence de l’ambiguïté et de la popularité des mots-clés sur ses capacités prédictives. A notre connaissance, c’est la première fois que ces facteurs sont étudiés dans ce contexte. Pour valider nos résultats nous fournissons un jeu d’apprentissage comprenant l’activité de1 497 mots-clés observée sur Twitter pendant une année.

Fouille d'opinion : ces mots qui changent de polarité selon le domaine.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La manière dont les gens expriment leur avis change selon ce dont ils parlent. Ainsi, un classifieur d’opinion entraîné sur des critiques de films, ne pourra pas être appliqué à des critiques de restaurants sans un minimum d’adaptation. Par exemple, certains mots présents dans les deux domaines peuvent changer de polarité. Dans cet article, nous montrons dans un premier temps que ces mots changeant de polarité affectent le comportement des classifieurs automatiques d’opinion : supprimer ces mots des corpus ou bien les considérer comme deux mots différents améliore les résultats des classifieurs.

Génération automatique d'une ontologie dans le domaine des ressources humaines.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Notre époque est de plus en plus influencée par la prééminence des données intelligentes et du web sémantique. Les processus de recrutement n’en sont pas toujours facilités en particulier en matière de recherche de profils et de talents. La plupart des systèmes d’apparie- ment entre une offre d’emploi et un profil s’appuient sur une ou plusieurs ressources linguis- tiques, mais se heurtent à la difficulté de développer et à entretenir des ressources spécifiques à chaque domaine.

Correspondances compatibles avec les fichiers inverses pour la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article fait un retour sur l’un des éléments majeurs d’un système de recherche d’information : la correspondance basée sur des fichiers inverses car le passage d’une formule théorique à une implantation compatible avec des fichiers inverse est rarement explicitée dans les publications. Nous proposons ici de définir plus formellement l’expression d’une formule de correspondance compatible avec des fichiers inverses. Nous proposons deux niveaux de com- patibilité. Nous étudions les modèles les plus classiques en vérifiant leur compatibilité avec les fichiers inverses.

Datation d'images pour la recherche temporelle d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cet article s’inscrit dans le contexte de la recherche temporelle d’information qui est une thématique en plein essor depuis ces cinq dernières années. La temporalité peut être vue comme un axe de diversification permettant de raffiner les résultats des requêtes formulées par les utilisateurs. Dans cet article, nous présentons une étude sur la datation automatique de pho- tographies pour la recherche temporelle d’images de la Toile. Ce processus de datation impose de nombreuses considérations à la fois théoriques et techniques caractérisant cette tâche parti- culière.

Réseaux de neurones pour la représentation des contextes continus des mots.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les méthodes d’apprentissage profond s’appuient de plus en plus sur des représen- tations vectorielles continues des mots. Ces méthodes, déjà appliquées avec succès dans de nombreuses tâches de traitement automatique du langage naturel écrit et oral, sont capables de représenter des mots ainsi que les relations les liant. De manière générale, ces méthodes utilisent des représentations par “sac-de-mots” et traitent donc tous les mots d’un contexte de façon égale. Cet article propose une méthode originale qui s’appuie sur les modèles de contextes continus en intégrant la position relative des mots dans un contexte.

A multi-layer separation based system for camera-based complex map image retrieval.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé None Abstract In this paper, we present a method of camera-based document image retrieval for heterogeneous-content document using a multi-layer separating approach. We use Locally Likely Arrangement Hashing (LLAH) extracting text features on the layer which contains text. In addition, we employ a technique of reducing the memory required for storing the hash table. Experiment result show that our approach is efficient in term of accuracy result and real-time retrieval for heterogeneous-content document camera-based retrieval.

Métriques statistiques pour l'évaluation de performance en présence de vérité terrain imprécise.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Ce papier aborde l’évaluation de performances en présence de vérité terrain imprécise. Abstract This paper addresses performance evaluation in the presence of imprecise groundtruth.

Apprentissage d'inférences par édition d'arbres pour répondre à des questions.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La sélection de réponse en recherche d’information précise met nécessairement en oeuvre un appariement de passages avec la question. Nous proposons un algorithme qui consiste à engendrer et apprendre les inférences utiles pour rapprocher les passages de texte à des couples (questions, réponse candidate). Ceux-ci sont sélectionnés au moyen d’une ex- pansion lexicale utilisant WordNet et des vecteurs de mots. Ils sont représentés par leur arbre de dépendances syntaxique, enrichi au moyen de plusieurs ressources lexico-sémantiques dont WordNet et ConceptNet.

Détection de tableaux dans des documents complexes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous présentons les résultats obtenus par un détecteur de tableau dans le cadre des campagnes MAURDOR, pour lesquelles le corpus présente la particularité de contenir des document fortement hétérogènes dans leur mise en page, leurs scripts et les langues utilisées. Abstract This paper presents the results obtained by a table detector during the MAURDOR campaign, the corpus of which contain heterogeneous documents in French, English and Arabic with various types of table structures.

Localisation contextuelle des personnages de bandes dessinées.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les auteurs proposent une méthode de localisation des personnages dans des cases de bandes dessinées en s’appuyant sur les caractéristiques des bulles de dialogue. L’évaluation montre un taux de localisation des personnages allant jusqu’à 65%. Abstract The authors present a new method to localize comic’s characters inside comic books’ panels relying on speech balloons properties. The evaluation shows a character localization accuracy up to 65%.

Vers une approche utilisant l'apprentissage de métrique pour du clustering semi-supervisé interactif d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La problématique du clustering non supervisé et semi-supervisé est très étudiée dans Abstract The problem of unsupervised and semi-supervised clustering is extensively studied

Apprentissage de modèles de langue neuronaux pour la recherche d'information.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La recherche d’information (RI) ad-hoc se heurte à différentes difficultés, notam- ment liées à des discordances de vocabulaire entre requête et documents, ainsi qu’à la prise en compte de dépendances séquentielles entre les termes de la requête. Les récents modèles de langue neuronaux sont capables de capturer différents types de dépendances, grâce à une représentation distribuée des mots, mais nécessitent de gros volumes de données pour être en- trainés efficacement.

Identification of Arabic/French Handwritten/Printed Words using GMM-Based System.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La discrimination entre les langues est l’une des premières étapes dans le problème de reconnaissance automatique des documents de textes. Dans de nombreux documents, tels que les chèques bancaires et les formulaires, les textes imprimés et manuscrits sont mélangés. Dans cet article, nous proposons un système d’identification automatique des mots arabes et français dans les deux formes: manuscrite et imprimée. Ce système est basé sur les modèles de mélanges gaussiens (GMMs).

MyBestQuery : un jeu sérieux pour apprendre des utilisateurs.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé MyBestQuery est un jeu sérieux qui collecte des éléments sur les requêtes soumises à Abstract MyBestQuery is a serious game designed to collect items from queries submitted to

Réseaux Bayésiens et quelques applications en traitement d'images.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les réseaux Bayésiens sont actuellement une des techniques les plus intéressantes Abstract Bayesian networks are currently one of the most interesting techniques of artificial

Classification de profils d'utilisateurs en fonction de leurs orientations politiques.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les plateformes d’informations recueillent des commentaires émis par les utilisateurs. Ces commentaires constituent un formidable moyen d’accès aux opinions de ces utilisateurs sur tous les sujets de la vie courante. Il est possible d’utiliser ces commentaires afin d’identifier des tendances dans bon nombre de scénarios. Par exemple, les partis politiques peuvent être intéressés à contrôler leur image. Dans ce papier, nous présentons une technique non super- visée pour classifier des utilisateurs à partir de leurs orientations politiques.

IDCHECK.IO : application mobile de contrôle de documents d'identité.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Il existe un très grand nombre de techniques de sécurisation des documents d’identité et Abstract There is a very large number of identity document security techniques and it is common

GNOM-FCA : Une extension de la méthode de Falzon de détection de communautés.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Dans cet article, nous proposons une nouvelle approche basée sur l’Analyse Formelle des Concepts (AFC) pour la détection de communautés dans un réseau social. Nous proposons une fonction basée sur une modularité adaptée, appelée GroupNode modularity, qui améliore une méthode de détection partielle proposée par Falzon en considérant tous les acteurs du réseau social. Nous appelons notre approche GNOM-FCA (GroupNOde Modularity combined with Formal Concept Analysis approach). En outre, nous avons adapté une fonction issue du domaine de la recherche d’information, à savoir la F-mesure, dans le cas de classes multiples pour évaluer et comparer la qualité des communautés détectées.

Recherche par le contenu d'images de monnaies de collection.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cette démonstration consiste en une variante du travail de (Perronnin et al., 2010) Abstract This demonstration is a variant of the work of (Perronnin et al., 2010), both simplified

AXON : Un Système de RI Personnalisée dans des Textes Arabes basée sur le profil utilisateur et l'expansion de requêtes.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les travaux présentés dans cet article visent à développer un système de recherche d’information qui présente la particularité d’être adapté pour la langue arabe et de fournir des résultats personnalisés en fonction des préférences/centres d’intérêt de l’utilisateur. Pour cela, nous avons proposé une méthode d’expansion de requêtes basée à la fois sur des connaissances sémantiques issues d’ontologies existantes pour la langue arabe et sur des Abstract The work presented in this paper aim to develop a system for information retrieval which has the particularity of being adapted to the Arabic language and provides personalized results based on the user’s preferences / interests.

Fri, 21 Jun 2024 13:00:00 +0100

Fri, 07 Jun 2024 13:00:00 +0100

Fri, 24 May 2024 13:00:00 +0100

Groupe de lecture du vendredi 12 avril 2024

Fri, 12 Apr 2024 13:00:00 +0100

Groupe de lecture du vendredi 29 mars 2024

Fri, 29 Mar 2024 13:00:00 +0100

Groupe de lecture du vendredi 15 mars 2024

Fri, 15 Mar 2024 13:00:00 +0100

Groupe de lecture du vendredi 16 février 2024

Fri, 16 Feb 2024 13:00:00 +0100

Groupe de lecture du vendredi 2 février 2024

Fri, 02 Feb 2024 13:00:00 +0100

Groupe de lecture du vendredi 19 janvier 2024

Fri, 19 Jan 2024 13:00:00 +0100

Premier appel à communication - CORIA 2024

Wed, 13 Dec 2023 00:00:00 +0000

CORIA (COnférence en Recherche d’Information et Applications) est la principale manifestation soutenue par l’Association Francophone de Recherche d’Information et Applications ARIA. Dates importantes Soumission des articles résumés, courts et longs : jeudi 1er février 2024 Notification aux auteurs : mardi 5 mars 2024 Conférence : les 3 et 4 avril 2024 à La Rochelle CORIA vise à rassembler les équipes et les personnes menant des travaux scientifiques dans le domaine de la recherche d’information et de ses applications : recherche d’information sur le web, sur les réseaux sociaux ou sur des collections spécifiques, systèmes de recommandation, fouille de documents, d’images, d’enregistrements audio, de vidéos, assistants personnels et chatbots… Devenue activité quotidienne du grand public, la recherche d’information est essentielle à de nombreux usages du numérique.

Groupe de lecture du vendredi 8 décembre 2023

Fri, 08 Dec 2023 13:00:00 +0100

Groupe de lecture du vendredi 24 novembre 2023

Fri, 24 Nov 2023 13:00:00 +0100

Groupe de lecture du vendredi 10 novembre 2023

Fri, 10 Nov 2023 13:00:00 +0100

Groupe de lecture du vendredi 27 octobre 2023

Fri, 27 Oct 2023 13:00:00 +0100

Groupe de lecture du vendredi 13 octobre 2023

Fri, 13 Oct 2023 13:00:00 +0100

Groupe de lecture du vendredi 29 septembre 2023

Fri, 29 Sep 2023 13:00:00 +0100

Fri, 07 Jul 2023 13:00:00 +0100

Groupe de lecture du vendredi 23 juin 2023

Fri, 23 Jun 2023 13:00:00 +0100

Groupe de lecture du vendredi 26 mai 2023

Fri, 26 May 2023 13:00:00 +0100

Groupe de lecture du vendredi 12 mai 2023

Fri, 12 May 2023 13:00:00 +0100

Groupe de lecture du vendredi 28 avril 2023

Fri, 28 Apr 2023 13:00:00 +0100

Groupe de lecture du vendredi 31 mars 2023

Fri, 14 Apr 2023 12:00:00 +0000

Groupe de lecture du vendredi 17 mars 2023

Fri, 17 Mar 2023 13:00:00 +0000

Groupe de lecture du vendredi 3 mars 2023

Fri, 03 Mar 2023 13:00:00 +0000

Groupe de lecture du vendredi 17 février 2023

Fri, 17 Feb 2023 13:00:00 +0000

Groupe de lecture du vendredi 3 février 2023

Fri, 03 Feb 2023 13:00:00 +0000

CORIA TALN RJCRI RECITAL 2023

Tue, 24 Jan 2023 00:00:00 +0000

CORIA Dans le cadre des conférences conjointes CORIA-TALN 2023, nous sollicitons des propositions d’articles longs et courts. CORIA vise à rassembler les équipes et les personnes menant des travaux scientifiques dans le domaine de la recherche d’information et de ses applications : recherche d’information sur le web, sur les réseaux sociaux ou sur des collections spécifiques, systèmes de recommandation, fouille de documents, d’images, d’enregistrements audio, de vidéos, assistants personnels et chatbots… Devenue activité quotidienne du grand public, la recherche d’information est essentielle à de nombreux usages du numérique.

Groupe de lecture du vendredi 6 janvier 2023

Fri, 06 Jan 2023 13:00:00 +0000

Groupe de lecture du vendredi 9 décembre 2022

Fri, 09 Dec 2022 13:00:00 +0000

Groupe de lecture du vendredi 25 novembre 2022

Fri, 25 Nov 2022 13:00:00 +0000

Groupe de lecture du vendredi 28 octobre 2022

Fri, 28 Oct 2022 13:00:00 +0000

Groupe de lecture du vendredi 14 octobre 2022

Fri, 14 Oct 2022 13:00:00 +0000

Groupe de lecture du vendredi 30 septembre 2022

Fri, 30 Sep 2022 13:00:00 +0000

Journée accès à l’information (GDR TAL)

Wed, 21 Sep 2022 00:00:00 +0000

Dans le cadre du GdR CNRS Traitement automatique des langues (GdR TAL), l’IRISA organise une journée scientifique sur le thème de « l’accès à l’information » le 19 octobre 2022 à Rennes. La journée sera organisée autour de plusieurs présentations orales invitées et de présentations posters et de démos. Appel à contribution (date limite 30 septembre 202) Thèmes La numérisation de la société a censément facilité l’accès aux informations, que ce soit pour le grand public (savoir encyclopédique, actualités…) ou dans des domaines de spécialité (p.

Groupe de lecture du vendredi 10 juin 2022

Fri, 10 Jun 2022 13:00:00 +0000

Groupe de lecture du vendredi 13 mai 2022

Fri, 13 May 2022 13:00:00 +0000

Groupe de lecture du vendredi 29 avril 2022

Fri, 29 Apr 2022 13:00:00 +0000

Groupe de lecture du vendredi 15 avril 2022

Fri, 15 Apr 2022 13:00:00 +0000

Groupe de lecture du vendredi 1er avril 2022

Fri, 01 Apr 2022 13:00:00 +0000

Supports Présentation de Romain Xu-Darme

Groupe de lecture du vendredi 18 mars 2022

Fri, 18 Mar 2022 13:00:00 +0000

Groupe de lecture du vendredi 4 mars 2022

Fri, 04 Mar 2022 13:00:00 +0000

Groupe de lecture du vendredi 18 février 2022

Fri, 18 Feb 2022 13:00:00 +0000

CIRCLE 2022 | 2nd edition of the Joint Conference of the Information Retrieval Communities in Europe

Mon, 24 Jan 2022 00:00:00 +0000

SCOPE The second edition of CIRCLE will take place on July 4-7, 2022 at Samatan, Gers, south of France (50 minutes from Toulouse). More information at https://www.irit.fr/CIRCLE/. CIRCLE arose from a twofold wish to gather three national Information Retrieval (IR) conferences and to offer young researchers the opportunity to meet and discuss with senior researchers. CIRCLE is supported by the ARIA French conference (CORIA, COnférence en Recherche d’Information et Applications), the Spanish Conference on Information Retrieval (CERI, Congreso Español de Recuperación de Información), the Italian Information Retrieval Workshop, and the Swiss IR community.

Conférence CIRCLE 2022

Mon, 24 Jan 2022 00:00:00 +0000

CIRCLE 2022 est un événement organisé par l’équipe de Toulouse. CIRCLE is supported by the ARIA French conference (CORIA, COnférence en Recherche d’Information et Applications), the Spanish Conference on Information Retrieval (CERI, Congreso Español de Recuperación de Información), the Italian Information Retrieval Workshop, and the Swiss IR community. Trouvez plus d’information, ainsi que l’appel à communication, sur la page de CIRCLE 2022.

Deep IR and tools

Fri, 21 Jan 2022 13:00:00 +0000

Language Models and Sentence embeddings

Fri, 07 Jan 2022 13:00:00 +0000

Thu, 06 Jan 2022 13:00:00 +0000

Document classification and Sentiment Analysis

Fri, 26 Nov 2021 13:00:00 +0000

Transformers pour la RI - analyse et diversification

Fri, 15 Oct 2021 13:00:00 +0000

JAII 2021 : Journée "Accès interactif à l’information" (AFIA-THL / ARIA / GDR TAL)

Wed, 01 Sep 2021 00:00:00 +0000

Le GDR-TAL (Groupement de recherche en Traitement Automatique de la Langue) et deux associations : l’AFIA (Association française pour l’intelligence artificielle), au travers de son collège Technologies du Langage Humain (TLH) et l’ARIA (Association de Recherche d’Information et Applications) organisent une journée commune sur le thème de l’“Accès interactif à l’information” le 9 décembre 2021 à Paris (Jussieu). L’objectif de cette journée est de réunir chercheurs-euses en Intelligence Artificielle, en Traitement Automatique des Langues et en Recherche d’Information travaillant sur les aspects interactifs de l’accès à l’information.

Clustering et Recherche Personalisée

Fri, 18 Jun 2021 13:00:00 +0000

Détection d'événements

Fri, 04 Jun 2021 13:00:00 +0000

Recommendation et Learning To Rank

Fri, 21 May 2021 13:00:00 +0000

Efficiency in Neural Re-Ranking

Fri, 07 May 2021 13:00:00 +0000

In the past few years, contextualized language modeling techniques (such as BERT) have yielded substantial improvements in ad-hoc re-ranking. Though very effective, these models leave much to be desired in terms of computational efficiency. In this talk, I show a technique for reducing query-time computation cost by delaying cross-attention and pre-computing document representations (PreTTR). Armed with this knowledge, I show how neural re-ranking architectures can be designed to take advantage of this property to enhance efficiency and interpretability by predicting term salience scores (EPIC).

Liste des adhérents

Sat, 01 May 2021 00:00:00 +0000

Seuls les organismes sont mentionnés ici, l’adhésion peut également se faire de façon individuelle en tant que personne physique. 2021 LIRIS, Lyon IRIT, Toulouse LIP6, Paris IRISA, Rennes LIS, Marseille Naver Labs Europe Entreprise La rochelle Université, La Rochelle Laboratoire Gaspard Monge, Marne la vallée 2020 Sorbonne université, paris IRIT, Toulouse LIG, Grenoble LIS, Marseille Laboratoire Hubert Curien, St Etienne 2019 LIP6, Paris IRIT, Toulouse Mines de Saint-Etienne LIG, Grenoble CNRS Rhône-Alpes Université d’Aix-Marseille INSA, Lyon Ezus (lab.

Ad-Hoc Video Search

Fri, 23 Apr 2021 13:00:00 +0000

Représentation des graphes

Fri, 09 Apr 2021 13:00:00 +0000

Social book search et Top-K Query Processing

Fri, 12 Mar 2021 13:00:00 +0000

RI neuronale : analyse et contexte

Fri, 12 Feb 2021 13:00:00 +0000

Lila Boualili présentera ABNIRML: Analyzing the Behavior of Neural IR Models Nicolas Bizzozzéro présentera Context Attentive Document Ranking and Query Suggestion

Distillation et RI neuronale

Fri, 29 Jan 2021 13:00:00 +0000

présenté par Stéphane Clinchant Distilling Dense Representations for Ranking using Tightly-Coupled Teachers https://arxiv.org/pdf/2010.11386.pdf présenté par Thibault Formal Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation https://arxiv.org/abs/2010.02666 , presente par Thibault

Semi-Supervised Classification with Graph Convolutional Networks

Fri, 15 Jan 2021 13:00:00 +0000

Le groupe de lecture du vendredi 15 janvier (13-14h) sera animé par le laboratoire ERIC (Lyon). présenté par Adrien Guille (notes) Semi-Supervised Classification with Graph Convolutional Networks https://arxiv.org/abs/1609.02907v4 Bibliographie Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering Spectral Networks and Deep Locally Connected Networks on Graphs Wavelets on Graphs via Spectral Graph Theory

CORIA/RJCRI 2021 - Appel à contributions

Fri, 15 Jan 2021 00:00:00 +0000

La 17ème édition de CORIA (COnférence en Recherche d’Information et Applications) sera organisée du 14 au 16 avril 2021, conjointement aux rencontres jeunes chercheurs en RI (RJCRI). Elle est la principale manifestation soutenue par l’Association Francophone de Recherche d’Information et Applications ARIA (http://www.asso-aria.org). Liens utiles Template latex Site de soumission Calendrier Soumission des résumés : 18 février 2021 Soumission des articles : 24 février 2021 Notification : 23 mars 2021 Version définitive des articles : 2 avril 2021 Conférence : 14 au 16 avril 2021

Conférence CORIA/RJCRI 2021

Fri, 01 Jan 2021 00:00:00 +0000

CORIA/RJCRI 2021 a été un événement virtuel organisé par l’équipe de Grenoble. Trouvez plus d’information, ainsi que l’appel à communication, sur la page de CORIA 2021.

Neural Ranking

Fri, 18 Dec 2020 13:00:00 +0000

Yagmur Gizem Cinar presents Jiang, J. Y., Xiong, C., Lee, C. J., & Wang, W. (2020). Long Document Ranking with Query-Directed Sparse Transformer arXiv preprint arXiv:2010.12683 Diana Nicoletta Popa presents Luyu Gao, Zhuyun Dai and Jamie Callan. Modularized Transfomer-based Ranking Framework EMNLP 2020

RL for relevance feedback / SparTerm

Fri, 04 Dec 2020 13:00:00 +0000

Pour la troisième réunion du groupe de lecture ARIA/GDR TAL, seront présentés : présenté par Laure Soulier A Reinforcement Learning Framework for Relevance Feedback https://dl.acm.org/doi/10.1145/3397271.3401099 présenté par Benjamin Piwowarski Bai, Yang, Xiaoguang Li, Gang Wang, Chaoliang Zhang, Lifeng Shang, Jun Xu, Zhaowei Wang, Fangshan Wang, et Qun Liu. « SparTerm: Learning Term-based Sparse Representation for Fast Text Retrieval ». arXiv:2010.00768 http://arxiv.org/abs/2010.00768.

Graph Embeddings et Collaborative Filtering

Fri, 20 Nov 2020 13:00:00 +0000

Durant la seconde réunion du groupe de lecture ARIA/GDR TAL, seront présentés : présenté par Sébastien Fournier Graph Embedding Techniques, Applications, and Performance: A Survey https://arxiv.org/pdf/1705.02801.pdf présenté par Yann Duperis ( présentation PDF) S. Yang, M. Korayem, K. AlJadda, T. Grainger, and S. Natarajan, “Combining content-based and collaborative filtering for job recommendation system: A cost-sensitive Statistical Relational Learning approach,” Knowledge-Based Systems (vol. 136) https://openreview.net/pdf/f7446505b9e5d154eef861638607e09b6b60be5d.pdf

Textual keyword extraction

Fri, 06 Nov 2020 13:00:00 +0000

Le premier groupe de lecture aura pour thème “Keyphrase Extraction” Nasar, Z., Jaffry, S. W., & Malik, M. K. (2019). Textual keyword extraction and summarization: State-of-the-art. Information Processing & Management https://doi.org/10.1016/j.ipm.2019.102088 Présenté par Faneva Ramiandrisoa, Doctorant, IRIT Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using Multiple Local Features. In Information Sciences Journal. https://doi.org/10.1016/j.ins.2019.09.013 Présenté par Md Zia Ullah, Post doctorant, IRIT

Groupe de lecture ARIA

Fri, 06 Nov 2020 00:00:00 +0000

L’ARIA (https://www.asso-aria.org/) et le groupe de travail “Accès à l’information et fouille de textes” du GDR TAL (https://gdr-tal.ls2n.fr) ont mis en place un groupe de lecture qui aura pour but, une fois tous les quinze jours (en alternance avec les autres groupes de lecture du GDR TAL, pendant 1h maximum), de présenter quelques articles actuels et de discuter autour de ceux-ci. Ce groupe de lecture se réunira par visio-conférence (Zoom) et sera l’occasion d’un moment convivial où nous pourrons parler de thématiques de recherche qui nous intéressent.

Meilleurs papiers CORIA

Mon, 10 Feb 2020 00:00:00 +0000

2019 Lydie du Bousquet, Philippe Mulhem, Sara Lakah. “Quelques pas vers l’Honnêteté et l’Explicabilité de moteurs de recherche sur le Web.” 2018 Charles-Emmanuel Dias, Clara Gainon de Forsan de Gabriac, Vincent Guigue, Patrick Gallinari."RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés." 2017 Simon Bourigault, Sylvain Lamprier, Patrick Gallinari, “Apprentissage de représentation pour la détection de source dans les réseaux sociaux.” 2016 Vincent Claveau, "Dimensionalité intrinsèque dans les espaces de représentation des termes et des documents.

Appel à participation, Journée commune AFIA-ARIA

Tue, 08 Oct 2019 00:00:00 +0000

Journée commune de l’AFIA (Association Française pour l’Intelligence Artificielle) et de l’ARIA (Association francophone de Recherche d’Information et Applications) 2 décembre 2019, Sorbonne université, 75015 Paris https://ia-ri.sciencesconf.org/ THÈME\ Cette journée constitue la 3ème rencontre entre chercheurs en Intelligence Artificielle (IA) et en Recherche d’Information (RI). La première visait à mettre en évidence les problématiques communes et les approches proposées venant de l’une ou l’autre communauté, la seconde s’était focalisée sur l’extraction d’information pour le peuplement de bases de connaissances et l’annotation sémantique de documents.

Journée commune AFIA - ARIA, 2 décembre 2019 à Paris- Appel à soumissions

Mon, 07 Oct 2019 00:00:00 +0000

Journée commune de l’AFIA (Association Française pour l’Intelligence Artificielle) et de l’ARIA (Association francophone de Recherche d’Information et Applications) 2 décembre 2019, Sorbonne université, 75015 Paris https://ia-ri.sciencesconf.org/ THÈME ———————————————————————– Cette journée constitue la 3ème rencontre entre chercheurs en Intelligence Artificielle (IA) et en Recherche d’Information (RI). La première visait à mettre en évidence les problématiques communes et les approches proposées venant de l’une ou l’autre communauté, la seconde s’était focalisée sur l’extraction d’information pour le peuplement de bases de connaissances et l’annotation sémantique de documents.

EARIA 2019: Ecole d'Automne en Recherche d'Information et Applications.

Fri, 22 Feb 2019 00:00:00 +0000

Thème : Recherche d’information et Apprentissage automatique 25-26 Mars 2019, Lyon, France https://coria-earia2019.projet.liris.cnrs.fr/EARIA/ =============== L’école offre un cadre d’échange convivial tant autour des fondements théoriques de l’apprentissage automatique et de leur utilisation en recherche d’information et applications. Ces sujets sont abordés par des chercheurs et des industriels faisant autorité dans le domaine. Les participants auront également l’occasion de mettre en pratique les connaissances théoriques aux travers de : 1) séance de travaux pratiques sur l’utilisation d’environnement dédiés à l’apprentissage profond ; 2) le Hackathon qui est un projet fédérateur de mise en situation dans un domaine applicatif en lien avec la recherche d’information et l’apprentissage automatique.

Appel à communications/ call for papers CORIA 2019

Thu, 08 Nov 2018 00:00:00 +0000

::: {style=“color: #000000; font-family: Helvetica; font-size: 12px; line-height: 1.2; margin-top: 0pt; margin-bottom: 0pt; text-align: justify;”} [La 16è édition de CORIA (COnférence en Recherche d’Information et Applications) sera organisée à Lyon du 27 au 29 mars 2019, conjointement aux ]{style=“font-size: 12pt; font-family: Garamond; vertical-align: baseline; white-space: pre-wrap;”}[rencontres jeunes chercheurs en RI (RJCRI) et à l’école EARIA. Elle est la principale manifestation soutenue par l’Association Francophone de Recherche d’Information et Applications ARIA (http://www.

CLEF 2018 - Masterclass

Wed, 29 Aug 2018 00:00:00 +0000

[MasterClass:]{style=“color: #000000; font-family: Helvetica; font-size: 12px; text-decoration: underline;”} [Dans ce cadre une “ARIA’s Master Class” est organisée le vendredi 14 septembre. L’inscription est gratuite pour les adhérents de l’ARIA (c’est-à-dire à jour de leur cotisation 2018). ]{style=“color: #000000; font-family: Helvetica; font-size: 12px;”} [Si vous n’êtes pas encore adhérent(e) au titre de l’année 2018 RDV rapidement ici : ]{style=“color: #000000; font-family: Helvetica; font-size: 12px;”}http://www.asso-aria.org/images/FichiersAssociation/Adhesion2018.pdf{.moz-txt-link-freetext} [Si vous souhaitez vous assurer ou vérifier que vous êtes bien adhérent (soit à titre individuel, soit à titre moral) vous pouvez contacter directement : Vincent Claveau (]{style=“color: #000000; font-family: Helvetica; font-size: 12px;”}vincent.

Appel à participations - Hackathon CORIA-TALN 2018 : Fake ou pas Fake ?

Fri, 06 Apr 2018 00:00:00 +0000

::: {style=“color: #000000; font-family: Helvetica; font-size: 12px;”} [Fake ou pas Fake ?]{style=“color: #000000; font-family: Helvetica; font-size: 12px; background-color: rgba(255, 255, 255, 0);”} ::: [Hackathon CORIA-TALN 2018 (hackathon en recherche d’information et traitement automatique des langues) TL;DR Tâches : détection et visualisation de fausses informations sur les réseaux Site web : http://hackatal.github.io/2018 Dates : 14 et 15 mai 2018 Lieu : IRISA, Rennes Inscription (gratuite mais obligatoire) : https://goo.gl/forms/soTeFTikjWol8bj13 ! Description

Bourses Etudiants ARIA pour participation à CORIA 2018 (DL 2 mai 2018)

Fri, 06 Apr 2018 00:00:00 +0000

[L’association ARIA (http://www.asso-aria.org{.moz-txt-link-freetext}) propose des bourses a ses adhérents pour participer à la conférence CORIA 2018 qui se déroule à Rennes du 16 au 18 mai (ateliers le 14 et 15 mai) conjointement avec la conférence sur le Traitement Automatique des Langues Naturelles (TALN) >> cf.http://coria-taln-2018.irisa.fr{.moz-txt-link-freetext}.]{style=“background-color: rgba(255, 255, 255, 0);”} [L’objectif prioritaire est de permettre à des étudiants, post-docs ou jeunes docteurs qui ont un intérêt pour les travaux en Recherche d’Information d’assister à la conférence CORIA/TALN.

Appel à communications CORIA 2018

Mon, 13 Nov 2017 00:00:00 +0000

Appel à communications/ call for papers CORIA 2018 ++++++++++++++++++++++++++++++++++++++++++++++++++ Dates importantes : ----------------------------- 26 janvier 2018: Intention de soumettre 2 février 2018: Date limite de soumission 16 mars 2018: Réponses aux auteurs 14-16 mai 2018: Conférence Pour la première fois, l'ARIA (Association francophone de Recherche d'Information et Applications) et l'ATALA (Association pour le Traitement Automatique des Langues) organisent conjointement leur principale conférence afin de réunir en un seul lieu les deux communautés de la recherche d'information et du traitement automatique des langues.

Journée commune AFIA - ARIA, 12 décembre 2017

Mon, 21 Aug 2017 00:00:00 +0000

[Intelligence artificielle et Recherche d’Information]{.s1} [https://ia-ri.sciencesconf.org/]{.s2} Paris, 12 décembre 2017 [ Journée commune AFIA - ARIA]{.s1} [ Association Française pour l’Intelligence Artificielle]{.s1} [ Association francophone de Recherche d’Information et Applications]{.s1} [ Maison des Sciences de l’Homme Paris Nord (à confirmer)]{.s1} []{.s1} [THÈME]{.s1} [Cette journée constitue la 2ème rencontre entre chercheurs en Intelligence Artificielle (IA) et en Recherche d’Information (RI). La première visait à mettre en évidence les problématiques communes et les approches proposées venant de l’une ou l’autre communauté.

Journée commune AFIA - ARIA, 12 décembre 2017

Mon, 21 Aug 2017 00:00:00 +0000

[Intelligence artificielle et Recherche d’Information]{.s1} [https://ia-ri.sciencesconf.org/]{.s2} Paris, 12 décembre 2017 [ Journée commune AFIA - ARIA]{.s1} [ Association Française pour l’Intelligence Artificielle]{.s1} [ Association francophone de Recherche d’Information et Applications]{.s1} [ Maison des Sciences de l’Homme Paris Nord]{.s1} []{.s1} [THÈME]{.s1} [Cette journée constitue la 2ème rencontre entre chercheurs en Intelligence Artificielle (IA) et en Recherche d’Information (RI). La première visait à mettre en évidence les problématiques communes et les approches proposées venant de l’une ou l’autre communauté.

Ateliers RISE

Tue, 18 Jul 2017 00:00:00 +0000

L’ARIA soutient depuis 2012 les ateliers RISE (Recherche d’Information SEmantique). Ces ateliers annuels ont pour but de proposer des lieux de rencontre entre des chercheurs issus de différentes communautés comme la Recherche d’Information, le Web Sémantique, le TALN, le Multimedia, l’Ingénierie des Connaissances. Liens vers les actes des ateliers: RISE documents

Concours de vidéos : #ScienceInfoStream organisé par la SIF

Tue, 18 Jul 2017 00:00:00 +0000

[La [Société informatique de France]{.s2} vous invite à participer à la première édition de son :]{.s1} [Concours de vidéos : #ScienceInfoStream “L’informatique en stream”]{.s1 style=“font-size: 14pt;”} [Vous êtes passionné(e)s de science informatique ? Vous aimez les défis ? Vous vous sentez l’âme d’un vidéaste ? N’attendez plus ! Prenez votre smartphone, webcam, ou caméra : vous avez moins de 2]{.s1}[^8^]{.s3}[ secondes pour partager ces pépites de science qui vous fascinent.]{.s1}

9ème Atelier Recherche d'Information SEmantique. Caen, juillet 2017

Thu, 01 Jun 2017 00:00:00 +0000

{#section style=“font-family: ‘Trebuchet MS’, arial, sans-serif; color: #b0dae9; background: url(‘h2-bg.gif’) left center no-repeat;”} L’atelier RISE en est à sa neuvième édition. Cette année il sera associé à la Conférence [[IC 2017 de la Plateforme Francophone d’Intelligence Artificielle]{style=“color: #000000;”} ]{style=“color: #000000;”}, après avoir été organisé conjointement avec les conférences CORIA 2016 de la Semaine du Document Numérique, IC 2015 (PFIA 2015), CORIA 2014 (SDNRI 2014), IC 2013 ,EGC 2012, CORIA 2011, INFORSID 2010 et 2009.

Création de la revue OpenScien RIDOWS

Thu, 01 Jun 2017 00:00:00 +0000

[http://ridows.irisa.fr]{.s1} [Nous avons le plaisir de vous annoncer la création de la revue RIDoWS / ]{.s2}[Recherche d’Information, Document, Web sémantique / dans la collection ]{.s2}[OpenScience d’ISTE éditions [https://www.openscience.fr/]{.s3}]{.s2} [À l’ère des données massives, l’accès à l’information est devenu une ]{.s2}[problématique de recherche centrale. La multiplicité des formes de ]{.s2}[documents (multimédia, multilingue, structuré ou non) et des usages ]{.s2}[favorisent de plus en plus un brassage entre différentes communautés ]{.s2}[afin d’analyser les documents dans leur complexité.

Appel à candidatures : Bourses FRANCE L’Oréal-UNESCO Pour les Femmes et la Science 2017

Thu, 12 Jan 2017 00:00:00 +0000

[La Fondation L’Oréal, en partenariat avec l’UNESCO et l’Académie des Sciences, est heureuse de vous annoncer l’ouverture de l’appel à candidatures de l’édition 2017 des Bourses FRANCE L’Oréal-UNESCO Pour les Femmes et la Science.]{.s1} [Créé en 2007, ce programme a pour objet de révéler et récompenser de jeunes chercheuses talentueuses. Au total, 170 jeunes femmes ont bénéficié d’une Bourse FRANCE L’Oréal-UNESCO Pour les Femmes et la Science. ]{.s1} [En 2017, la Fondation L’Oréal remettra 30 Bourses : ]{.

EARIA Days

Tue, 08 Nov 2016 00:00:00 +0000

Dans la lignée des CORIA-CIFED hackdays 2014 et 2016, un projet destiné à fédérer les étudiants a été mené durant deux jours. Des équipes inter-laboratoires ont été formées et se sont penchées sur la problématique de la RI interactive. L’idée était de proposer un prototype original de RI interactive, basé sur le moteur de recherche Indri. L’évaluation des moteurs a été faite dans le cadre d’une campagne d’évaluation traditionnelle (TREC) et via une évaluation utilisateur.

GdR MaDICS - Appel à Actions

Thu, 21 Jul 2016 00:00:00 +0000

[L’objectif du GDR ]{.s2}[MaDICS est de promouvoir et animer des activités de recherche interdisciplinaires positionnées dans un continuum «des données aux connaissances et à la prise de décision» dont le point de départ sont les masses de données en Sciences. MaDICS est également un forum d’échanges entre scientifiques et acteurs économiques confrontés aux problèmes du “big data” et des Sciences des données, un instrument de prospective et un lieu d’accompagnement des jeunes chercheurs dans les domaines concernés.

Comités

Fri, 08 Jul 2016 00:00:00 +0000

Pour la mise en place de l’école EARIA, deux comités sont formés. Le comité d’organisation Ce comité prend en charge les aspects pratiques de l’école d’automne, liés à l’organisation de l’école, et la venue des intervenants. Il est composé des personnes suivantes : Léa Laporte (Présidente du comité), LIRIS-INSA Lyon, équipe DRIM Sylvie Calabretto, LIRIS-INSA Lyon, équipe DRIM Michel Beigbeder, EMSE Saint étienne Diana Nurbakova, LIRIS-INSA Lyon, équipe DRIM Le comité scientifique Le comité scientifique a en charge la définition du programme de l’école, le choix et l’interaction avec les intervenants choisis.

Conférenciers

Fri, 08 Jul 2016 00:00:00 +0000

{#section style=“font-size: 1.4em; font-family: ‘Titillium Maps’, Arial; margin: 0px -5px 10px; padding: 5px; line-height: 1.19em; color: #0d4c89; border-bottom-style: solid; border-bottom-width: 1px; border-bottom-color: #dddddd;”} Mohand Boughanem, IRIT, Université Paul Sabatier de Toulouse Mohand Boughanem est professeur à l’Université Paul Sabatier de Toulouse depuis 2002. Il est membre de l’équipe “Information Retrieval and Information Synthesis” (IRIS) de l’Institut de Recherche en Informatique de Toulouse. éric Gaussier, LIG, Université de Grenoble Eric Gaussier a fait sa thèse au Centre Scientifique d’IBM France et à l’Université Paris 7 sur les modèles probabilistes pour l’extraction de lexiques bilingues.

Doctoriales

Fri, 08 Jul 2016 00:00:00 +0000

Présentation Nous offrons à tous les doctorants et jeunes docteurs la possibilité de communiquer sur leurs travaux de recherche durant les doctoriales de l’école. Il s’agit pour eux de présenter leurs travaux en cours, leurs premiers résultats ou leurs perspectives de recherche. L’idée est de permettre des échanges sur les problèmes/approches/solutions liés aux travaux présentés, sous une forme de brainstorming. Organisation [Les échanges auront lieu lors d’une session spéciale “Doctoriales” le lundi 7 novembre au soir, après le dîner.

Informations pratiques

Fri, 08 Jul 2016 00:00:00 +0000

EARIA se déroulera du lundi 7 novembre au mercredi 9 novembre au CISL Ethic Etapes de Lyon. Sur place Le linge de toilette n’est pas fourni : pensez à apporter vos serviettes de toilette. []{style=“font-size: 14px;”} Venir au CISL Le CISL est très facilement accessible en transports en commun. Il est desservi par la ligne de tram T4, dont l’arrêt « Professeur Beauvisage - CISL » se situe directement au pied du bâtiment, ainsi que par trois lignes de bus (C16, C22 et C25).

Inscription

Fri, 08 Jul 2016 00:00:00 +0000

Les frais d’inscriptions couvrent : L’hébergement (2 nuits : du lundi 7 au mardi 8 novembre 2016, et du mardi 8 au mercredi 9 novembre 2016). Attention : le linge de toilette n’est pas fourni, vous devez donc venir avec votre serviette de toilette. Les repas (petits déjeuners des 8 et 9 novembre 2016, déjeuners des 7 et 8 novembre 2016, dîners des 7 et 8 octobre 2016) Les pauses matin et après-midi

Programme

Fri, 08 Jul 2016 00:00:00 +0000

Programme prévisionnel, susceptible de modifications Lundi 7 novembre après midi Accueil et déjeuner 13h30 - 15h15 Session 1 - Introduction à la Recherche d’Information par Mohand Boughanem (IRIT) - Partie 1 - Partie 2 15h45 - 17h30 Session 2 - Modèles de Recherche d’Information par éric Gaussier (LIG) 17h30 - 18h Projet EARIA (I) - Présentation et lancement par Karen Pinel-Sauvagnat (IRIT) et Benjamin Piwowarski (LIP6) Lundi 7 novembre soirée 20h - 22h Session 3 - Doctoriales et échanges informels Mardi 8 novembre matin 8h30 - 10h15 Session 4 - Word Embeddings, Connaissances et Réseaux de Neurones par Benjamin Piwowarski (LIP6) 10h45- 12h30 Session 5 - Traitement Automatique de la Langue et Extraction d’Information par Anne-Laure Ligozat (LIMSI) Mardi 8 novembre après-midi 13h30 - 15h Session 6 - Recherche d’Information Contextuelle et Sociale par Lynda Tamine-Lechani (IRIT) 15h30 - 18h30 Projet EARIA (II) - Conception et Développement - Karen Pinel-Sauvagnat, Benjamin Piwowarski et les autres intervenants Mardi 8 novembre soirée 20h - 22h Projet EARIA (III) - Finalisation des projets, préparation des présentations - Karen Pinel-Sauvagnat, Benjamin Piwowarski et les autres intervenants Mercredi 9 novembre matin 8h30 - 9h15 Projet EARIA (IV) - Présentation des projets 9h15 - 10h15 Session 7 - Benjamin Habegger - Société Boot-Start 10h45 - 12h30 Session 8 - Recherche d’Information multimédia par Georges Quénot (LIG)

Comités

Mon, 15 Feb 2016 00:00:00 +0000

Comité scientifique : Présidente : Brigitte Grau, LIMSI-CNRS et ENSIIE Michel Beigbeder, école des Mines de Saint-étienne Mohand Boughanem, IRIT, Université de Toulouse Sylvie Calabretto, LIRIS, INSA de Lyon éric Gaussier, LIG, Université de Grenoble Comité d’organisation : Président : Michel Beigbeder, école des Mines de Saint-étienne Mathias Géry, LaHC, Université de Saint-étienne Philippe Jaillon, école des Mines de Saint-étienne Christine Largeron, LaHC, Université de Saint-étienne Mihaela Mathieu, école des Mines de Saint-étienne

Conférenciers

Mon, 15 Feb 2016 00:00:00 +0000

Jacques Savoy, Université de Neuchâtel Professeur Jacques Savoy est professeur ordinaire en informatique à la Faculté des sciences de l’Université de Neuchâtel (Suisse). J. Savoy a obtenu son doctorat en économétrie et informatique à l’Université de Fribourg (Suisse), en 1987, sur un thème touchant le livre électronique. Après une année d’études post-doctorales au Département d’informatique et de Recherche Opérationnelle (DIRO) de l’Université de Montréal, il a été professeur-adjoint dans cette institution jusqu’en 1993.

Doctoriales

Mon, 15 Feb 2016 00:00:00 +0000

L’édition 2012 de l’Ecole d’Automne en Recherche d’Information et Applications (EARIA) offre aux doctorants et aux jeunes docteurs la possibilité de communiquer sur leurs travaux de recherche durant les doctoriales de l’école. Il s’agit pour eux de présenter (sous la forme d’un poster) leurs travaux en cours, leurs premiers résultats ou leurs perspectives de recherche liés aux thématiques de l’école d’automne à savoir : Théorie et modèles formels pour la RI : modèle logique, modèles de langages.

Informations pratiques

Mon, 15 Feb 2016 00:00:00 +0000

L’école d’Automne aura lieu du 24 octobre au 26 octobre 2012 au Couvent de la Tourette à éveux, à une trentaine de minutes au Nord Ouest de Lyon. Accès par la route : Autoroute A6, sortie Limonest, puis direction Roanne jusqu’à L’Arbresle, puis direction Eveux. Coordonnées GPS : 45.821799 x 4.622729. Accès par le train : la gare SNCF la plus proche est à L’Arbresle (2 km soit 30 minutes à pied ou taxi +33 (0)4 74 26 90 19).

Inscription

Mon, 15 Feb 2016 00:00:00 +0000

Vous pouvez télécharger la fiche d’inscription ici. Formulaire à imprimer, compléter et retourner avant le 15 octobre 2012, par la poste, accompagné du règlement ou de la preuve du règlement (virement, bon de commande, etc.) à : Adresse : ASSOCIATION ARIA Vincent Claveau IRISA Campus de Beaulieu 35042 RENNES CEDEX Le tarif des inscriptions est fixé à : AVANT le 21/09/2012 APRÈS le 21/09/2012 Doctorants 250 euros 300 euros Autres 350 euros 400 euros

Comités

Fri, 12 Feb 2016 00:00:00 +0000

Pour la mise en place de l’école EARIA, deux comités sont formés. Le comité d’organisation Ce comité prend en charge les aspects pratiques de l’école d’automne, liés à l’organisation de l’école, et la venue des intervenants. Ce comité est composé d’une partie des membres de l’équipe Modèle & Recherche d’Information Multimédia du laboratoire LIG, à savoir : [Georges Quénot, LIG-CNRS]{style=“margin: 0px; padding: 0px; line-height: 1.3em;”} [Catherine Berrut, LIG-UJF]{style=“margin: 0px; padding: 0px; line-height: 1.

Conférenciers

Fri, 12 Feb 2016 00:00:00 +0000

Les conférenciers qui participeront à EARIA 2014 sont les personnalités reconnues dans le domaine de la recherche d’information au niveau national et international. Voici leur liste par ordre alphabétique : {.img-rounded l-beigbeder style=“margin: 0px 0p x width=“100”} 10px; padding: 3px 0px; font-si ze: 1.6em; color: #555555; font-f amily: ‘Titillium Maps’, Arial;”} —————- Michel Beigbeder est enseignant-chercheur en informatique à l’école Nationale Supérieure des Mines de Saint-Etienne depuis 1987. Après des travaux en analyse et synthèse d’images puis en parallélisme, il s’intéresse depuis 1995 au domaine de la recherche d’information, en particulier sur le Web.

Doctoriales

Fri, 12 Feb 2016 00:00:00 +0000

Présentation Nous proposons à tous les participants de faire une présentation en 5 minutes environ de leur travail. L’idée est que nous puissions échanger sur les approches/problèmes/solutions liées aux travaux présentés, sous une forme de brainstorming. Ces travaux ne doivent pas nécessairement être finalisés, car c’est la discussion ouverte qui sera privilégiée. Thibaut Thonet (IRIT, Toulouse), “Recherche d’information agrégative” Thomas Palmer (IRIT, Toulouse), “Recherche d’information en contexte dans les flux de données”

Informations pratiques

Fri, 12 Feb 2016 00:00:00 +0000

[Dates :]{style=“margin: 0px; padding: 0px; line-height: 1.3em;”} 15-17 Octobre 2014 [Localisation :]{style=“margin: 0px; padding: 0px; line-height: 1.3em;”} Notre Dame Parménie, Beaucroissant 38610 Izeaux [Cordonnées GPS :]{style=“margin: 0px; padding: 0px; line-height: 1.3em;”} 45°19'24.1" N 5°28'02.5"E 45.323359 5.467363 Accès par le train : gare de Tullins. merci d’avance d’indiquer par mail à Philippe.Mulhem@imag.fr votre horaire d’arrivée pour qu’une navette vous emmène au site de l’école. Informations horaires : Valence TGV vers Tullins-Fures le 15/10 8h26 ⇒ 9h09 9h26 ⇒ 10h09 10h26 ⇒ 11h09 Tullins-Fures vers Valence TGV le 17/10 13h49 ⇒ 14h35 14h50 ⇒ 15h34 15h50 ⇒ 16h36 Valence ville vers Tullins-Fures le 15/10 8h15 ⇒ 9h09 9h15 ⇒ 10h09 10h15 ⇒ 11h09 Tullins-Fures vers Valence ville le 17/10 13h49 ⇒ 14h44 14h50 ⇒ 15h44 15h50 ⇒ 16h46 Grenoble vers Tullins-Fures le 15/10 8h30 ⇒ 8h49 9h12 ⇒ 9h34 9h20 ⇒ 9h49 12h12 ⇒ 12h34 Tullins-Fures vers Grenoble le 17/10 13h24 ⇒ 13h47 14h11 ⇒ 14h30 14h24 ⇒ 14h47 15h11 ⇒ 15h30 16h11 ⇒ 16h30 Le site de Parménie étant un peu en altitude (800m), il risque de faire un peu frais à l’extérieur à la mi-octobre : ne pas oublier des vêtement adaptés.

Inscription

Fri, 12 Feb 2016 00:00:00 +0000

Les frais d’inscriptions couvrent : L’hébergement (2 nuits : du mercredi 15 au jeudi 16 octobre 2014, et du jeudi 16 au vendredi 17 octobre 2014).Attention : le linge de toilette n’est pas fourni, vous devez donc venir avec votre serviette de toilette. Les repas (petits déjeuners des 16 et 17 octobre 2014, déjeuners des 15/16/17 octobre 2014, dîners des 15 et 16 octobre 2014) Les pauses matin et après-midi

Bourses ARIA - Congrès SIF 2016

Thu, 11 Feb 2016 00:00:00 +0000

Afin de favoriser la participation de jeunes chercheur(se)s et jeunes docteur(e)s au Congrès SIF 2016, la SIF, via l’ARIA, propose aux doctorants ou jeunes docteur (post-doc ou jeune MCF) du domaine

CORIA 2015 - 18-20 mars 2015

Thu, 11 Feb 2016 00:00:00 +0000

CORIA 2015 est la douzième édition de la COnférence en Recherche d’Information et Applications. Elle aura lieu à Paris.

Journée commune IA et RI, 1er décembre 2015

Thu, 11 Feb 2016 00:00:00 +0000

Intelligence artificielle et Recherche d’Information []{.s2 style=“margin: 0px; padding: 0px;”}[Journée commune AFIA - ARIA]{style=“margin: 0px; padding: 0px; font-size: 12.16px; line-height: 1.3em;”} [Association française pour l’intelligence artificielle]{style=“margin: 0px; padding: 0px; font-size: 12.16px; line-height: 1.3em;”} [Association pour la recherche d’information et ses applications]{.s2 style=“margin: 0px; padding: 0px;”} []{.s2 style=“margin: 0px; padding: 0px;”} [Paris, 1er décembre 2015 de 9h à 18h]{.s2 style=“margin: 0px; padding: 0px;”} [Délégation CNRS d’Ivry ]{.s2 style=“margin: 0px; padding: 0px;”}

Appel à Ateliers - Assemblée générale constitutive du GdR MaDICS

Thu, 11 Feb 2016 00:00:00 +0000

L’objectif du GdR MaDICS – Masses de Données, Informations et Connaissances en Sciences (Big Data, Data Science) — est de promouvoir et d’animer des activités de recherche interdisciplinaires qui s’articulent autour des problèmes générés par les masses de données en sciences et qui s’inscrivent dans un continuum «des données aux connaissances et à la prise de décision». De telles activités pourront porter sur l’acquisition et la collecte des masses de données, leur organisation, leurstockage et préservation, l’extraction de connaissances, l’accès efficace aux données et la recherche d’information, l’analyse statistique, la fouille de données, l’interprétation et la visualisation des masses de données pour la prise de décision et l’extraction de valeur.

Appel à candidature pour l'organisation de l’édition conjointe de CORIA/TALN 2018

Thu, 11 Feb 2016 00:00:00 +0000

La recherche d’informations (RI) et le traitement automatique des langues (TAL) ont de nombreuses problématiques communes que les associations ARIA et ATALA souhaitent faire converger à travers l’organisation d’une édition conjointe des conférences CORIA et TALN en 2018. Pour faire acte de candidature à l’organisation de cette édition conjointe de CORIA/TALN 2018, un modèle de dossier à compléter est disponible à l’adresse suivante : [http://www.atala.org/-Candidater-a-l-organisation-de,103]{.s2 style=“margin: 0px; padding: 0px;”} -&nbsp

Appel à démonstrations à CIFED-CORIA 2016, 9-11 mars Toulouse

Thu, 11 Feb 2016 00:00:00 +0000

[Une session démonstrations est organisée dans le cadre de la conférence CIFED-CORIA. Les propositions de démonstrations de logiciels ou prototypes doivent être envoyées à [sylvie.calabretto@insa-lyon.fr]{.s3} et [Bertrand.Couasnon@irisa.fr]{.s3} (2 pages maximum au format de la conférence : [https://www.irit.fr/sdnri2016/]{.s3}). Les démonstrations devront relever des thématiques de CIFED-CORIA.]{.s1} []{.s1} [Les personnes souhaitant présenter une démonstration devront être inscrites à la conférence CIFED-CORIA.]{.s1} []{.s1} [Dates importantes : ]{.s1} Soumission des propositions : jeudi 18 février 2016 Notification : lundi 21 février 2016 Session démonstrations : 9 mars 2016 []{.

Bourses ARIA étudiants - CLEF 2015

Thu, 11 Feb 2016 00:00:00 +0000

8 au 11 septembre 2015 – Toulouse - France http://clef2015.clef-initiative.eu Pour promouvoir les thématiques de Recherche d’Information, l’ARIA propose aux doctorants du domaine, trois bourses pour pouvoir assister à la conférence CLEF 2015 qui se déroulera à Toulouse en septembre 2015 (http://clef2015.clef-initiative.eu). ::: {style=“margin: 0px; padding: 1pt 4pt; border: 1pt solid windowtext;”} * Conditions d’admission : ::: Etre doctorant inscrit en thèse dans un laboratoire français/francophone. Avoir soumis un article à CLEF Ne pas avoir une bourse pour CLEF 2015 provenant d’un autre organisme ::: {style=“margin: 0px; padding: 1pt 4pt; border: 1pt solid windowtext;”} * Pour postuler à une bourse chaque étudiant doit fournir un document PDF regroupant les informations suivantes : :::

Bourses ARIA étudiants - ESSIR 2015

Thu, 11 Feb 2016 00:00:00 +0000

[31 août - 5 septembre 2015 – Thessalonique - Grèce]{.s1 style=“margin: 0px; padding: 0px;”} [http://mklab.iti.gr/essir2015/]{.s2 style=“margin: 0px; padding: 0px;”} []{.s1 style=“margin: 0px; padding: 0px;”} [Pour promouvoir les thématiques de Recherche d’Information, l’ARIA propose aux doctorants du domaine, deux bourses pour pouvoir assister à l’école d’été ESSIR 2015 qui se déroulera à Thessalonique, Grèce, du 31 août au 5 septembre 2015 ([http://mklab.iti.gr/essir2015/]{.s3 style=“margin: 0px; padding: 0px;”} ).]{.s1 style=“margin: 0px; padding: 0px;”}

CORIA 2013 - 3/5 avril 2013

Thu, 11 Feb 2016 00:00:00 +0000

CORIA 2013 est la dixième édition de la COnférence en Recherche d’Information et Applications. Elle aura lieu à Neuchâtel (Suisse). Le programme prévoit deux conférences invitées, l’une de Jamie Callan (CMU), la seconde de Donna Harman (NIST).

CORIA-CIFED 2014 - 19/21 mars 2014

Thu, 11 Feb 2016 00:00:00 +0000

[[Après le succès des éditions communes en 2010 à Sousse et en 2012 à Bordeaux de leurs conférences respectives l’ARIA (Association francophone de Recherche d’Information et Applications) et le GRCE (Groupement de Recherche en Communication Ecrite) ont décidé d’organiser simultanément les conférences CORIA et CIFED en mars 2014 à Nancy.]{style=“margin: 0px; padding: 0px; line-height: normal;”}]{style=“margin: 0px; padding: 0px; color: #363636; font-family: Arial, Helvetica, sans-serif;”}

EARIA 2012 - 24/26 octobre 2012

Thu, 11 Feb 2016 00:00:00 +0000

EARIA (école d’Automne en Recherche d’Information et Application) a pour objectif principal la formation des doctorants dans le domaine de la Recherche d’Information (RI). La dernière édition de l’école d’Automne a eu lieu du 24 au 26 octobre 2012 à une trentaine de minutes de Lyon. La prochaine se tiendra près de Grenoble en octobre 2014

EARIA 2014

Thu, 11 Feb 2016 00:00:00 +0000

EARIA (École d’Automne en Recherche d’Information et Application) a pour objectif principal la formation des doctorants dans le domaine de la Recherche d’Information (RI). La prochaine se tiendra près de Grenoble en octobre 2014.

Liens importants

Thu, 11 Feb 2016 00:00:00 +0000

Conférences internationales à venir Liste des conférences à venir triées par date limite de soumission. Journaux du domaine (international) Foundation and Trends in Information Retrieval IP&M,Information Processing & Management IJODL, International Journal on Digital Libraries IRJ, Information Retrieval Journal JDOC, Journal of Documentation JASIST, Journal of the American Society for Information Science and Technology KAIS, Knowledge and Information Systems KBS, Knowledge-Based Systems VLDB, International Journal on Very Large Data Bases TOIS, Transactions on Information Systems TOIT, Transactions on Internet Technology Ouvrages Ouvrages généraux Van Rijsbergen (1977) Information Retrieval, on-line version!

Programme

Thu, 11 Feb 2016 00:00:00 +0000

Mercredi 24 octobre 10h30 : accueil 11h00-12h15 : Session 1. Introduction au domaine (Mohand Boughanem, IRIT, Université Paul Sabatier de Toulouse) Déjeuner 14h00-15h30 : Session 2. Modèles de RI (éric Gaussier, LIG, Université de Grenoble) Pause 16h00-17h30 : Session 3. Logiciels pour la RI (Michel Beigbeder, école des Mines de Saint-étienne) 18h00-19h00 : Doctoriales 1. Dîner Jeudi 25 octobre 8h45-10h15 : Session 4. Evaluation et collection-tests en recherche d’information et catégorisation de textes (Jacques Savoy, Université de Neuchâtel) 10h45-12h15 : Session 5.

Programme

Thu, 11 Feb 2016 00:00:00 +0000

[Mercredi 15 octobre après-midi] 14h15 - 16h15 Introduction - Les bases communes partie 1 (PDF) par Mohand Boughanem (IRIT) Les aspects fondamentaux de la RI\ Panorama de la RI - applications, scénarios, industries \ 16h45 - 18h45 Introduction - Les bases communes partie 2 par Eric Gaussier (LIG) Apprentissage & RI (PDF)\ Indexation automatique (PDF) \ 20h15 - 22h Doctoriales et échanges informels. [Jeudi 16 octobre matin] 8h - 10h TAL et Extraction d’information (PDF), par Isabelle Tellier (LaTTiCe) introduction :

Séminaire des Doctorant(e)s en Informatique de la SIF

Thu, 11 Feb 2016 00:00:00 +0000

[Premier appel à contributions ]{.s1 style=“margin: 0px; padding: 0px;”} [{width=“300”}]{.s1 style=“margin: 0px; padding: 0px;”} [SDI 2016 ]{.s1 style=“margin: 0px; padding: 0px;”} []{.s1 style=“margin: 0px; padding: 0px;”} [S]{.s2 style=“margin: 0px; padding: 0px;”}[éminaire des ]{.s1 style=“margin: 0px; padding: 0px;”}[D]{.s2 style=“margin: 0px; padding: 0px;”}[octorant(e)s en ]{.s1 style=“margin: 0px; padding: 0px;”}[I]{.s2 style=“margin: 0px; padding: 0px;”}[nformatique de la SIF ]{.s1 style=“margin: 0px; padding: 0px;”} [Institut Henri Poincaré ]{.s1 style=“margin: 0px; padding: 0px;”}[]{.s3 style=“margin: 0px; padding: 0px;”}

Thèses et habilitations à diriger des recherches

Thu, 11 Feb 2016 00:00:00 +0000

Pour ajouter une thèse ou une habilitation à diriger des recherches à cette liste, merci de remplir le formulaire. 2016 Liana Ermakova. Short Text Contextualization in Information Retrieval: Application to Tweet Contextualization and Automatic Query Expansion. Thèse de doctorat, Université de Toulouse-le-Mirail, mars 2016. URL : ftp://ftp.irit.fr/IRIT/SIG/my_thesis.pdf 2015 Rafik Abbes. Filtrage et agrégation d’informations vitales relatives à des entités. Thèse de doctorat, Université Paul Sabatier, décembre 2015. URL : https://www.irit.fr/publis/SIG/2015_theseAbbes.pdf

Bureau de l'ARIA / Chargés de communication

Wed, 10 Feb 2016 00:00:00 +0000

Bureau actuel (2023 à 2027) Président : Sébastien Fournier (LIS, Marseille) Vice-président : Lorraine Goeuriot (LIG, Grenoble) Trésorier : Christophe Servan (Qwant/LISN, Orsay) Trésorier adjoint : José Moreno (IRIT, Marseile) Secrétaire : Benjamin Piwowarki (ISIR/CNRS, Paris) Chargée de communication / Webmaster : Adrian Chifu (LIS, Marseille) Animation : Laure Soulier (ISIR, Paris) Précédents bureaux 2019 à 2023 Président : Benjamin Piwowarki (CNRS/LIP6, Paris) Vice-président : Patrice Bellot ( LIS, Marseille) Trésorier : Sébastien Fournier (LIS, Marseille) Trésorier adjoint : Christophe Servan (Qwant) Secrétaire : Karen Pinel-Sauvagnat (IRIT, Toulouse) Chargée de communication / Webmaster : Georges Quénot (LIG, Grenoble) 2015 à 2019 Président : Max CHEVALIER Vice-présidente : Patrice BELLOT Trésorier : Vincent CLAVEAU Trésorier adjoint : Jean-Pierre CHEVALLET Secrétaire : Léa LAPORTE Chargé de communication : Karen PINEL-SAUVAGNAT Chargé des relations internationales : Éric GAUSSIER Chargée des relations avec les sociétés savantes : Florence SEDES 2011-2015 Présidente : Sylvie CALABRETTO Vice-président : Max CHEVALIER Trésorier : Vincent CLAVEAU - Trésorier adjoint : Jean Pierre CHEVALLET Secrétaire : Lynda TAMINE-LECHANI Chargé de la communication : Patrice BELLOT 2004-2007 Président : Mohand BOUGHANEM Vice-présidente : Catherine BERRUT Secrétaire : Sylvie CALABRETTO Trésorier : Michel BEIGBEDER Chargé de communication : Max CHEVALIER 2007-2011 Présidente : Catherine BERRUT Vice-présidente : Sylvie CALABRETTO Secrétaire : Lynda TAMINE-LECHANI Trésorier : Max CHEVALIER Trésorier adjoint : Michel BEIGBEDER Chargé de la communication : Philippe MULHEM

CORIA-CIFED 2012 - 21/23 mars 2012

Wed, 10 Feb 2016 00:00:00 +0000

Semaine du document numérique et de la recherche d’information 2012 –> Semaine du document numérique et de la recherche d’information 2012 Après une première édition commune en 2010 à Sousse, l’ARIA (Association francophone de Recherche d’Information et Applications) et le GRCE (Groupement de Recherche en Communication écrite) ont décidé d’organiser de nouveau simultanément les conférences [CORIA]{style=“color: #095197;”} et CIFED du 21 au 23 mars 2012, à Bordeaux.

EARIA 2012 - 24/26 octobre 2012

Wed, 10 Feb 2016 00:00:00 +0000

[EARIA (École d’Automne en Recherche d’Information et Application) a pour objectif principal la formation des doctorants dans le domaine de la Recherche d’Information (RI).]{style=“margin: 0px; padding: 0px; font-size: 13px; line-height: 21px;”} [La dernière édition de l’École d’Automne a eu lieu du 24 au 26 octobre 2012]{style=“margin: 0px; padding: 0px; font-size: 13px; line-height: 21px;”}[ à une trentaine de minutes de Lyon. La prochaine se tiendra près de Grenoble en octobre 2014.]{style=“margin: 0px; padding: 0px; font-size: 13px; line-height: 21px;”}

Journée thématique AFIA-ARIA, Ivry-syr-Seine, 1er décembre 2015

Wed, 10 Feb 2016 00:00:00 +0000

{#section style=“margin: 0px 0px 10px; padding: 3px 0px; font-size: 1.6em; color: #555555; font-family: ‘Titillium Maps’, Arial;”} Intelligence artificielle et Recherche d’Information Journée commune AFIA - ARIA Association française pour l’intelligence artificielle [Association pour la recherche d’information et ses applications]{.s2 style=“margin: 0px; padding: 0px;”} [Paris, 1er décembre 2015 de 9h à 18h]{.s2 style=“margin: 0px; padding: 0px;”} [Délégation CNRS d’Ivry]{.s2 style=“margin: 0px; padding: 0px;”} [27, rue Paul Bert - 94204 Ivry-sur-Seine]{.s2 style=“margin: 0px; padding: 0px;”}

Journée thématique GRCE-ARIA, Lyon, 2 avril 2015

Wed, 10 Feb 2016 00:00:00 +0000

Programme de la journée [ ]{.s1 style=“margin: 0px; padding: 0px;”} [—— Similarités et métriques visuelles ————–]{.s1 style=“margin: 0px; padding: 0px;”} [9h30- Matthieu Cord (Lips6 Paris)]{.s1 style=“margin: 0px; padding: 0px;”} [Does Scarlett smile more than her French lover ? Constraints and regularization in visual metric learning]{.s1 style=“margin: 0px; padding: 0px;”} [10h15 - Sovann En (LITIS Rouen)]{.s1 style=“margin: 0px; padding: 0px;”} [Segmentation-Free Pattern Spotting in Historical Document Images]{.s1 style=“margin: 0px; padding: 0px;”}

Mon, 01 Jan 0001 00:00:00 +0000

Publications CORIA

Ajouter une offre

Mon, 01 Jan 0001 00:00:00 +0000

Envoyer un courriel à webmaster@asso-aria.org en suivant le format suivant : --- title: TITRE contacts: - NOM 1 <email 1> - NOM 2 <email 2> when: dates where: lieu what: type de contrat (stage master, thèse, emploi) salary: salaire tags: - mots-clé date: date de publication (ex. 2020-05-01 pour le 1er mai 2020) expiryDate: date de fin de publication (ex. 2020-05-01 pour le 1er mai 2020) --- Résumé (format markdown) <!

COCoFil: une plateforme de filtrage collaboratif orientée vers la communauté.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Face à la quantité et la rapidité d’apparition de nouvelles informations au quotidien, l’utilisateur peut s’en remettre non seulement à des systèmes de filtrage d’information par le contenu mais aussi à des systèmes de filtrage collaboratif. Ainsi, il peut recevoir des recommandations grâce aux évaluations de la communauté des personnes partageant les mêmes centres d’intérêt. Cependant, l’utilisateur ne perçoit pas toujours favorablement le rapport coût-bénéfice que ce type de système apporte.

Comité d'orientation

Mon, 01 Jan 0001 00:00:00 +0000

Le comité d’orientation d’ARIA est composé des personnes suivantes : Patrice Bellot, LSIS, Aix-Marseille Université, Marseille Catherine Berrut, LIG, Université Grenoble-Alpes, Grenoble Romaric Besançon, CEA, LIST, Université Paris-Saclay, Palaiseau Mohand Boughanem, IRIT, Université Paul Sabatier, Toulouse Sylvie Calabretto, LIRIS, INSA, Lyon Max Chevalier, IRIT, Université Paul Sabatier, Toulouse Jean-Pierre Chevallet, LIG, Unversité Grenoble-Alpes, Grenoble Adrian Chifu, Aix-Marseille Université Vincent Claveau, IRISA, Rennes Sébastien Fournier, LSIS, Aix-Marseille Université, Marseille Patrick Gallinari, ISIR, Sorbonne Université, Paris Eric Gaussier, LIG, Unversité Grenoble-Alpes, Grenoble Mathias Géry, Laboratoire H.

Healthcare information retrieval: A survey of user needs, tasks and requirements.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Les connaissances médicales se développent si rapidement qu’il est difficile pour les professionnels de la santé de se tenir au courant. À mesure que le volume des études publiées augmente chaque année, l’écart entre les connaissances en recherche et les pratiques professionnelles augmente de plus en plus. Les professionnels de l’information en soins de santé jouent un rôle essentiel dans la réduction de cet écart en synthétisant les résultats de la recherche biomédicale sous la forme de revues systématiques de la littérature.

Indexation manuelle et automatique: une évaluation comparative basée sur un corpus en langue française.

Mon, 01 Jan 0001 00:00:00 +0000

Résumé Cette communication évalue et compare l’efficacité du dépistage de l’information utilisant une indexation automatique ou manuelle, cette dernière s’appuyant sur un vocabulaire contrôlé. Le corpus d’évaluation interrogé par dix modèle de dépistage de l’information comprend des notices bibliographiques écrites en français et couvrant diverses disciplines. Finalement, nous analysons la performance obtenue en combinant les deux formes d’indexation. Abstract None

Quelques pas vers l'Honnêteté et l'Explicabilité de moteurs de recherche sur le Web

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La transparence des algorithmes est un sujet de préoccupation pour les utilisateurs et les autorités. Parmi les différents aspects de cette notion de transparence, est-il possible d’étu- dier dans quelle mesure les moteurs de recherche sur le web sont honnêtes par rapport à leur politique de personnalisation déclarée, et dans quelle mesure est-il possible d’expliquer leur comportement, ne serait-ce que succinctement ? Cet article décrit un cadre expérimental pour étudier ces aspects, et des résultats obtenus sur l’étude du principal moteur de recherche sur le Web.

Représentations Gaussiennes pour le Filtrage Collaboratif

Mon, 01 Jan 0001 00:00:00 +0000

Résumé La plupart des systèmes de filtrage collaboratifs, comme par exemple la factorisation matricielle, utilisent des représentations vectorielles pour les articles et les utilisateurs. Ces représentations sont déterministes, et ne permettent pas de modéliser l’incertitude des représentations apprises, ce qui peut être utile quand un utilisateur a évalué un petit nombre d’articles (problème du démarrage à froid), ou quand le modèle est confronté à des informations contradictoires concernant le comportement d’un utilisateur ou les évaluations d’un utilisateur.