<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Association Francophone de Recherche d&#39;Information et Applications</title>
    <link>http://www.asso-aria.org/coria/2009/papers/</link>
    <description>Recent content on Association Francophone de Recherche d&#39;Information et Applications</description>
    <generator>Hugo</generator>
    <language>fr</language>
    <atom:link href="http://www.asso-aria.org/coria/2009/papers/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Utilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.5/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.5/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article présente FIDJI, un système de questions-réponses pour le français, com- binant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi que des techniques spécifiques permettant de répondre à différents types de questions (comme les questions attendant des réponses multiples (liste) ou une réponse booléenne).&lt;/p&gt;</description>
    </item>
    <item>
      <title>Evaluation de diverses stratégies de désambiguïsation lexicale.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.19/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.19/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans la campagne d&amp;rsquo;évaluation CLEF-2008, la tâche u robuste » fournissait un corpus enrichi en langue anglaise.  Pour chaque mot, le lemme, la partie du discours et le numéro Synsets de WordNetTM (numéro de classe d&amp;rsquo;un thésaurus) étaient fournis. Sur cette base, nous avons testé plusieurs approches afin de lever, en partie pour le moins, l&amp;rsquo;ambiguïté lexicale. Recourant au modèle vectoriel tf idf, ainsi qu&amp;rsquo;à trois approches probabilistes et un modèle de langue, cet article évalue leur performance en fonction de diverses techniques d&amp;rsquo;enracineur.  Un enracineur léger permet d&amp;rsquo;obtenir des performances similaires à des approches plus agressives ou à celle obtenue par une analyse morphologique. L&amp;rsquo;indication de la partie du discours permet d&amp;rsquo;améliorer significativement la qualité de la réponse tandis que les numéros de classes d&amp;rsquo;un thésaurus n&amp;rsquo;ont pas permis une amélioration.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.33/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.33/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Notre objectif est d&amp;rsquo;automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la re- cherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents spécialisés français et japonais, qui nécessite une analyse linguistique poussée. Une analyse contrastive des documents nous permet de déterminer quelles informa- tions paraissent discriminantes. En s&amp;rsquo;inspirant des travaux classiques de recherche d&amp;rsquo;informa- tion, nous créons une typologie robuste et linguistiquement motivée basée sur trois niveaux d&amp;rsquo;analyse : structurel, modal et lexical. Cette typologie nous permet d&amp;rsquo;apprendre des modèles de classification qui donnent de bons résultats, ce qui montre l&amp;rsquo;efficacité de cette typologie.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Une étude de l&#39;impact de la structure sur la recherche multimédia.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.51/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.51/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article s&amp;rsquo;inscrit dans le cadre de la recherche XML multimedia, dont l&amp;rsquo;objectif est de trouver des fragments multimedia pertinents (c&amp;rsquo;est à dire des fragments XML contenant au moins un autre media que le texte). Dans des travaux précédents, nous avons proposé un modèle pour la recherche de fragments multimedia appliqué au media &amp;lsquo;image&amp;rsquo;. Ce modèle consiste tout d&amp;rsquo;abord à trouver les images pertinentes et ensuite, à définir les fragments multimedia pertinents à partir de ces images. Dans cet article, nous nous intéressons plus particulièrement à la première partie du modèle où nous étudions l&amp;rsquo;impact de différents facteurs structurels pour la recherche d&amp;rsquo;images. Cette étude comparative est effectuée à travers une approche basée sur une analogie entre un document XML et une ontologie. Les facteurs sont évalués dans le cadre de la tâche Multimedia de campagne d&amp;rsquo;évaluation INEX 2007, et montrent l&amp;rsquo;intérêt de l&amp;rsquo;utilisation de la structure dans le processus de recherche multimedia.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche par le contenu dans des documents audiovisuels multilingues.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.67/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.67/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous présentons dans cet article une approche basée sur l&amp;rsquo;utilisation de l&amp;rsquo;Alpha- bet Phonétique International (API) pour l&amp;rsquo;indexation et la recherche par le contenu de docu- ments audiovisuels multilingues. L&amp;rsquo;approche fonctionne même si les documents contiennent des langues inconnues. Elle a été validée dans le cadre de la compétition u Star Challenge » sur les moteurs de recherche organisée par l&amp;rsquo;Agence A*STAR de Singapour. Notre approche comprend la construction d&amp;rsquo;un modèle acoustique multilingue basé sur l&amp;rsquo;API et une méthode fondée sur la programmation dynamique pour la recherche de segments de documents par u détection de chaînes API ». La programmation dynamique permet de repérer la chaîne de la requête dans la chaîne du document, même avec un taux d&amp;rsquo;erreur de transcription au niveau phonétique signifi- catif. Les méthodes que nous avons développées nous ont classés premiers et troisièmes sur les tâches de recherche monolingues (anglais), cinquièmes sur la tâche de recherche multilingue et premiers sur la tâche de recherche multimodale (audio et image).&lt;/p&gt;</description>
    </item>
    <item>
      <title>Utilisation de concepts visuels et de la diversité visuelle pour améliorer la recherche d&#39;images.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.83/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.83/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous étudions (i) comment extraire et exploiter des concepts visuels pour améliorer la recherche d&amp;rsquo;images basée sur le texte, et (ii) comment diversifier les résul- tats pertinents obtenus. Nous utilisons d&amp;rsquo;abord des forêts d&amp;rsquo;arbre de décisions flous (FFDTs) pour détecter les concepts dans les images, puis nous découvrons à l&amp;rsquo;aide de l&amp;rsquo;analyse des cooccurrences des relations d&amp;rsquo;exclusion mutuelle et d&amp;rsquo;implication entre les concepts. Ensuite, nous utilisons ces concepts pour améliorer la pertinence des résultats obtenus par un système de recherche d&amp;rsquo;images par le texte. Enfin, nous appliquons une méthode de diversité visuelle basée sur le partitionnement de l&amp;rsquo;espace visuel. Ce travail se place dans le cadre de la cam- pagne d&amp;rsquo;évaluation CLEF. Il montre une nette amélioration des résultats lorsque l&amp;rsquo;on utilise les concepts apparaissant explicitement dans la requête textuelle, ainsi que l&amp;rsquo;efficacité du clustering spatial.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Modèle de langue visuel pour la reconnaissance de scènes.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.99/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.99/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d&amp;rsquo;images. Nous utilisons des régions d&amp;rsquo;images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d&amp;rsquo;apprentissage ou de tests. Les résultats obtenus sur un problème de catégorisa- tion d&amp;rsquo;images montre (a) que la procédure automatique qui associe les concepts à une image est efficace, et (b) que l&amp;rsquo;utilisation des relations spatiales, en plus des concepts, permet d&amp;rsquo;améliorer la qualité de la classification. Cette approche présente donc une extension du modèle de langue classique en recherche d&amp;rsquo;information pour traiter le problème de recherche et de catégorisation d&amp;rsquo;images représentées par des graphes sans se préoccuper des annotations d&amp;rsquo;images.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Clustering en recherche d&#39;information : concentration vs distribution de l&#39;information pertinente.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.115/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.115/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;S&amp;rsquo;appuyant sur la Cluster Hypothesis, qui stipule que les documents pertinents à une requête tendent à être plus proches les uns des autres que des documents non pertinents, la plupart des systèmes de recherche d&amp;rsquo;information réalisant une catégorisation de leurs ré- sultats visent à regrouper l&amp;rsquo;ensemble des documents pertinents dans un même groupe. Nous proposons ici, par la mise en place de nouvelles mesures d&amp;rsquo;évaluation, de reconsidérer les bé- néfices résultant d&amp;rsquo;une telle concentration de l&amp;rsquo;information pertinente. Contrairement à ce qui est habituellement admis, nous montrons finalement que des systèmes réalisant une distribu- tion de l&amp;rsquo;information pertinente peuvent s&amp;rsquo;avérer au moins aussi intéressants pour l&amp;rsquo;utilisa- teur que des systèmes regroupant l&amp;rsquo;ensemble des documents pertinents dans un cluster unique.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Routage sémantique des requêtes dans les systèmes pair-à-pair.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.131/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.131/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les systèmes pair-à-pair (P2P) se sont imposés ces dernières années comme la technologie majeure d&amp;rsquo;accès à différentes ressources sur Internet. De nombreuses recherche concer- nant la sélection des meilleurs pairs contenant les données appropriées à une requête,ont émergé et constituent un axe de recherche très actif. L&amp;rsquo;efficacité de la recherche dans ces systèmes, et surtout le cas non structuré, peut être améliorée en introduisant de la sémantique dans le processus de routage des requêtes. Cette sémantique est généralement construite à par- tir du contenu des pairs, mais peut également faire intervenir le comportement explicite des utilisateurs. Nous présentons dans cet article un nouvel algorithme de routage des requêtes par apprentissage basé sur le comportement implicite des utilisateurs qui est déduit à partir d&amp;rsquo;un historique de requêtes. Pour tester l&amp;rsquo;algorithme proposé, nous avons défini une couche de routage sur le simulateur PeerSim qui nous a permis d&amp;rsquo;évaluer l&amp;rsquo;efficacité de notre algorithme.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Indexation semi-automatique de textes : thésaurus et transducteurs.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.151/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.151/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article présente une méthode de classification ne nécessitant pas de phase d&amp;rsquo;apprentissage. Son but est d&amp;rsquo;améliorer l&amp;rsquo;indexation manuelle des documents textuels, une opéra- tion souvent menée au sein de certains systèmes d&amp;rsquo;information requérant un niveau de précision élevé. Le système, qui apporte une aide à l&amp;rsquo;indexeur humain, est semi-automatique. Par analo- gie à la terminologie utilisée en apprentissage automatique, la méthode est dite supervisée car elle exploite une définition préalable des catégories d&amp;rsquo;indexation. Un vocabulaire contrôlé, par exemple un thésaurus, est utilisé comme la ressource de base servant à la génération automa- tique de transducteurs (ou automates). L&amp;rsquo;application de ceux-ci à un texte permet d&amp;rsquo;extraire un nombre limité d&amp;rsquo;expressions pertinentes, chacune accompagnée d&amp;rsquo;au moins un code de catégo- rie dont l&amp;rsquo;analyse finale permet la classification du document. Nos tests sur un corpus de textes en français ont permis d&amp;rsquo;obtenir une f-measure située entre 0,51 et 0,64.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Modèle d&#39;indexation dynamique à base d&#39;ontologies.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.169/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.169/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article propose un modèle de données pour une indexation basée sur une ontologie de référence représentant la sémantique des termes d&amp;rsquo;indexation. Le modèle proposé vise à permettre une indexation en temps réel qui suit la dynamique du corpus tout en assurant la disponibilité des documents et de l&amp;rsquo;index. Ceci permet de garder la cohérence entre les documents de la collection, l&amp;rsquo;index et l&amp;rsquo;ontologie de référence. Notre modèle permet ainsi d&amp;rsquo;éviter la reconstruction de l&amp;rsquo;index lors de la modification du corpus de documents car il reste à jour en permanence. Ainsi, le modèle que nous proposons permet l&amp;rsquo;indexation sémantique dynamique d&amp;rsquo;un corpus. Le modèle est illustré par des algorithmes expliquant sa mise en oeuvre.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Indexation et représentation comparative : application au discours électoral.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.185/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.185/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article décrit quelques approches afin d&amp;rsquo;extraire les termes les plus représentatifs d&amp;rsquo;un site web ou d&amp;rsquo;un ensemble de documents en comparaison avec d&amp;rsquo;autres sites ou un corpus de référence. Nous montrons que la fréquence d&amp;rsquo;occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s&amp;rsquo;appuie sur une distribution binomiale des mots et le calcul d&amp;rsquo;un score normalisé (score Z) mettant en lumière les termes comparativement les plus appropriés.  Quelques exemples tirés des discours électoraux suisses ou français illustrent l&amp;rsquo;intérêt de l&amp;rsquo;approche suggérée.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Catégorisation automatique de pages web chinoises - documents spécialisés vs grand public sur le tabagisme.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.203/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.203/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La catégorisation (ou classification supervisée) de textes concerne généralement le thème traité ou le type de document. Nous nous intéressons ici à une dimension particulière, le public visé, en distinguant deux grandes catégories : textes destinés au grand public, et textes destinés à des spécialistes du domaine traité. Nous testons la catégorisation, selon cette opposition, de pages web en langue chinoise sur le thème du tabagisme. Dans ce contexte, nous obtenons les conclusions suivantes : une segmentation des textes chinois en mots plutôt qu&amp;rsquo;en sinogrammes n&amp;rsquo;améliore pas la catégorisation mais facilite son interprétation ; des attributs supplémentaires relevés à la lecture humaine du corpus n&amp;rsquo;améliorent pas la catégorisation ; un arbre de décision ou un SVM sont plus performants sur un corpus de test proche du corpus d&amp;rsquo;entraînement (F1 = 98;5 %) que Na¨ıve Bayes ou Kppv ; les Kppv ou un arbre de décision&lt;/p&gt;</description>
    </item>
    <item>
      <title>Impact de la reconnaissance de l&#39;écriture en-ligne sur une tâche de catégorisation.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.219/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.219/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article s&amp;rsquo;intéresse à la problématique de la catégorisation automatique de docu- ments manuscrits en-ligne et plus particulièrement à l&amp;rsquo;impact de la reconnaissance de l&amp;rsquo;écriture dans un processus de catégorisation utilisant des méthodes d&amp;rsquo;apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d&amp;rsquo;un système de recon- naissance de l&amp;rsquo;écriture en-ligne et leur version originale électronique. Les résultats montrent qu&amp;rsquo;aucune perte significative des performances n&amp;rsquo;est à signaler lorsque 78 % des termes d&amp;rsquo;in- dexation sont correctement reconnus dans les documents à catégoriser. Nous montrons égale- ment que lorsque plus de la moitié de ces termes sont mal reconnus, l&amp;rsquo;utilisation d&amp;rsquo;une liste de candidats mots permet d&amp;rsquo;améliorer le taux de classification.&lt;/p&gt;</description>
    </item>
    <item>
      <title>SRI à base d&#39;inclusion graduelle.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.235/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.235/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article étudie, d&amp;rsquo;un point de vue expérimental, l&amp;rsquo;apport des inclusions graduelles issues de la théorie des ensembles flous pour la modélisation d&amp;rsquo;un système de recherche d&amp;rsquo;in- formation (SRI), comme l&amp;rsquo;ont proposé de manière théorique (Bosc et al., 2008b). Documents et requêtes sont représentés par des ensembles flous, appariés par des opérateurs flous, dont le choix est crucial pour obtenir un système adapté à la RI. S&amp;rsquo;ils sont bien choisis, le SRI flou ob- tenu est proche des SRI classiques et obtient des résultats aussi bons, en conservant l&amp;rsquo;avantage de son cadre théorique fort. À l&amp;rsquo;inverse, l&amp;rsquo;examen d&amp;rsquo;opérateurs inadaptées à la RI souligne les propriétés requises par ce SRI flou. Enfin, nous montrons la valeur ajoutée de ce modèle flou, qui permet d&amp;rsquo;envisager des extensions du modèle très naturelles. Un exemple simple montre comment utiliser une base de liens morphologiques entre mots dans ce cadre.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Interactions entre le calcul de collocations et la catégorisation automatique de textes.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.251/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.251/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous proposons dans cet article d&amp;rsquo;étudier les interactions entre l&amp;rsquo;extraction de collo- cations et la catégorisation automatique de textes. C&amp;rsquo;est-à-dire, dans un premier temps, utiliser la répartition des textes dans les différentes classes afin d&amp;rsquo;extraire des chaînes spécifiques à chacune (calculées par agglutination de collocations) ; puis, dans un second temps, utiliser ces chaînes spécifiques pour améliorer la catégorisation.&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;In this paper we describe some interactions between collocations and automatic text categorization. First, we use the differents categories to extract strings (through collocations agglutinations) related to each categorie. Then we use these categories-specific strings to im- prove categorization.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Rôle de la matrice d&#39;information et pondération des composantes dans les noyaux de Fisher pour PLSI.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.267/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.267/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Des similarités entre documents à base de catégories sémantiques latentes et de noyaux de Fisher ont été proposées pour la première fois il y a dix ans par T. Hofmann dans le contexte du &amp;ldquo;Probabilistic Latent Semantic Indexing&amp;rdquo;, puis étendues par Nyffenegger et al. (2006). Le présent article présente une étude approfondie et une révision de ces modèles par (1) une des- cription unifiée et simplifiée, (2) une étude du rôle de la matrice d&amp;rsquo;information de Fisher G (), et (3) une analyse de l&amp;rsquo;impact des paramètres associés aux catégories latentes. Il fournit de plus de nouveaux résultats expérimentaux sur une grande collection de document provenant du corpus d&amp;rsquo;évaluation TRECuAP.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Identification et structuration hiérarchique des titres dans les documents HTML.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.285/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.285/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous présentons une méthode pour automatiquement identifier et structurer hiérarchiquement les titres dans les documents HTML. Bien que la syntaxe HTML propose des balises de titres, l&amp;rsquo;usage de ces balises dans beaucoup de documents n&amp;rsquo;est pas correct ou ces balises ne sont pas utilisées. Notre méthode se base sur les propriétés visuelles, telles la taille ou la couleur de la police, obtenues grâce aux feuilles de style (CSS). L&amp;rsquo;hypothèse est que plus un élément est visible, plus son niveau dans la hiérarchie des titres est élevé. Nous avons extrait du Web un corpus de CSS que nous utilisons dans l&amp;rsquo;apprentissage d&amp;rsquo;un modèle de Markov caché. Les premiers résultats donnent une F-Mesure de 0,70 pour la structuration des titres et de 0,86 pour l&amp;rsquo;identification.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Classification de Structures Arborescentes : Cas de Documents XML</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.301/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.301/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article présente une méthode de classification structurelle de documents XML. Notre approche consiste d&amp;rsquo;abord à extraire automatiquement la structure arborescente de chaque document XML à classer, et ensuite à utiliser cette structure comme modèle de représentation pour la classification du document XML correspondant. L&amp;rsquo;appariement de ces structures est fondé sur un calcul de leurs similarités. Pour l&amp;rsquo;expérimentation nous avons utilisé un corpus INEX.&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;In this paper we present a clustering method for XML documents. Our step is two- phase based: we first automatically extract the structure from the document; we then use it as model of representation to classify the document that it represents. The matching of the documents&amp;rsquo; structures is based on the calculation of their similarities. For the experimentation we used the INEX.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Utilisation des liens entre documents structurés pour la recherche d&#39;information.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.319/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.319/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous proposons dans cet article une approche pour rechercher des documents structurés qui intègre les liens existants entre les parties de documents ainsi que la composition structurelle des documents. Les liens entre les parties de documents sont caractérisés par des notions d&amp;rsquo;exhaustivité et de spécificité relatives, utilisées pour définir la valeur de pertinence des parties de documents. Nous proposons une approche par fonction de correspondance stratifiée pour utiliser ces éléments lors de la recherche de documents. Les expérimentations reportées ici portent sur le corpus de la compétition INEX 2008. Nos résultats sur la campagne d&amp;rsquo;évaluation nous placent en cinquième position sur 61 résultats officiels pour la tâche de recherche focalisée (Focused).&lt;/p&gt;</description>
    </item>
    <item>
      <title>Impact précoce du poids des balises pour la recherche d&#39;information ciblée.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.333/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.333/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article traite de l&amp;rsquo;intégration des balises XML dans la fonction de pondération des termes, pour la recherche d&amp;rsquo;information (RI) XML ciblée. Notre modèle permet de considérer un certain type d&amp;rsquo;information structurelle: les balises qui représentent la structure logique des documents (titre, section, paragraphe, etc.) ainsi que les balises liées à la mise en forme (gras, italique, centré, etc.). Nous prenons en compte l&amp;rsquo;influence des balises sous forme d&amp;rsquo;un poids en estimant la probabilité pour une balise de mettre en évidence les termes pertinents. Ensuite, ces poids sont intégrés à la fonction de pondération des termes. Des expérimentations sur une collection de grande taille dans le cadre de la compétition de RI XML, INEX 2008, ont montré une amélioration de la qualité des résultats en RI ciblée.&lt;/p&gt;</description>
    </item>
    <item>
      <title>GraphDuplex: visualisation simultanée de N réseaux couplés 2 par 2.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.351/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.351/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;L&amp;rsquo;analyse des réseaux sociaux fait un usage intensif d&amp;rsquo;outils de visualisation et, dans le  domaine  de  la  recherche  d&amp;rsquo;information,  l&amp;rsquo;exploration  visuelle  de  réseaux  lexicaux  est utilisée comme une aide à la désambiguïsation ou au raffinement de la requête. Ces deux types de  réseaux se  trouvent associés  via  Internet lorsqu&amp;rsquo;un  contenu  textuel est  lié à  une activité  sociale  (méls,  blogs,  travail  collaboratif).  Dans  cet  article,  nous  présentons  un logiciel de visualisation simultanée de plusieurs réseaux, GraphDuplex, qui, combiné à des méthodes  statistiques,  permet  par  exemple  d&amp;rsquo;étudier  conjointement  un  réseau  social  (ou plusieurs)  et son  réseau lexical  associé.  GraphDuplex permet en particulier des requêtes dynamiques inter-réseaux, entre les noeuds ou les liens des deux réseaux.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Prise en compte des liens pour améliorer la recherche d&#39;information structurée.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.363/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.363/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article nous présentons deux adaptations de l&amp;rsquo;algorithme PageRank aux collections de documents XML et les résultats d&amp;rsquo;expérimentation obtenus pour la collection Wikipedia utilisée dans INEX 2007. Ces adaptations que nous appelons &amp;lsquo;DOCRANK&amp;rsquo; et &amp;lsquo;HITS_docrank&amp;rsquo; permettent un reclassement des résultats renvoyés par l&amp;rsquo;exécution de base (base run) pour en améliorer la qualité. Nos expérimentations sont effectuées sur les résultats renvoyés par les trois systèmes les mieux classés pour la tâche &amp;lsquo;Focused&amp;rsquo; d&amp;rsquo;INEX 2007. Les évaluations que nous avons menés ont montrés des améliorations de la qualité des résultats (voir très significatives pour certaines &amp;rsquo;topics&amp;rsquo;, ex : 491, 521, etc.). La meilleure amélioration obtenue pour les résultats renvoyés par le système de l&amp;rsquo;université DALIAN (pour l&amp;rsquo;ensemble des 107 topics d&amp;rsquo;INEX 2007) était de l&amp;rsquo;ordre de 3.78%.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Structure et proximité pour la recherche documentaire.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.373/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.373/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Notre étude compare les performances d&amp;rsquo;un système de recherche d&amp;rsquo;information basé sur la proximité des occurrences des termes de la requête dans les documents avec un système classique de modèle de langue avec lissage de Dirichlet et le modèle Okapi BM25 . Notre modèle basé sur la proximité calcule en chaque position du document une valeur d&amp;rsquo;autant plus grande que des occurrences de tous les termes de la requête sont proches de cette position. De plus pour le modèle à proximité nous testons dans le cas de documents structurés l&amp;rsquo;hypothèse que les termes apparaissant dans les titres doivent être considérés comme proches des positions de toute la section correspondant à ce titre.&lt;/p&gt;</description>
    </item>
    <item>
      <title>REVISE, un outil d&#39;évaluation précise des systèmes questions-réponses.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.385/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.385/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Des campagnes d&amp;rsquo;évaluations sont organisées chaque année pour évaluer des systèmes de questions-réponses sur la validité des résultats fournis. Pour les équipes, il s&amp;rsquo;agit ensuite de réussir à mesurer la pertinence des stratégies développées ainsi que le fonctionnement des com- posants. À ces fi ns, nous décrivons un outil générique d&amp;rsquo;évaluation de type boîte transparente qui permet à un système produisant des résultats intermédiaires d&amp;rsquo;évaluer ses résultats. Nous illustrerons cette démarche en testant l&amp;rsquo;impact d&amp;rsquo;une nouvelle défi nition de la notion de focus.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Identification de phénomènes dans l&#39;analyse d&#39;interactions humaines: Les traces d&#39;interactions humaines, un nouveau domaine d&#39;application pour la RI.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.397/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.397/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;L&amp;rsquo;étude socio-cognitive des interactions humaines médiatisées par ordinateur passe&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;The socio-cognitve study of human computer-mediated interactions can be done through the analysis of increasingly larger and complex corpora composed of audio-video recording and interaction logÞles. In this article, we present and model the querying of such corpora with IR methods. We show that these models afford the transformation of certain inter- action analysis research questions into known IR problems. We describe the results of our Þrst implementations of RI algorithms for querying interaction corpora.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Proposition de cadres d&#39;évaluation adaptés à un système de RI personnalisé.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.409/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.409/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;L&amp;rsquo;évaluation d&amp;rsquo;un système de recherche d&amp;rsquo;information (RI) personnalisé consiste prin- cipalement à mesurer ses performances. Les cadres d&amp;rsquo;évaluation classiques en RI basés sur les approches orientées laboratoire méritent d&amp;rsquo;être étendues et révisées vu que le contexte de recherche de l&amp;rsquo;utilisateur n&amp;rsquo;est pas considéré dans le protocole d&amp;rsquo;évaluation et les col- lections de test. Nous présentons dans ce papier des cadres d&amp;rsquo;évaluation adaptés à un sys- tème de RI personnalisé. Ces cadres sont basés sur l&amp;rsquo;enrichissement des collections TREC par des contextes/profi ls utilisateur simulés. Plus précisément, un protocole issu de TREC adhoc consiste à construire des profi ls utilisateur à partir des sessions de recherche simulées par les domaines d&amp;rsquo;intérêts prédéfi nis dans TREC adhoc. Le protocole issu de TREC H ARD consiste à construire le profi l à partir des sessions de recherche simulées par les sujets des requêtes de la collection. Les résultats obtenus confi rment la stabilité de la performance de notre modèle de RI personnalisé selon les cadres proposés sur des collections de test différentes.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche d&#39;entités nommées dans les journaux radiophoniques par contextes hiérarchique et syntaxique.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.421/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.421/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Ce papier présente une approche pour la recherche d&amp;rsquo;entités nommées dans des transcriptions radiophoniques. Nous allons utiliser les structures des entités nommées afin d&amp;rsquo;améliorer le taux de leur reconnaissance. En effet, l&amp;rsquo;espace des entités peut être représenté par une structure hiérarchique (arbre). Ainsi, un concept peut être vu comme un noeud dans l&amp;rsquo;arbre, et une entité comme un parcours dans la structure de l&amp;rsquo;espace. Nous allons montrer l&amp;rsquo;apport de cette représentation en utilisant le modèle des Champs Aléatoires Conditionnels (CAC). La comparaison de notre approche avec la méthode des Modèles de Markov Cachés (MMC) montre une amélioration de la reconnaissance en utilisant les CAC Combinés. Nous montrons également l&amp;rsquo;impact de l&amp;rsquo;utilisation des informations a priori dans le processus en incluant les informations syntaxiques des transcriptions comme nouveau contexte.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Introduction de la sémantique d&#39;un document sous le modèle de langage.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.433/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.433/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La plupart des systèmes de recherche d&amp;rsquo;information  classiques se basent sur une indexation par termes simples. Cependant, ces derniers délivrent beaucoup de résultats en réponse aux requêtes des utilisateurs. Ceci est du en partie au fait que le contenu sémantique d&amp;rsquo;un document (ou d&amp;rsquo;une requête) ne peut pas être capturé précisément par un simple ensemble de mots clés indépendants. Deux directions sont explorées pour incorporer la sémantique dans les modèles de langage. La première se base sur l&amp;rsquo;exploitation des liens entre termes tout en utilisant une même unité d&amp;rsquo;indexation. La seconde se base sur l&amp;rsquo;utilisation d&amp;rsquo;unités d&amp;rsquo;indexation plus  complexes en plus de l&amp;rsquo;utilisation de termes simples. Dans ce papier est détaillée l&amp;rsquo;approche que nous proposons pour incorporer la dimension sémantique de document, et qui rentre dans le cadre de la seconde direction.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Survey of the Adequate Descriptor for Content-Based Image Retrieval on the Web: Global versus Local Features.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.445/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.445/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;On reconnait actuellement, dans les systèmes de recherche d&amp;rsquo;image par contenu, deux méthodes pour la description du contenu des images : à travers des attributs locaux ou à travers des attributs globaux. Dans ce papier, nous proposons deux méthodes pour la recherche d&amp;rsquo;image qui sont basées sur la similitude visuelle. La première caractérise les images par des attributs globaux, alors que la seconde est basée sur les attributs locaux. Concernant le descripteur global, les attributs sont calculés sur l&amp;rsquo;ensemble de l&amp;rsquo;image, alors que pour le descripteur local, les attributs sont définis sur les régions de l&amp;rsquo;image. L&amp;rsquo;objectif de ce papier est d&amp;rsquo;évaluer les performances des attributs locaux contre les attributs globaux pour la recherche des images Web par contenu.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Aide à l&#39;interprétation de documents juridiques - une approche centrée utilisateur.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.457/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.457/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous présentons un projet de recherche en cours visant à améliorer les interactions d&amp;rsquo;utilisateurs de différentes catégories professionnelles avec un système d&amp;rsquo;information dédié au droit du transport et de la logistique. L&amp;rsquo;objectif vise à concevoir et à mettre au point un environnement numérique de travail (ENT) destiné à un public professionnel (entreprises de la filière logistique, juristes, risk managers, assureurs, avocats, &amp;hellip;) et non professionnel (usagers ou salariés des transports). Après avoir posé la question de l&amp;rsquo;appropriation des contenus dans le cadre des documents numériques, nous décrirons les spécificités de notre corpus de travail. Nous placerons alors notre projet dans un cadre théorique actuellement novateur au sein des sciences cognitives, celui de l&amp;rsquo;énaction. Ceci nous amènera à proposer une approche résolument centrée utilisateur dans la conception de l&amp;rsquo;ENT. Nous terminerons par une description des spécifications du futur ENT, qui privilégie une démarche interprétative dans la formulation/reformulation de requêtes, ainsi que la représentation graphique des données.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Une approche sémantique basée sur l&#39;apprentissage pour la recherche d&#39;image par contenu.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.471/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.471/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cette dernière décennie témoigne un accroissement exponentiel des données multimé- dia (texte, image, son et vidéo). La recherche d&amp;rsquo;information au sein de cette masse de données, en particulier les images, devient un processus incertain. Aussi, le problème se pose au niveau de l&amp;rsquo;indexation puisque les techniques actuelles ne permettent pas de décrire efficacement le contenu des images. Dans ce papier, nous nous concentrons sur le problème de découverte de connaissance à partir du contenu des images et nous proposons une nouvelle approche pour l&amp;rsquo;indexation sémantique des images. Notre approche se base sur l&amp;rsquo;apprentissage pour associer des éléments symboliques (concepts) à des éléments de bas niveau.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche contextuelle d&#39;information dans un environnement mobile.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.479/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.479/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La recherche contextuelle d&amp;rsquo;information (RCI) a pour objectif de mieux répondre aux besoins de l&amp;rsquo;utilisateur en lui délivrant l&amp;rsquo;inf ormation adaptée à son contexte spécifique de recherche. Cet article présente une approche de RCI dans le cas d&amp;rsquo;un environnement mobile, où le contexte spatio-temporel de l&amp;rsquo;utilisateur et son contexte cognitif, sont à la fois considérés pour lui délivrer de l&amp;rsquo;information pertinente. Nous proposons de construire des profils situationnels basés sur l&amp;rsquo;historique de recherche annoté par le contexte spatio- temporel pour personnaliser les résultats de recherche. De plus, le contexte spatio-temporel sera exploité pour mieux répondre à des requêtes sensibles au temps ou à la localisation.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche d&#39;information textuelle et phonétique pour le contrôle de l&#39;étiquetage automatique d&#39;émissions dans un flux télévisuel.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.487/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.487/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;En 2007, Naturel (Naturel, 2007) a proposé un système qui associe automatiquement une étiquette, c&amp;rsquo;est-à-dire un titre, à des émissions issues du découpage d&amp;rsquo;un flux TV. Cepen- dant, ce système ne permet pas de vérifier la correction des associations étiquette-émission. Nous proposons dans cet article de contrôler cet étiquetage en nous basant sur les transcrip- tions textuelle et phonétique de la bande sonore contenue dans le flux. Nous montrons que des méthodes de recherche d&amp;rsquo;information permettent d&amp;rsquo;associer à chaque émission une descrip- tion, issue d&amp;rsquo;un guide de programmes TV, description qui est ensuite comparée avec l&amp;rsquo;étiquette originale de l&amp;rsquo;émission. La technique proposée permet de contrôler un peu plus de 45% des émissions étudiées et de diminuer de nombre d&amp;rsquo;erreurs de l&amp;rsquo;étiquetage original de 3,5%.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Aggregated search: From information nuggets to aggregated documents.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.495/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.495/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Le but de la recherche agregée est de rassembler des informations provenant de plu- sieurs sources en une seule interface. Elle doit ainsi gérer des problématiques liées aux dif- férents types de contenu (texte, vidéo, image, etc) ainsi qu&amp;rsquo;à la granularité des résultats. La formation d&amp;rsquo;un contenu agrégé à partir de différents types de contenus retrouvés contraste avec l&amp;rsquo;approche commune en RI consistant à renvoyer à l&amp;rsquo;utilisateur une liste ordonnée de résultats. Si nous sommes aujourd&amp;rsquo;hui capables de retrouver de l&amp;rsquo;information de différents types et de différente granularité, très peu de travaux existent concernant leur agrégation. La recherche agrégée étant un domaine de recherche récent, elle manque encore de formalisation. Ce pa- pier se propose de traiter la recherche agrégée à un niveau d&amp;rsquo;abstraction élevé. Il présente tout d&amp;rsquo;abord l&amp;rsquo;état de l&amp;rsquo;art, puis décompose le problème en listant et formalisant les différentes pro- blématiques. Ce travail doit servir de base de réflexion et de référence pour de futurs travaux sur le domaine.&lt;/p&gt;</description>
    </item>
    <item>
      <title>6IR : Un index paramétrable pour les requêtes ramifiées.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.503/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.503/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article contient une présentation de notre travail en cours de dévelop- pement dans le domaine de la recherche d&amp;rsquo;informations dans des bases de documents semi-structurées. Nous cherchons à construire un système d&amp;rsquo;interrogation u dénommé 6IR pour Structure based IndeX Information Retrieval u qui fournisse une liste de documents similaires au contenu et à la structure d&amp;rsquo;une requête ramifiée. L&amp;rsquo;extraction des documents est basée sur l&amp;rsquo;identification de points communs entre leur structure et celle de la requête. Nous détaillons le processus d&amp;rsquo;indexation qui consiste à extraire des documents de la base tous les points d&amp;rsquo;accrochage exploitables dans le processus d&amp;rsquo;in- terrogation. Nous montrons comment parvenir à maîtriser l&amp;rsquo;explosion combinatoire de la taille de l&amp;rsquo;index en paramétrant la taille des points d&amp;rsquo;ancrage et les propriétés qui en découlent pour les documents candidats obtenus lors du processus d&amp;rsquo;interrogation.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Classement collaboratif de manuscrits.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.511/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.511/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Pour chaque projet d&amp;rsquo;édition numérique de manuscrits, après que le corpus ait été constitué, les chercheurs commencent par le classer. Cette opération demande de grands ef- forts d&amp;rsquo;interprétation, elle n&amp;rsquo;est pas neutre mais contribue à la construction du point de vue du chercheur sur son objet d&amp;rsquo;étude. Ainsi, plusieurs classements peuvent être proposés pour un même sous-ensemble de l&amp;rsquo;archive. Or il n&amp;rsquo;existe pas de plateforme informatique spécifi que pour assister les chercheurs dans cette opération délicate. Nous en proposons une sous la forme d&amp;rsquo;un service Web et d&amp;rsquo;une IHM qui prennent en compte les spécifi cités de la tâche de classe- ment et peuvent profi ter à tout projet qui étudie un corpus de documents numérisés dans un des domaines des Humanités.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Extraction des connaissances à partir du Web pour la recherche des images géoréférencées.</title>
      <link>http://www.asso-aria.org/coria/2009/papers/coria.2009.519/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2009/papers/coria.2009.519/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les bases de données géoréférencées connaissent un rôle croissant dans une grande variété de domaines d&amp;rsquo;application. La création manuelle de ces bases de données est cependant une opération coûteuse. Cela a suscuté un intérêt pour l&amp;rsquo;automatisation de leur construction, par exemple, par l&amp;rsquo;exploitation des informations géographiques présentes sur le Web. Dans ce travail, nous présentons une nouvelle approche automatique pour la construction d&amp;rsquo;une base de données géoréférencées multilingues et à large échelle en se basant principalement sur l&amp;rsquo;encyclopédie collaborative Wikipedia pour identifier les noms géographiques, catégoriser ces noms, trouver leurs coordonnées géographiques et les classer selon une estimation de leur pertinence. La base de connaissances obtenue a été intégrée dans ThemExplorer, une application de recherche d&amp;rsquo;images géoréférencées.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
