<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Association Francophone de Recherche d&#39;Information et Applications</title>
    <link>http://www.asso-aria.org/coria/2008/papers/</link>
    <description>Recent content on Association Francophone de Recherche d&#39;Information et Applications</description>
    <generator>Hugo</generator>
    <language>fr</language>
    <atom:link href="http://www.asso-aria.org/coria/2008/papers/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Recherche visuo-textuelle d&#39;images sur le Web améliorée par sélection de la dimension.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.7/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.7/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous proposons une méthode pour améliorer la recherche d&amp;rsquo;images sur le web dans le cas de requêtes bimodales composées de quelques mots et de quelques images. Pour chaque page web et chaque requête, une moyenne pondérée fusionne les distances textuelles basées sur tfidf et les distances visuelles. Nous montrons alors que cette recherche bi- modale d&amp;rsquo;images peut être optimisée en analysant simplement des images récupérées en ligne par des requêtes purement textuelle sur un moteur classique de recherche d&amp;rsquo;images sur le web. Nous approximons alors une Analyse Linéaire Discriminante (ALDA) sur ces images de déve- loppement pour estimer le sous-ensemble de traits optimaux de chaque requête traitée. Nous testons notre méthode sur la campagne Techno-Vision ImagEVAL (notre équipe s&amp;rsquo;y est classée 2nde sur 4), avec 700 URLs (700 pages web et 10k images). Nous discutons le comportement des résultats des requêtes en fonction du taux de texte dans la fusion. Les résultats montrent alors que nous pouvons automatiquement réduire le nombre de dimensions afin d&amp;rsquo;obtenir une réduction du temps de calcul de 35% sans dégradation des scores de Mean Average Precison.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche d&#39;images par l&#39;analyse factorielle des correspondances.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.23/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.23/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;On utilise l&amp;rsquo;analyse factorielle des correspondances (AFC) pour la recherche d&amp;rsquo;images par le contenu en s&amp;rsquo;inspirant directement de son utilisation en analyse des données textuelles (ADT). En ADT, l&amp;rsquo;AFC est appliquée à un tableau de contingence croisant mots et documents. La première étape consiste donc à établir des u mots visuels » dans les images (analogue des mots dans les textes). Ces mots sont construits à partir des descripteurs locaux (SIFT) des images. La méthode a été testée sur la base Caltech4 (Sivic et al., 2005) et elle fournit de meilleurs résultats (qualité des résultats de recherche et temps d&amp;rsquo;exécution) que des méthodes plus classiques comme TF*IDF/Rocchio (Rocchio, 1971) ou pLSA (Hofmann, 1999b). Enfin, pour passer à l&amp;rsquo;échelle, nous proposons un nouveau prototype de recherche utilisant des fichiers inversés basés sur la contribution des images à l&amp;rsquo;inertie des axes à l&amp;rsquo;issue d&amp;rsquo;une AFC. Chaque fichier inversé est associé à une partie d&amp;rsquo;un axe et contient des images ayant une contribution forte à l&amp;rsquo;inertie de cet axe. Les tests réalisés montrent que ce nouveau prototype réduit le temps de recherche sans perte de qualité de résultat.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Fusion de multi-modalités et réduction par sémantique latente.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.39/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.39/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Ce papier étudie la &amp;lsquo;sémantique latente&amp;rsquo; entre des éléments visuels et textuels d&amp;rsquo;une collection multimédia, appliquée à deux tâches : (1) la Recherche de Document Multimédia (RDM) contenant des images et du texte ; et (2) l&amp;rsquo;Annotation Automatique d&amp;rsquo;Images (AAI). La sémantique latente, habituellement utilisée dans l&amp;rsquo;indexation textuelle, est mise à profit ici pour faire apparaître des liens entre les descriptions textuelles et visuelles des images. Nous avons ainsi deux contributions principales. Il s&amp;rsquo;agit d&amp;rsquo;une part, de la première étude sur l&amp;rsquo;influence de la sémantique latente entre termes textuels et visuels, sur une grande collection de documents. En effet, cette méthode est testée sur une collection de 20000 images touristiques. D&amp;rsquo;autre part, nous démontrons que la fusion des différents modalités d&amp;rsquo;image (i.e. termes visuels vs textuels, et différentes méthode de représentations d&amp;rsquo;image) améliore le résultat d&amp;rsquo;une annotation au- tomatique des images par du texte. Nos collections de test sont la base d&amp;rsquo;images annotées de COREL et la base d&amp;rsquo;ImageCLEF 2006.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Une métrique pondérée pour la recherche textuelle d&#39;images dans des documents semi-structurés.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.55/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.55/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La naissance du standard XML et l&amp;rsquo;utilisation de plus en plus fréquente des images dans les documents électroniques ont soulevé une nouvelle problématique en recherche d&amp;rsquo;infor- mation: la recherche d&amp;rsquo;images dans des documents semi-structurés. Cet article s&amp;rsquo;inscrit dans ce contexte et présente une méthode permettant de calculer une re- présentation sémantique de l&amp;rsquo;image en utilisant le texte et la structure des documents. Plus précisément, nous proposons une mesure pour calculer la participation de chaque élément du document dans cette représentation. Cette mesure est inspirée d&amp;rsquo;une mesure de similarité sé- mantique entre les concepts d&amp;rsquo;une ontologie. Notre méthode est évaluée dans le cadre de la campagne de l&amp;rsquo;évaluation INEX 2006.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Classification dynamique par treillis de concepts pour la recherche d&#39;information sur le web.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.71/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.71/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;L&amp;rsquo;analyse de concepts formels (ACF) permet d&amp;rsquo;organiser des objets en fonction de leurs propriétés. Des travaux récents ont utilisé l&amp;rsquo;ACF pour réorganiser, sous la forme d&amp;rsquo;un treillis de concepts, les réponses fournies par un moteur de recherche du web. L&amp;rsquo;utilisateur na- vigue dans le treillis pour explorer un résultat structuré et synthétique. Or, un tel treillis contient des concepts qui sont pertinents par rapport à une tâche de recherche d&amp;rsquo;information donnée et d&amp;rsquo;autres qui ne le sont pas. Pour que l&amp;rsquo;utilisateur puisse se focaliser sur ce qui l&amp;rsquo;intéresse et éli- miner ce qui ne l&amp;rsquo;intéresse pas, nous proposons un système interactif dans lequel il va exprimer son intérêt (positif ou négatif) pour certains concepts du treillis. Ce contrôle de pertinence est exploité dans la classification pour faire évoluer le treillis et ainsi mieux l&amp;rsquo;adapter au besoin de l&amp;rsquo;utilisateur.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Analyse de la robustesse des algorithmes de méta-recherche discriminante.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.87/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.87/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article examine la sensibilité de quatre moteurs de méta-recherche à différents facteurs et contextes d&amp;rsquo;utilisation. L&amp;rsquo;accent de l&amp;rsquo;étude est mis sur les méta-moteurs capables d&amp;rsquo;apprendre à partir d&amp;rsquo;exemples. L&amp;rsquo;apport original de notre travail consiste en une explora- tion systématique sur des corpus de grande taille des performances et du comportement des méthodes d&amp;rsquo;apprentissage pour la méta-recherche. D&amp;rsquo;abord, nous nous intéressons au choix de la représentation des attributs (les scores renvoyés par les moteurs de base). Nous exami- nons ensuite la performance des méta-moteurs sur différents types de requêtes de test. Nous présentons des expériences montrant l&amp;rsquo;influence des propriétés et du nombre des données d&amp;rsquo;ap- prentissage sur la performance finale sur les données de test. Enfin, nous donnons des résultats préliminaires sur la possibilité de sélectionner des requêtes par apprentissage actif. Toutes ces expériences démontrent que l&amp;rsquo;apprentissage supervisé de fonctions d&amp;rsquo;ordonnancement est parti- culièrement efficace pour la méta-recherche et offre des performances uniformément meilleures que celles obtenues par les moteurs individuels et les heuristiques de combinaison. Ces mé- thodes sont de plus robustes à des facteurs comme le codage des résultats des moteurs de base et la variabilité de la base d&amp;rsquo;apprentissage.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Involving Validity Indices in Document Clustering.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.103/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.103/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;None&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;The goal of any clustering algorithm is to find the optimal clustering solution with the optimal number of clusters. In order to evaluate a clustering solution, a number of validity indices are used during or at the end of a clustering process. They can be internal, external or relative. In this paper, we provide two main contributions: First, we present an experimental study comparing the major relative indices in the context of document agglomerative cluster- ing. The objective is to highlight the limits of the existing indices for identifying both the optimal clustering solution and the optimal number of clusters in real datasets. Second, we explore the feasibility of using the relative indices as stopping criteria in agglomerative clustering algo- rithms. We present a new method that enhances the clustering process with context-awareness to improve their reliability for such utilization.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Apprentissage d&#39;un espace de concepts de mots pour une nouvelle représentation des données textuelles.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.119/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.119/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article nous proposons une technique à base d&amp;rsquo;apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l&amp;rsquo;hypo- thèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d&amp;rsquo;abord regroupés avec l&amp;rsquo;al- gorithme CEM qui est une version classifiante de l&amp;rsquo;algorithme EM. Les documents sont ensuite représentés dans l&amp;rsquo;espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous mon- trons la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l&amp;rsquo;espace sac-de-mots initial et l&amp;rsquo;espace des groupes de mots induit par l&amp;rsquo;algorithme PLSA sur deux collections standard de WebKB et de Reuters.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Choix d&#39;une mesure d&#39;association pour une extension de requête contôlée : la question de l&#39;orientation de la mesure.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.135/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.135/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article présente une étude comparative de mesures d&amp;rsquo;association dans le contexte de la construction automatique de thésaurus. L&amp;rsquo;étude porte plus particulièrement sur la question de l&amp;rsquo;orientation de la mesure d&amp;rsquo;association. Différentes solutions sont distinguées et testées dans le cadre d&amp;rsquo;une tâche de filtrage adaptatif dans laquelle le thésaurus est utilisé pour sélectionner des termes d&amp;rsquo;indexation à ajouter au cours de l&amp;rsquo;apprentissage. Les résultats obtenus sur le corpus OSHUMED montrent une forte influence de l&amp;rsquo;orientation considérée.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Introduction du nouveau centre de données biomédicales Décrypthon.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.151/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.151/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;None&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;This paper presents the design and the implementation of the new high performance biomedical data center of the Décrypthon computing grid which provides a strong potential for calculation and storage to high trhoughput biological applications and projects. In order to efficiently share the biological data required by the application, the Décrypthon data center is integrated in the computing grid to provide local databases of nucleotide, genomic and proteomic sequences. In addition, the access to methods for heterogeneous and distributeddata, and treatment of joint queries, analysis and visualization are provided. A new system of data integration, called BIRD (for Biological Integration and Retrieval of Data), considered as the core of the Décrypthon data center, was developed to locally integrate very large genomic, proteomic and transcriptomic datasets. BIRD also provides an engine and a high level query language allowing the biologist to extract pertinent information.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche d&#39;information dans des documents structurés par proximité des termes.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.165/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.165/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous présentons une méthode pour calculer un score d&amp;rsquo;un élément quelconque d&amp;rsquo;un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d&amp;rsquo;un terme de la requête une fonction d&amp;rsquo;influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d&amp;rsquo;influence décroit linéairement de 1 à 0 selon la distance à l&amp;rsquo;occurrence. Lorsqu&amp;rsquo;un terme de la requête apparaît dans le titre d&amp;rsquo;une (sous-)section d&amp;rsquo;un document struc- turé, son influence est uniformément 1 du début à la fin de la (sous-)section. Nous utilisons des requêtes booléennes et les fonctions d&amp;rsquo;influence sont combinées à chaque noeud ET et OU de l&amp;rsquo;arbre de la requête selon le modèle de la logique floue. Le score d&amp;rsquo;une partie quelconque de document est la normalisation de la somme de la fonction d&amp;rsquo;influence résultante à la racine de l&amp;rsquo;arbre de la requête sur l&amp;rsquo;intervalle associé à cette partie. Nous présentons et commentons les résultats obtenus dans le cadre de la tâche ad&amp;rsquo;hoc de la campagne INEX 2006.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Apprentissage de conversion de documents semi-structurés à partir d&#39;exemples.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.181/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.181/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Une majorité de travaux de Recherche d&amp;rsquo;Information dans les collections de documents semi-structurés se focalise sur le traitement de bases homogènes et ne sont pas utilisables sur des corpus de documents hétérogènes issus du Web par exemple. Nous présentons ici la mé- thode ISM (Incremental Structure Mapping) permettant la conversion de documents XML issus de sources hétérogènes dans un schéma de médiation. ISM est centrée document et permet la prise en compte simultanée de la structure et du contenu des documents. Elle ne nécessite pas de spécifier des correspondances entre schéma manuellement et utilise des méthodes d&amp;rsquo;appren- tissage automatique, l&amp;rsquo;utilisateur n&amp;rsquo;ayant qu&amp;rsquo;à fournir au système un ensemble de documents exprimés conjointement dans leur schéma initial et dans le schéma de destination. Contraire- ment aux méthodes existantes, ISM possède une complexité très faible et permet de traiter de grands corpus de documents. Les résultats des expériences sur différents corpus montrent que l&amp;rsquo;algorithme est capable d&amp;rsquo;apprendre des transformations complexes, notamment pour la tâche de conversion du format HTML vers un format XML sémantiquement riche.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Compression de structure XML pour la recherche d&#39;information structurée.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.197/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.197/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La recherche d&amp;rsquo;informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d&amp;rsquo;information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d&amp;rsquo;expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d&amp;rsquo;efficience en espace et en temps.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche de documents structurés en mobilité : un modèle et une mesure d&#39;évaluation.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.211/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.211/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les travaux en recherche de documents structurés ne s&amp;rsquo;intéressent que peu pour le moment à leur emploi dans un contexte de mobilité. Dans de tels cas, on pose que l&amp;rsquo;objectif d&amp;rsquo;un système de recherche d&amp;rsquo;information demeure inchangé (il est de satisfaire le besoin d&amp;rsquo;information d&amp;rsquo;un utilisateur), mais il faut intégrer que les écrans des systèmes mobiles sont petits et que le réseau utilisé n&amp;rsquo;a pas une grande bande passante. Nous proposons dans cet article une première approche, relativement simple, qui prend en compte ces aspects, en privilégiant les parties de documents structurés petites en terme de taille. Pour tout travail scientifique, il est nécessaire d&amp;rsquo;évaluer les résultats de nos propositions, c&amp;rsquo;est pour cela que nous proposons une mesure d&amp;rsquo;évaluation des systèmes de recherche d&amp;rsquo;information en mobilité. Cette mesure est inspirée du gain cumulé déjà utilisé pour les documents structurés, mais intègre la taille des documents pour en calculer leur intérêt dans un contexte de mobilité en favorisant les parties de documents petites.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Construction des profils utilisateurs à base d&#39;une ontologie pour une recherche d&#39;information personnalisée.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.225/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.225/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La recherche d&amp;rsquo;information (RI) personnalisée tend principalement à modéliser l&amp;rsquo;utili- sateur selon un profil puis à l&amp;rsquo;intégrer dans la chaîne d&amp;rsquo;accès à l&amp;rsquo;information, afin de mieux ré- pondre à ses besoins spécifiques. Ce papier présente une extension d&amp;rsquo;une approche de construc- tion implicite du profil utilisateur précédemment développée où les centres d&amp;rsquo;intérêts sont re- présentés à base de termes pondérés. L&amp;rsquo;extension de cette approche permet d&amp;rsquo;obtenir une re- présentation sémantique de ces centres à base de concepts pondérés en utilisant l&amp;rsquo;ontologie de l&amp;rsquo;ODP. Nous avons évalué notre approche sur la collection de documents TREC et avons pré- senté quelques résultats expérimentaux mettant en évidence l&amp;rsquo;impact de l&amp;rsquo;intégration du profil utilisateur sur la performance du système.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Lisibilité et recherche d&#39;information : vers une meilleure accessibilité.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.241/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.241/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous proposons en premier lieu une mesure de la lisibilité adap- tée à des lecteurs dyslexiques en utilisant des caractéristiques issues d&amp;rsquo;une analyse fine des causes des difficultés de lectures rencontrées. Nous proposons ensuite un cadre pour la prise en compte de la lisibilité dans la mesure de pertinence accordée par les systèmes de recherche d&amp;rsquo;informations, qui est généralement calculée sur la seule base de la similarité. Ce cadre part de l&amp;rsquo;hypothèse que les données thématiquement pertinentes existent en nombre suffisant pour qu&amp;rsquo;on choisisse les plus lisibles. On atteint un taux optimal de prise en compte de la lisibilité de 30% en observant l&amp;rsquo;évolution des performances dans le cadre de campagnes d&amp;rsquo;évaluation en recherche documentaire (CLEF) et en résumé (DUC).&lt;/p&gt;</description>
    </item>
    <item>
      <title>Filtrage de textes dans le but de produire un résumé de documents multiples.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.257/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.257/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans le cadre de la conférence d&amp;rsquo;évaluation DUC, nous avons développé un système de résumé automatique de documents multiples qui se base sur l&amp;rsquo;extraction des phrases clés. La méthode proposée utilise un algorithme génétique qui permet de combiner les phrases des documents sources pour former les extraits, qui seront croisés et mutés pour générer de nouveaux extraits. L&amp;rsquo;examen des résultats obtenus dans les deux sessions DUC&#39;04 et DUC&#39;07 a montré un écart significatif au niveau des performances du système développé. En effet, un phénomène de dérive génétique est observé lorsqu&amp;rsquo;on traite, en entrée de notre système, des textes de grande taille. Afin de remédier à cette dérive, nous proposons d&amp;rsquo;intégrer un module supplémentaire de filtrage qui a pour objectif la réduction du nombre des phrases des textes sources en entrée. Ce filtrage est effectué sur la base de la notion de dominance entre phrases qui permet d&amp;rsquo;éliminer un grand nombre de phrases du pool initial.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Evaluation de la réponse d&#39;un système de question-réponse et de sa justification.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.273/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.273/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les systèmes de question-réponse fournissent une réponse à une question en l&amp;rsquo;ex- trayant d&amp;rsquo;un ensemble de documents. Avec celle-ci ils fournissent également un passage de texte permettant de la justifier. On peut alors chercher à évaluer si la réponse proposée par un système est correcte et justifiée par le passage. Pour cela, nous nous sommes fondés sur la vérification de différents critères : le premier tient compte de la proportion et du type des termes communs au passage et à la question, le second de la proximité de ces termes par rapport à la réponse, le troisième compare la réponse à considérer avec celle obtenue par le système de question-réponse F RASQUES utilisé sur le passage à juger et le dernier est une vérification du type de la réponse. Les différents critères sont ensuite combinés grâce à un classifieur utilisant les arbres de décision.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Une méthode contextuelle d&#39;extension de requête avec des groupements de mots pour le résumé automatique.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.289/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.289/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article nous décrivons les différentes étapes de construction du système de&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;This paper describes the different steps which lead to the construction of the LIP6 extractive summarizer. The basic idea behind this system is to expand question and title key- words of each topic with their respective cluster terms. Term clusters are found by unsupervised learning using a classification variant of the well-known EM algorithm. Each sentence is then characterized by 4 features, each of which uses bag-of-words similarities between expanded topic title or questions and the current sentence. A final score of the sentences is found by man- ually tuning the weights of a linear combination of these features ; these weights are chosen in order to maximize the Rouge-2 AvF measure on the Duc 2006 corpus.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Modélisation de relations dans l&#39;approche modèle de langue en recherche d&#39;information.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.305/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.305/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Nous abordons dans cet article le problème de la prise en compte de relations (par exemple de nature syntaxique ou sémantique) dans un modèle de langues en recherche d&amp;rsquo;infor- mation. En particulier, nous proposons, sur la base du modèle de langue, un cadre complet pour la prise en compte de relations, étiquetées ou non. Afin d&amp;rsquo;illustrer ce cadre, nous avons conduit une série d&amp;rsquo;expériences fondées sur différentes indexations structurées (grammaire de dépen- dances et graphes de relations entre concepts) dans le domaine médical. Nos résultats montrent que l&amp;rsquo;intégration d&amp;rsquo;information sur les relations entre termes améliore la qualité d&amp;rsquo;un système de recherche d&amp;rsquo;information sur la précision à 5 documents. Ils confirment aussi le bien-fondé du modèle que nous proposons.&lt;/p&gt;</description>
    </item>
    <item>
      <title>On the use of tolerant graded inclusions in information retrieval.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.321/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.321/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, un modèle de recherche d&amp;rsquo;information fondé sur la théorie des ensembles flous est considéré. Tout d&amp;rsquo;abord, nous montrons que le mécanisme de recherche dans un tel modèle peut être défini en termes d&amp;rsquo;inclusion graduelle. Cette approche est fortement liée à la notion de division dans un contexte de bases de données relationnelles. Dans un deuxième temps, nous mettons en évidence plusieurs axes d&amp;rsquo;extension de l&amp;rsquo;inclusion graduelle, l&amp;rsquo;objectif étant de rendre l&amp;rsquo;indicateur d&amp;rsquo;inclusion (et donc le mécanisme de matching document-requête) plus tolérant, aux exceptions notamment. Il est montré que l&amp;rsquo;utilisation de tels indicateurs d&amp;rsquo;inclusion tolérante permet de réduire le risque d&amp;rsquo;obtention de réponses vides.&lt;/p&gt;</description>
    </item>
    <item>
      <title>GVC: a graph-based Information Retrieval Mode.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.337/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.337/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;None&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;GVC is a new information retrieval model that is based on Graph Vertices Comparison (GVC). It implements a new similarity measure to compare documents and users&amp;rsquo; queries based on graph matching. In this model, graphs are composed of two types of nodes. Documents, queries and indexing terms are viewed as vertices of this bipartite graph where each edge goes from a document or a query ufirst type of nodes- to an indexing term u second type of nodes-. Edges reflect the relationship that exists between documents or queries on the one hand and indexing terms on the other hand; they are set according to the tf.idf principal. Our method implements similarity propagation over graph edges using an iterative process. We evaluate the model using 4 different collections (TREC 2004 Novelty Track, CISI, Cranfield and Medline). We show that considering precision at 5 documents, GVC outperforms Okapi model from 9% to 62%, depending on the collections.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Indexation multi-critères et différentes approches de combinaison.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.353/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.353/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Ce papier s&amp;rsquo;inscrit dans la continuité de travaux sur l&amp;rsquo;indexation et la recherche d&amp;rsquo;in- formation menés au LIUPPA sur des critères géographiques. L&amp;rsquo;information géographique a trois composantes : le spatial, le temporel et le thématique. Notre équipe a déjà travaillé sur le spatial et le temporel de façon indépendante. Aujourd&amp;rsquo;hui nous cherchons à combiner ces différentes composantes. Pour cela nous proposons d&amp;rsquo;utiliser une approche statistique, réser- vée habituellement à l&amp;rsquo;analyse plein-texte d&amp;rsquo;un document, pour le spatial et le temporel. Cette approche sera qualifiée de u carroyage ». Toutefois nous cherchons aussi à extraire les liens sémantiques existants entre les informations géographiques. Pour cela nous étudions un autre type de combinaison, qualifiée d&amp;rsquo;u approche par motifs ».&lt;/p&gt;</description>
    </item>
    <item>
      <title>Réordonnancement de réponses par transformation d&#39;arbres pour un système de question-réponse oral interactif.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.361/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.361/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les techniques traditionnelles de recherche d&amp;rsquo;information montrent des limites pour extraire certaines réponses précises contenues dans des documents. Cet article présente une méthode de recherche d&amp;rsquo;informations adaptée au contexte d&amp;rsquo;un système de question-réponse oral interactif en domaine ouvert. Cette méthode vise à améliorer la sélection des meilleures réponses. Nous proposons une approche consistant à mesurer un coût de transformation entre deux arbres textuels qui rend compte des reformulations possibles entre un texte décrivant l&amp;rsquo;in- formation recherchée (question) et un passage de document. Nous présentons ensuite une éva- luation de la méthode sur le corpus Clef et analysons les résultats mesurés. Nos perspectives présentent des voies d&amp;rsquo;amélioration et incluent l&amp;rsquo;exploitation des transformations d&amp;rsquo;arbres trou- vées par notre méthode pour fournir des informations à l&amp;rsquo;utilisateur sur le déroulement de la recherche.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Vues et mises à jour de données semi-structurées : une analyse de dépendances.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.369/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.369/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans ce papier nous étudions le problème classique de l&amp;rsquo;impact d&amp;rsquo;une mise à jour sur une vue, dans le cadre de données semi-structurées. Nous faisons les hypothèses suivantes: (i) le document source est modélisé par un arbre ordonné étiqueté par des symboles d&amp;rsquo;arité variable, (ii) une vue V est une requête arbre dont l&amp;rsquo;évaluation sur le document source fournit la vue partielle du document souhaitée (iii) une classe de mises à jour C est également donnée par une requête arbre sélectionnant les noeuds à modifier. Nous étudions alors le problème suivant: étant donné une requête de vue V et une classe de mise à jour C est-il possible de détecter si la vue V est indépendante de toute mise à jour q de C ? Nous montrons que le problème est en général NP-difficile. Nous exhibons une condition suffisante évaluable en temps polynomial assurant l&amp;rsquo;indépendance d&amp;rsquo;une vue V par rapport à une classe de mises à jour C ainsi que certaines sous-classes de requêtes de vues pour lesquelles le problème devient polynomial.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.377/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.377/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d&amp;rsquo;information est vague, ou encore parce qu&amp;rsquo;il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de noeuds pertinents à une requête orientée contenu &amp;lsquo;Content Only&amp;rsquo; composée de simples mots clés dans un corpus de documents XML en prenant en compte la pertinence contextuelle. Le processus de recherche que nous proposons repose sur une méthode de propagation de pertinence.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Annotation collective dans le contexte RI : définition d&#39;une plate-forme pour expérimenter la validation sociale.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.385/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.385/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Avec l&amp;rsquo;avènement du Web participatif, les lecteurs de documents électroniques sont de plus en plus actifs. En particulier, des systèmes d&amp;rsquo;annotation leur permettent de commen- ter, de reformuler, de critiquer, etc. des passages de documents. Les approches de RI qui ne considéraient jusqu&amp;rsquo;alors que le contenu des documents tendent actuellement à exploiter cette dimension participative du Web. L&amp;rsquo;activité des lecteurs (annotations et débats suscités) peut par exemple améliorer rappel et précision des résultats de RI. Dans des travaux précédents, nous suggérions de discriminer les annotations sur leur u validité sociale » (degré de confirmation exprimé par le groupe dans le débat associé) avant de les prendre en compte dans les processus de RI. Cet article décrit une plate-forme d&amp;rsquo;expérimentation visant à comparer les algorithmes de validation sociale proposés avec la perception humaine du consensus. Cette expérimentation toujours en cours a mobilisé 173 participants, les données recueillies sont en cours d&amp;rsquo;analyse.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Indexation de blocs extraits de pages Web en utilisant le rendu visuel.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.393/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.393/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Cet article présente un modèle d&amp;rsquo;indexation de pages Web basé sur leur rendu visuel. Dans ce modèle, une page Web n&amp;rsquo;est plus considérée comme un tout, mais comme la combinai- son d&amp;rsquo;un ensemble de blocs dont chacun porte sa sémantique propre. L&amp;rsquo;indexation d&amp;rsquo;une page Web est réalisée en deux étapes : (1) construction d&amp;rsquo;un arbre hiérarchique de blocs visuels, en s&amp;rsquo;appuyant sur la disposition visuelle des blocs de la page (2) indexation textuelle de chaque bloc par un vecteur de termes et tenant compte de l&amp;rsquo;importance de ces blocs et de l&amp;rsquo;indexation des blocs contenants, contenus ou voisins.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Alignement des ontologies : Utilisation de WordNet et une nouvelle mesure structurelle.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.401/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.401/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;L&amp;rsquo;interopérabilité sémantique entre sources d&amp;rsquo;information hétérogènes est une problématique importante du fait du nombre croissant de sources d&amp;rsquo;information disponibles sur le web. L&amp;rsquo;utilisation des ontologies est une voie très prometteuse pour permettre l&amp;rsquo;interopérabilité, seulement les ontologies eux même peuvent être hétérogènes. L&amp;rsquo;alignement des ontologies est le noyau de cette interopérabilité, cependant la génération automatique des correspondances entre deux ontologies est d&amp;rsquo;une extrême difficulté qui est dû aux divergences (conceptuelle, habitudes, etc.) entre communautés différentes de développement des ontologies. Ce travail est une proposition d&amp;rsquo;un algorithme d&amp;rsquo;alignement de deux ontologies de même domaine en utilisant différentes techniques, en particulier nous utilisons WordNet et nous introduisons une nouvelle mesure de similarité structurelle entre deux entités de deux ontologies déférentes qui est basée sur la position structurelle des entités à comparer au sein de leurs ontologies.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche multi-terminologique de l&#39;information de santé sur l&#39;Internet.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.409/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.409/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La recherche d&amp;rsquo;informations et des connaissances médicales devient de plus en plus facile et accessible sur Internet pour le professionnel de santé, l&amp;rsquo;étudiant, mais aussi pour le patient et le cyber citoyen. CISMeF (Catalogue et Index des Sites Médicaux Francophones) est un outil visant à cataloguer et indexer les sources les plus importantes d&amp;rsquo;information de santé institutionnelles en France afin de les mettre à disposition du public. L&amp;rsquo;indexation des ressources Internet est mono-terminologique du fait qu&amp;rsquo;elle soit fondée exclusivement sur le thésaurus MeSH (traduit par l&amp;rsquo;US National Library of Medicine). En 2007, l&amp;rsquo;équipe CISMeF oriente ses objectifs vers un univers multi-terminologique qui s&amp;rsquo;appuie sur un extracteur automatique multi-terminologique et le développement préindustriel d&amp;rsquo;un serveur multi- terminologique médical. Le projet de recherche d&amp;rsquo;information multi-terminologique a débuté par l&amp;rsquo;intégration d&amp;rsquo;une terminologie complémentaire du MeSH concernant les substances chimiques et nous projetons d&amp;rsquo;intégrer les terminologies médicales françaises (CCAM) et celles traduites en français (CIM-10, SNOMED) afin d&amp;rsquo;améliorer la recherche d&amp;rsquo;information de CISMeF dans un contexte hétérogène.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Un modèle de bibliothèque numérique collaborative - ARMARIUS.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.417/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.417/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d&amp;rsquo;assistance et d&amp;rsquo;espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manuscrits anciens numérisés : Armarius. Celui-ci fournit des interfaces d&amp;rsquo;annotation manuelle et semi-automatique. Il propose également un système d&amp;rsquo;assistance pour aider l&amp;rsquo;utilisateur à annoter et à exploiter les manuscrits. De plus, il contient un espace de travail collaboratif qui permet à un groupe d&amp;rsquo;utilisateurs de travailler sur un ensemble de documents.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Un modèle de recherche de fichiers personnels par contexte dans les systèmes d&#39;étiquetage.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.425/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.425/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Depuis peu, les étiquettes sont utilisées largement pour identifier des contenus aussi bien sur le bureau informatique des utilisateurs que sur les sites coopératifs du Web dit 2.0. Notre recherche se focalise sur l&amp;rsquo;organisation assistée des étiquettes personnelles afin d&amp;rsquo;améliorer la pertinence des recherches de fichiers personnels associés à des étiquettes. Notre proposition utilise la notion de contexte comme point central. Un contexte est constitué à partir d&amp;rsquo;un ensemble d&amp;rsquo;étiquettes affectées par un utilisateur à un fichier. Nous proposons une infrastructure qui permet à un utilisateur de naviguer à travers les contextes pour retrouver ses fichiers.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Fusion de ressources hétérogènes pour la recherche d&#39;information multilingue.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.433/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.433/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Afin d&amp;rsquo;améliorer la recherche multilingue dans le moteur de recherche Sinequa Engine, nous avons intégré les connaissances multilingues du service Sensagent au module de requêtes du moteur de recherche Sinequa Engine. L&amp;rsquo;interface développée propose une extension de la requête aux choix de l&amp;rsquo;utilisateur par traduction des différents mots dans les langues sélectionnées. Pour limiter le grand nombre de traductions que peut engendrer une requête complexe, nous avons déployé un filtrage sémantique par calcul vectoriel. L&amp;rsquo;ensemble de la chaîne de traitement repose fortement sur les ressources linguistiques de Sinequa. L&amp;rsquo;utilisation d&amp;rsquo;une ressource extérieure, si elle résout le problème de la seule traduction, pose des problèmes d&amp;rsquo;exploitation et d&amp;rsquo;adéquation des ressources entre elles, qui ne pourraient être résolus que par une vraie fusion des ressources.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Recherche d&#39;informations dans la blogosphère : Défis et premières évaluations.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.441/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.441/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Recourant au modèle vectoriel tf idf, ainsi qu&amp;rsquo;à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Basé sur deux mesures de performance, nous démontrons que l&amp;rsquo;absence d&amp;rsquo;enracineur s&amp;rsquo;avère plus efficace que d&amp;rsquo;autres approches (enracineur léger ou celui de Porter).&lt;/p&gt;&#xA;&lt;h1 id=&#34;abstract&#34;&gt;Abstract&lt;/h1&gt;&#xA;&lt;p&gt;This paper describes the main retrieval problems when facing with blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter&amp;rsquo;s stemmer).&lt;/p&gt;</description>
    </item>
    <item>
      <title>La fiabilité des informations sur le web: le cas Wikipédia.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.449/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.449/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Les outils de recherche d&amp;rsquo;information sur le web doivent tenir compte des phénomènes nouveaux liés à l&amp;rsquo;apparition des blogs, wikis, et autres publications collaboratives. Parmi ces sites, l&amp;rsquo;encyclopédie Wikipédia constitue une source importante d&amp;rsquo;information. La qualité de ses informations a pourtant été récemment mise en cause. Mieux connaître les comportements des contributeurs peut permettre de guider les utilisateurs dans des contenus de qualité parfois disparate. Pour explorer cette voie, nous présentons une analyse du rôle de différents types de contributeurs dans le contrôle de la publication d&amp;rsquo;articles conflictuels.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Evaluation des performances d&#39;un système de recherche d&#39;information utilisant un algorithme de segmentation thématique de pages Web.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.457/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.457/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous proposons une méthode de segmentation thématique de pages Web qui utilise à la fois des critères visuels et de format (balises &lt;HR&gt;, &lt;H1&gt;, couleur, &amp;hellip;)]]&amp;gt; afin d&amp;rsquo;extraire des segments thématiques. Nous utilisons la segmentation pour améliorer les performances d&amp;rsquo;un système de recherche d&amp;rsquo;information. Nous proposons de modéliser une fonction de correspondance qui tienne compte à la fois du contenu d&amp;rsquo;une page Web et du voisinage de cette page définis par les segments thématiques appelés blocs thématiques qui la référencent. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les blocs thématiques aux pages Web en fonction des termes de la requête contenus dans ces blocs thématiques. Notre approche montre de bons résultats sur la collecion TREC.&lt;/p&gt;</description>
    </item>
    <item>
      <title>REDENE - Recherche documentaire assistée par ontologies de domaine adaptatives.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.467/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.467/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La subjectivité des connaissances devient une dimension incontournable qui se doit d&amp;rsquo;être intégrée et prise en compte dans le processus d&amp;rsquo;Ingénierie des Ontologies (IO). Le projet REDENE est fondé (i) sur une formalisation des résultats obtenus en psychologie cognitive sur le fonctionnement de la mémoire humaine- en tenant compte des hypothèses établies dans le domaine des neurosciences- et (ii) sur l&amp;rsquo;intégration et l&amp;rsquo;exploitation d&amp;rsquo;un telle formalisation au sein des processus de recherche d&amp;rsquo;information basés sur l&amp;rsquo;usage d&amp;rsquo;ontologies.&lt;/p&gt;</description>
    </item>
    <item>
      <title>KWSim: Concepts Similarity Measure.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.475/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.475/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La comparaison des images médicales annotées manuellement peut être réalisée grâce à une comparaison lexicale entre des mots-clés ou en utilisant des thésaurus médicaux existants pour calculer une similarité sémantique entre ces mots. Dans cet article, nous présentons tout d&amp;rsquo;abord la mesure KW Sim, une technique entièrement automatisée pour le calcul de la similarité sémantique en mappant des concepts (mots-clés) aux différents thésaurus médicaux et en examinant le type de relation u is-a ». Une similarité entre les vecteurs de mots-clés est également présentée, basée sur la mesure KW Sim. Notre approche est implémentée en utilisant MeSH, ICD-10 et SNOMED CT thésaurus et comparée avec deux autres approches existantes. Nous illustrons notre méthode avec un assistant d&amp;rsquo;annotation en ligne et en temps réel.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Un système d&#39;aide à la recherche d&#39;information en ligne basé sur les ontologies (SA-RI-Onto).</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.483/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.483/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;La croissance très importante des informations disponibles sur Internet nécessite des outils de recherche de plus en plus performants permettant de discerner efficacement les informations intéressantes parmi des centaines voire des milliers de documents. Seulement, la qualité des résultats fournis par les moteurs de recherche traditionnels n&amp;rsquo;est pas toujours pertinente surtout quand il s&amp;rsquo;agit de composer plus d&amp;rsquo;une requête. Ceci est dû aux ambiguïtés linguistiques et aux concepts abstraits qui ne sont pas bien traités. L&amp;rsquo;utilisation de la sémantique et plus précisément des ontologies présente des atouts importants. L&amp;rsquo;objectif de cet article est de montrer l&amp;rsquo;apport des ontologies dans la recherche d&amp;rsquo;information en ligne. Ainsi, un système d&amp;rsquo;aide à la recherche d&amp;rsquo;information en ligne basé sur les ontologies est proposé. Ce système est composé de deux ontologies :une ontologie de domaine et une ontologie de services ainsi que WordNet, pour représenter les concepts ainsi que les services de domaine. La contribution de ces ontologies pour améliorer la recherche d&amp;rsquo;information en ligne est montrée par la proposition et l&amp;rsquo;expérimentation d&amp;rsquo;un système de recherche d&amp;rsquo;information en ligne basé sur les ontologies.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Approche par réutilisation d&#39;annotations sémantiques pour la recherche d&#39;information sur le web.</title>
      <link>http://www.asso-aria.org/coria/2008/papers/coria.2008.491/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>http://www.asso-aria.org/coria/2008/papers/coria.2008.491/</guid>
      <description>&lt;h1 id=&#34;résumé&#34;&gt;Résumé&lt;/h1&gt;&#xA;&lt;p&gt;Dans cet article, nous présentons une nouvelle approche d&amp;rsquo;aide à la recherche d&amp;rsquo;information sur le web. Elle a pour objectif de présenter à l&amp;rsquo;utilisateur courant des documents réponses pertinents pour sa requête et adaptés à son profil. Elle consiste à utiliser le mécanisme du Raisonnement à Partir de Cas (RàPC) pour mémoriser les sessions de recherche effectuées par les utilisateurs (profil utilisateur, requête, annotation d&amp;rsquo;un document pertinent, date) et à les réutiliser lorsqu&amp;rsquo;une session de recherche similaire se présente. La réutilisation des annotations au cours d&amp;rsquo;une session courante, permet en outre de reformuler automatiquement la requête courante en vue d&amp;rsquo;améliorer la qualité des réponses pour la session courante. Nos propositions ont été validées et testées par le développement du système SYRANNOT implémenté en java, utilisant l&amp;rsquo;infrastructure JENA (hp) et se servant de Google. Les premières évaluations expérimentales montrent une nette amélioration des résultats proposés par notre système relativement à google.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
