Association Francophone de Recherche d'Information et Applications

Association Francophone de Recherche d'Information et Applications http://www.asso-aria.org/coria/2004/papers/ Recent content on Association Francophone de Recherche d'Information et Applications Hugo -- gohugo.io fr Apprentissage par renforcement dans un système de filtrage adaptatif. http://www.asso-aria.org/coria/2004/papers/coria.2004.27/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.27/ Résumé Cet article présente une méthode incrémentale d’apprentissage des profils dans les systèmes de filtrage d’information. Cette méthode est basée sur le principe de renforcement. L’idée de base consiste à construire, à chaque arrivée d’un document pertinent, un profil ’ provisoire ’ permettant de sélectionner le document en question avec un score ’ fort ‘, puis intégrer ce profil, grâce à une descente de gradient, dans le profil global. Cette méthode est comparée à une version incrémentale de l’algorithme de Rocchio adapté au filtrage d’information. Regroupements non-disjoints de mots pour la classification de documents. http://www.asso-aria.org/coria/2004/papers/coria.2004.41/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.41/ Résumé La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article, nous proposons une méthode de regroupement de mots, basée sur l’algorithme PoBOC (Pole-Based Overlapping Clustering) autorisant les recouvrements entre les groupes. Apprentissage de Relations entre Concepts - Génération Automatique d'une Structuration Hiérarchique à partir de Corpus. http://www.asso-aria.org/coria/2004/papers/coria.2004.57/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.57/ Résumé Nous étudions comment apprendre automatiquement à partir de corpus, des hiérarchies de concepts obéissant à une relation du type généralisation / spécialisation. Nous proposons une méthode qui permet à partir de concepts identifiés automatiquement sur un corpus de documents, d’apprendre des relations généralisation / spécialisation à partir de cooccurrence de ces concepts, puis de construire une hiérarchie ordonnée suivant cette même relation. A titre d’application, nous montrons comment utiliser cette hiérarchie de concepts pour construire une hiérarchie de documents. Corpus-Based vs. Model-Based Selection of Relevant Features. http://www.asso-aria.org/coria/2004/papers/coria.2004.75/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.75/ Résumé Le travail que nous présentons ici a pour but la comparaison de méthodes de sélection Abstract In this contribution, we review a number of approaches to feature selection, divided in two broad classes. Some are corpus-based, ie they use only the data to assess the relevance of each feature, and aim at identifying a small subset of relevant features on which to train categorisation models. Others are model-based, ie they assess the relevance of each feature on the basis of the model used for categorisation. Expansion de requêtes par apprentissage automatique dans un assistant pour la recherche d'information. http://www.asso-aria.org/coria/2004/papers/coria.2004.89/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.89/ Résumé Les outils disponibles de recherche d’information sur le Web ont une approche généraliste, ne prenant pas en compte les caractéristiques de l’utilisateur, ce qui limite la qualité des résultats qu’ils sont susceptibles de fournir. Le système AIRA présenté ici utilise les références documentaires rassemblées par l’utilisateur pour construire un profil le représentant, exploité pour interpréter et filtrer les résultats proposés par les moteurs de recherche. Dans cet article nous nous focalisons sur un algorithme d’expansion de requêtes à l’aide de techniques de l’apprentissage machine, et sur les problèmes par l’évaluation de cette famille de systèmes. Interface pour l'évaluation de systèmes de recherche sur des documents XML. http://www.asso-aria.org/coria/2004/papers/coria.2004.109/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.109/ Résumé L’évaluation des systèmes de Recherche d’Information est depuis le début un des piliers de l’évolution de ce domaine. La qualité de l’évaluation est d’une importance capitale puisqu’elle permet de discriminer les différents modèles entre eux. Il est donc primordial de pouvoir constituer des corpus où les questions et leurs jugements de pertinence associés sont de qualité. Alors qu’avec des documents plats les méthodes sont bien établies, ce n’est plus le cas avec des documents structurés de type XML. XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML. http://www.asso-aria.org/coria/2004/papers/coria.2004.121/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.121/ Résumé Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d’autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l’information qu’ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s’affrontent pour la recherche d’information (RI) dans des documents XML. La première est basée sur des méthodes issues de la communauté des bases de données, alors que la seconde étend des techniques utilisées pour RI traditionnelle et permet d’associer des valeurs de pertinences aux unités d’information retournées. Modelling XML retrieval with belief functions. http://www.asso-aria.org/coria/2004/papers/coria.2004.143/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.143/ Résumé Dans cet article, nous nous intéressons à la recherche de documents XML. Un cadre générique qui permet la représentation de connaissances partielles dans les processus d’indexation et de recherche est tout d’abord présenté. Ce modèle est basé sur la théorie des fonctions de croyance et permet de décrire plusieurs formes d’incertitude sur le contenu et la structure des documents XML. Par ce biais, la méthodologie autorise l’utilisation de requêtes qui permettent la spécification de contraintes sur la structure des documents recherchés. Contexte et sémantique pour une indexation de documents semi-structurés. http://www.asso-aria.org/coria/2004/papers/coria.2004.161/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.161/ Résumé Les documents semi-structurés comme les documents XML présentent l’avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l’information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d’exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d’Information (RI) n’utilisent pas ou peu la structure des documents alors que les langages de requête issus de la communauté Bases de Données (BD) n’exploitent pas le contenu textuel et ne permettent pas une présentation des résultats par ordre de pertinence. Grammatical Inference and Textual Information Extraction. http://www.asso-aria.org/coria/2004/papers/coria.2004.179/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.179/ Résumé L’objectif de l’Extraction de Connaissances Textuelles (ECT) est la recherche de mo- tifs intéressants dans les documents. La plupart des techniques employées dans ce domaine n’utilisent pas la structure linguistique, étant donnée le coût d’une analyse morpho-syntaxique (complète) et l’absence du respect des règles grammaticale (langue naturelle) dans ces textes. Dans ce contexte, l’Inférence Grammaticale peut être utilisée pour extraire la structure d’un texte (ou de ses sous-languages) afin de permettre une recherche informée dans une base de données textuelles. Extraction d'information à partir d'articles médicaux. http://www.asso-aria.org/coria/2004/papers/coria.2004.197/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.197/ Résumé L’essentiel de l’information médicale est actuellement accessible dans diverses bibliothèques numériques ou sur le Web. Toutefois, l’usager désire parfois obtenir une information précise mais perdue dans un document spécifique. Dans cet article, nous proposons une approche automatique à ce problème d’extraction d’information. A partir du titre et du résumé d’articles médicaux touchant le domaine de la génétique, notre système s’avère capable d’y extraire le descripteur caractérisant un gène spécifique. Notre stratégie d’extraction, basée sur la régression logistique, a été évaluée sur un corpus de documents lié au forum d’évaluation TREC et a démontré une performance supérieure à la moyenne. Apprentissage non-supervisé pour la segmentation automatique de textes. http://www.asso-aria.org/coria/2004/papers/coria.2004.213/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.213/ Résumé Nous proposons dans cet article une approche basée sur des techniques d’appren- tissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l’entité textuelle de base. Notre système découvre d’abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est en- suite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l’efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de Recherche de la pertinence et de la nouveauté dans les textes. http://www.asso-aria.org/coria/2004/papers/coria.2004.229/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.229/ Résumé Les systèmes de recherche d’information s’intéressent à retrouver les documents pertinents par rapport à un besoin défini par un utilisateur. Certains systèmes se sont intéressés à mieux répondre au besoin de l’utilisateur en considérant un niveau de granularité plus petit que le document. Dans ces systèmes, les informations restituées à l’utilisateur ne correspondent pas aux documents mais aux passages susceptibles de correspondre au besoin exprimé. Cet article répond à la double tâche proposée dans le programme TREC : rechercher les passages pertinents et ceux qui apportent de la nouveauté. Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web. http://www.asso-aria.org/coria/2004/papers/coria.2004.249/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.249/ Résumé Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d’information que l’utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n’as pas toujours un sens, car il s’agit uniquement d’une contrainte physique. Dans la réalité, l’utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d’un noeud comme unité de base. Recherche bilingue et multilingue d'information. http://www.asso-aria.org/coria/2004/papers/coria.2004.271/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.271/ Résumé Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l’efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s’avère moins bonne que l’être humain. X-IOTA: Une plateforme distribuée ouverte pour l'expérimentation en Recherche d'Information. http://www.asso-aria.org/coria/2004/papers/coria.2004.287/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.287/ Résumé Réaliser des expérimentations en Recherche d’Information est une activité lourde car nécessitant à la fois des outils rapides pour traiter des collections de taille significative, mais également des outils flexibles pour laisser le plus de latitude possible au champ de l’expérimen- tation. Le système X-IOTA a été développé pour répondre tout particulièrement au critère de flexibilité et donc pour favoriser la mise en place rapide d’expérimentations variées introduisant des aspects traitement de la langue. Recherche et filtrage d'information dans des transcriptions de conversations. http://www.asso-aria.org/coria/2004/papers/coria.2004.307/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.307/ Résumé Nous nous intéressons dans cet article au problème de l’indexation de documents audio de type u conversation téléphonique ». Nous nous interrogeons en particulier sur le bien fondé de l’utilisation, pour ce type de documents, des méthodes d’indexation classiquement utilisées en recherche d’information textuelle. Pour répondre à ces questions, nous revisitons certaines hypothèses de la recherche d’information en étudiant la spécificité et l’applicabilité de ces hypothèses à des transcriptions de conversations téléphoniques. Audiovisual production invariant searching. http://www.asso-aria.org/coria/2004/papers/coria.2004.333/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.333/ Résumé La recherche de l’information non textuelle est un point fondamental dans l’industrie audiovisuelle où les besoins d’outils pour manipuler des contenus multimédia sont importants et diversifiés. Dans les documents vidéo, l’extraction de signature de style est un procédé extrêmement intéressant, puisqu’il fournit une nouvelle caractéristique pour la classification de contenus. Les documents vidéo peuvent avoir des caractéristiques et des propriétés très différentes. Cependant, on peut identifier des points communs à toutes les émissions politiques, ou toutes les retransmissions de matchs de football, ou encore tous les films réalisés par un même réalisateur. Vers un passage à l'échelle pour un SGBD d'images. http://www.asso-aria.org/coria/2004/papers/coria.2004.347/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.347/ Résumé Un système de gestion de bases d’images doit a priori s’appuyer sur un système de gestion de bases de données (SGBD). Dans cet article, nous examinons expérimentalement les limitations des SGBD relationnels. Nous identifions ainsi un certain nombre d’écueils et apportons Abstract An image database system should use a database management system (DBMS). In this paper, we experiment relational DBMS limitations for such a purpose. We identify a number of pitfalls and provide some solutions too. Query by Example for Symbolic Still Image Retrieval. http://www.asso-aria.org/coria/2004/papers/coria.2004.363/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.363/ Résumé Cet article décrit et défini l’utilisation de requêtes par l’exemple (QBE) dans le cadre de recherche symbolique d’images photographiques. La nouveauté de cette approche consiste en l’utilisation conjointe d’indexation symbolique automatique et d’un formalisme de représentation de connaissances pour représenter le contenu des images. De plus, le mécanisme d’abstraction perm la recherche d’images par l’exemple et le bouclage de pertinence basés sur la représentation symbolique des images, et pas sur leur description signal de bas niveau. COCoFil: une plateforme de filtrage collaboratif orientée vers la communauté. http://www.asso-aria.org/coria/2004/papers/coria.2004.9/ Mon, 01 Jan 0001 00:00:00 +0000 http://www.asso-aria.org/coria/2004/papers/coria.2004.9/ Résumé Face à la quantité et la rapidité d’apparition de nouvelles informations au quotidien, l’utilisateur peut s’en remettre non seulement à des systèmes de filtrage d’information par le contenu mais aussi à des systèmes de filtrage collaboratif. Ainsi, il peut recevoir des recommandations grâce aux évaluations de la communauté des personnes partageant les mêmes centres d’intérêt. Cependant, l’utilisateur ne perçoit pas toujours favorablement le rapport coût-bénéfice que ce type de système apporte.