Utilisation raisonn - PowerPoint PPT Presentation

1 / 28
About This Presentation
Title:

Utilisation raisonn

Description:

Utilisation raisonn e de connaissances s mantiques pour la Recherche d Information Le cas de l expansion de requ tes par voisins distributionnels – PowerPoint PPT presentation

Number of Views:12
Avg rating:3.0/5.0
Slides: 29
Provided by: Aur47
Category:

less

Transcript and Presenter's Notes

Title: Utilisation raisonn


1
Utilisation raisonnée de connaissances
sémantiques pour la Recherche dInformation
  • Le cas de lexpansion de requêtes par voisins
    distributionnels
  • Mardi 11 Octobre 2005
  • Aurélie Picton

2
Plan
  • Contexte de lexpérimentation
  • Outils
  • Démarche et Résultats
  • Discussion
  • Perspectives

3
Contexte de lexpérimentation
4
Projet ARIEL
  • ARIEL Adaptation dune chaîne de Recherche
    dInformation à lExpression des besoins sur la
    base de traitements Linguistiques.
  • Collaboration IRIT/ERSS
  • Complémentarité des connaissances des domaines
    informatiques et linguistiques
  • Étude de différentes techniques et ressources
    linguistiques pour la Recherche dInformation

5
Problématique (?)
  • La requête quelques mots clefs (moyenne 2.21
    selon Jansen, Spink et Saracevic, 2000)
  • Ex Révolte au Chiapas
  • Problème souvent incomplet ou inadéquat
  • Traitement possible lexpansion de requêtes

6
Définition
  • lexpansion de requêtes
  •  A process of adding new terms to a given query
    in attempt to provide better contextualization
    (and hopefully retrieve documents which are more
    useful to the user)  (Baeza-Yates, Ribeiro-Neto,
    1999, p449).

7
Objectif
  • Mise en place dun premier contexte
    dexpérimentation dexpansion de requêtes par
    ressources linguistiques
  • Reproductible
  • Ressources inédites les voisins
    distributionnels
  • Les données issues de lanalyse distributionnelle
    automatique sont-elles de bonnes candidates dans
    le cadre de lexpansion de requêtes?

8
Outils
9
Upery outil danalyse distributionnelle
automatique (1)
  • Analyse Distributionnelle (Z.S. Harris)
  •  On peut décrire toute langue par une structure
    distributionnelle, cest-à-dire par loccurrence
    des parties (et, en dernière analyse, des sons),
    relativement les unes aux autres, et cette
    description nexige pas que lon fasse appel à
    dautres caractéristiques, telles que lhistoire
    ou le sens.  ( La Structure Distributionnelle ,
    1952, repris par D. Maingueneau, 1991, p71).

10
Upery (2)
  • Lanalyse distributionnelle automatique
  •  Rapprochement des couples dunités retrouvées
    dans des contextes syntaxiques identiques 
  • Analyse syntaxique dun gros corpus (LM10) avec
    Syntex (D. Bourigault et al., 2005)
  • Prédicats qui se construisent avec les mêmes
    arguments et vice-versa
  • Exemple troupe/intervention envoi des troupes
    en Tchétchénie, intervention en Tchétchénie,
    troupes russes, intervention russe

11
Plate-forme RFIEC
  • Plate-forme RFIEC (Recherche dinformation,
    Filtrage dInformation, Extraction de
    Connaissances)
  • Développée dans le cadre du projet ARIEL
  • www.irit.fr/RFIEC
  • Modules paramétrables
  • Indexation de requêtes
  • Recherche et Évaluation évaluation  à la
    TREC 

12
Démarche et Résultats
13
Données
  • Corpus
  • Corpus CLEF 2001 (français)
  • Collection 45000 documents Le Monde 94
  • 50 requêtes CLEF associées
  • 44 exploitables et exploitées
  • 2 sources de voisins
  • Adgc et Upery 4
  • Traitement (par défaut)
  • Suppression des mots vides (liste par défaut)
  • Troncation à 7
  • Suppression des accents
  • Principalement sur les requêtes Titres

14
Exemple de requête expansée
  • Requête 80 Totale DF 20.10
  • ltnumgt80 lt/numgt
  • lttitlegt Grèves de la faim Grèves de la
    faimlt/titlegt
  • ltdescgt Les documents contiendront des
    informations sur une grève de faim menée afin
    d'attirer l'attention pour une cause. Les
    documents contiendront des informations sur une
    grève de faim menée afin d'attirer l'attention
    pour une cause. lt/descgt
  • ltnarrgt Donner des exemples où la grève de la faim
    a été menée. Faire part également des raisons de
    la grève et de ce qu'il en est résulté. Donner
    des exemples où la grève de la faim a été menée.
    Faire part également des raisons de la grève et
    de ce qu'il en est résulté.  
  • lt/narrgt

reclame commenc present refugie harcele observe ex
pulse neutral reserve effectu
15
Démarche (1)
  • Comparaison des résultats
  • Précision à 5, 10, 15, 20, Moyenne P5-20
  • Recherche de base
  • Blind Feedback ( Retour à laveugle )
  • Expansion à partir de t termes sélectionnés dans
    les n premiers textes ramenés lors dune
    recherche de base

16
Démarche (2)
  • 3 Hypothèses
  • Hypothèse 1 aucune sélection
  • Adgc sans sélection
  • Upery sans sélection
  • Hypothèse 2 sur bases linguistiques
  • Upery sans V
  • Upery sans A
  • Hypothèse 3
  • Feedback Distributionnel (DF)
  • Expansion à partir de t voisins sélectionnés dans
    les n premiers textes ramenés lors dune
    recherche de base
  • Upery V seuls
  • Upery N seuls

17
Résultats (RequêtesTitre) (1)
Recherche de Base
Blind Feedback
18
Résultats (RequêtesTitre) (2)
  • Requêtes modifiées

  BF Adgc sans sélection DF
Nombre de requêtes améliorées 10
Nombre de requêtes dégradées 21
5 11
25 12
  • Moyennes de Gain/Perte

  BF Adgc sans sélection DF
Valeur moyenne Gain 0,1029
Valeur moyenne Perte -0,0623
0,0692 0,0663
-0,1917 -0,1215
  • Valeurs maximales de Gain/Perte

  BF Adgc sans sélection DF
Valeur maximale de gain 0,2083
Valeur maximale de perte -0,2375
0,1083 0,1667
-0,6292 -0,5042
19
Discussion
20
Remarques générales
  • Dégradation des performances
  • MAIS
  • Résultats sur la moyenne masquent certaines
    performances (C. De Loupy, 2000)
  • Observation locale des requêtes pour trouver des
    comportements généralisables?

21
Observation locale
  • Certaines requêtes sont améliorées/dégradées
  • Pourquoi?
  • Difficile à dire à ce stade
  • Pas assez de textes pertinents par requêtes
  • Jeu de requêtes restreint

22
Analyse statistique
  • Nombre de méthodes dexpansion qui entraînent une
    modification
  • Ampleur de la modification
  • Observation  statistique  Analyse en
    Composantes Principales
  • Pas dhomogénéité apparente
  • Mise au jour de comportements isolés non
    généralisables

23
Expansion quelques observations
  • Des explications ad hoc
  • Invasion des troupes russes en Tchéchénie
    gtTchétchène
  • Laffaire du sang contaminé gt séropositif
  • Le poids
  • et éthique
  • Catégories grammaticales
  • Adjectifs Intervention des troupes russes gt
    israélien allemand italien américain chinois
    européen étranger britannique local français
    espagnol régional irakien anglais national
    bosniaque japonais occidental serbe iranien
    algérien palestinien belge militaire
    international indépendant tchétchène turque arabe
    croate indien africain serbe libanais, etc.

Clonage
24
Sources dexpansion
  • Répartition selon la source de lexpansion?
  • Opposition des résultats Adgc et Upery sur
    certaines requêtes
  • Appuyé par une Classification Ascendante
    Hiérarchique
  • Mais toujours
  • Existe-t-il des caractéristiques généralisables
    au niveau des requêtes qui permettent de prédire
    lefficacité et dadapter lexpansion ?

25
Perspectives
26
Perspectives (1)
  • De nouvelles données
  • Vers des requêtes totales
  • Premiers résultats encourageants sur DF
  • Plus de requêtes, plus de textes
  • De nouveaux voisins
  • Évolution dUpery (D. Bourigault E. Galy, 2005)

27
Perspectives (2)
  • De nouvelles possibilités sur la plate-forme
  • Lemmatisation, conservation des accents
  • Vers des corrélations de traits
  • Travaux de M. Vergez-Couret

28
Éléments bibliographiques
  • BAEZA-YATES, R. B. RIBEIRO-NETO (1999), Modern
    Information Retrieval, ACM Press, Addison Wesley,
    New York.
  • BOURIGAULT, D. (2002)  UPERY  un outil
    danalyse distributionnelle étendue pour la
    consultation dontologies à partir de corpus ,
    In Actes de la 9ème conférence annuelle sur le
    Traitement Automatique des Langues (TALN 2002),
    Nancy, pp75-84.
  • BOURIGAULT, D. E. GALY (2005)  Les Voisins de
    Le Monde  Une base lexicale distributionnelle du
    français construite à partir d'un gros corpus ,
    Communication orale, In 4èmes Journées de
    Linguistique de corpus, Lorient,15-17 septembre
    2005.
  • BOURIGAULT D., FABRE C., FRÉROT C., JACQUES M.-P.
    S. OZDOWSKA (2005)  Syntex, analyseur
    syntaxique de corpus , In Actes de la 12e
    conférence annuelle sur le Traitement Automatique
    des Langues (TALN 2005), Dourdan, 6-10 juin
    2005.
  • DE LOUPY, C. (2000), Évaluation de l'apport de
    connaissances linguistiques en désambiguïsation
    sémantique et recherche documentaire, Thèse de
    doctorat en informatique de l'Université
    d'Avignon et des Pays de Vaucluse.
  • EFTHIMIADIS, E.N. (1996)  Query expansion , In
    Williams, M.E. (ed.), Annual Revieew of
    Information Systems and Technology (ARIST),
    volume 31, pp121-187.
  • GREFENSTETTE, G. (1992)  Use of syntactic
    context to produce term association lists for
    information retrieval , In Actes de la 15ème
    Conférence Annuelle Internationale ACM-SIGIR sur
    la Recherche et le Développement en Recherche
    dInformation,(SIGIR), pages 8997.
  • GREFENSTETTE, G. (1994), Exploration in Automatic
    Thesaurus Discovery, Kluwer Academic Publishers,
    Londres.
  • HARRIS, Z.S. (1968) Mathematical Structures of
    Language, New-York, John Wiley Sons.
  • JANSEN, B.J., SPINK, A. SARACEVIC, T. (2000)
     Real Life, Real Users, and Real Needs  A Study
    and Analysis of User Queries on the Web , In
    Information Processing Management, volume
    36(2), pp207-227.
  • SALTON, G. C., BUCKLEY (1990)  Improving
    retrieval performance by relevance feedback , In
    Journal of the American Society for Information
    Sciences, volume 41(4), pp288-297.
  • MAINGUENEAU, D. (1991) Lanalyse du discours 
    introduction aux lectures de larchive, Hachette,
    Paris.
  • VOORHEES, E. (1993)  On expanding query vectors
    with lexically related words , In Donna K.
    Harman (ed.), TREC-2 (Text REtrieval Conference),
    pp223-231.
  • VOORHEES, E.M. (1994)  Query expansion using
    lexical-semantic relations , In Actes de la
    17ème Conférence Annuelle Internationale
    ACM-SIGIR sur la Recherche et le Développement en
    Recherche dInformation, Dublin, Irlande,
    pp61-69.
Write a Comment
User Comments (0)
About PowerShow.com