Title: Utilisation raisonn
1Utilisation raisonnée de connaissances
sémantiques pour la Recherche dInformation
- Le cas de lexpansion de requêtes par voisins
distributionnels - Mardi 11 Octobre 2005
- Aurélie Picton
2Plan
- Contexte de lexpérimentation
- Outils
- Démarche et Résultats
- Discussion
- Perspectives
3Contexte de lexpérimentation
4Projet ARIEL
- ARIEL Adaptation dune chaîne de Recherche
dInformation à lExpression des besoins sur la
base de traitements Linguistiques. - Collaboration IRIT/ERSS
- Complémentarité des connaissances des domaines
informatiques et linguistiques - Étude de différentes techniques et ressources
linguistiques pour la Recherche dInformation
5Problématique (?)
- La requête quelques mots clefs (moyenne 2.21
selon Jansen, Spink et Saracevic, 2000) - Ex Révolte au Chiapas
- Problème souvent incomplet ou inadéquat
- Traitement possible lexpansion de requêtes
6Définition
- lexpansion de requêtes
- Â A process of adding new terms to a given query
in attempt to provide better contextualization
(and hopefully retrieve documents which are more
useful to the user)Â (Baeza-Yates, Ribeiro-Neto,
1999, p449).
7Objectif
- Mise en place dun premier contexte
dexpérimentation dexpansion de requêtes par
ressources linguistiques - Reproductible
- Ressources inédites les voisins
distributionnels - Les données issues de lanalyse distributionnelle
automatique sont-elles de bonnes candidates dans
le cadre de lexpansion de requêtes?
8Outils
9Upery outil danalyse distributionnelle
automatique (1)
- Analyse Distributionnelle (Z.S. Harris)
-  On peut décrire toute langue par une structure
distributionnelle, cest-Ã -dire par loccurrence
des parties (et, en dernière analyse, des sons),
relativement les unes aux autres, et cette
description nexige pas que lon fasse appel Ã
dautres caractéristiques, telles que lhistoire
ou le sens. ( La Structure Distributionnelle ,
1952, repris par D. Maingueneau, 1991, p71).
10Upery (2)
- Lanalyse distributionnelle automatique
-  Rapprochement des couples dunités retrouvées
dans des contextes syntaxiques identiques - Analyse syntaxique dun gros corpus (LM10) avec
Syntex (D. Bourigault et al., 2005) - Prédicats qui se construisent avec les mêmes
arguments et vice-versa - Exemple troupe/intervention envoi des troupes
en Tchétchénie, intervention en Tchétchénie,
troupes russes, intervention russe
11Plate-forme RFIEC
- Plate-forme RFIEC (Recherche dinformation,
Filtrage dInformation, Extraction de
Connaissances) - Développée dans le cadre du projet ARIEL
- www.irit.fr/RFIEC
- Modules paramétrables
- Indexation de requêtes
- Recherche et Évaluation évaluation  à la
TRECÂ
12Démarche et Résultats
13Données
- Corpus
- Corpus CLEF 2001 (français)
- Collection 45000 documents Le Monde 94
- 50 requêtes CLEF associées
- 44 exploitables et exploitées
- 2 sources de voisins
- Adgc et Upery 4
- Traitement (par défaut)
- Suppression des mots vides (liste par défaut)
- Troncation à 7
- Suppression des accents
- Principalement sur les requêtes Titres
14Exemple de requête expansée
- Requête 80 Totale DF 20.10
- ltnumgt80 lt/numgt
- lttitlegt Grèves de la faim Grèves de la
faimlt/titlegt - ltdescgt Les documents contiendront des
informations sur une grève de faim menée afin
d'attirer l'attention pour une cause. Les
documents contiendront des informations sur une
grève de faim menée afin d'attirer l'attention
pour une cause. lt/descgt - ltnarrgt Donner des exemples où la grève de la faim
a été menée. Faire part également des raisons de
la grève et de ce qu'il en est résulté. Donner
des exemples où la grève de la faim a été menée.
Faire part également des raisons de la grève et
de ce qu'il en est résulté.  - lt/narrgt
reclame commenc present refugie harcele observe ex
pulse neutral reserve effectu
15Démarche (1)
- Comparaison des résultats
- Précision à 5, 10, 15, 20, Moyenne P5-20
- Recherche de base
- Blind Feedback ( Retour à laveugle )
- Expansion à partir de t termes sélectionnés dans
les n premiers textes ramenés lors dune
recherche de base
16Démarche (2)
- 3 Hypothèses
- Hypothèse 1 aucune sélection
- Adgc sans sélection
- Upery sans sélection
- Hypothèse 2 sur bases linguistiques
- Upery sans V
- Upery sans A
- Hypothèse 3
- Feedback Distributionnel (DF)
- Expansion à partir de t voisins sélectionnés dans
les n premiers textes ramenés lors dune
recherche de base
- Upery V seuls
- Upery N seuls
17Résultats (RequêtesTitre) (1)
Recherche de Base
Blind Feedback
18Résultats (RequêtesTitre) (2)
 BF Adgc sans sélection DF
Nombre de requêtes améliorées 10
Nombre de requêtes dégradées 21
5 11
25 12
 BF Adgc sans sélection DF
Valeur moyenne Gain 0,1029
Valeur moyenne Perte -0,0623
0,0692 0,0663
-0,1917 -0,1215
- Valeurs maximales de Gain/Perte
 BF Adgc sans sélection DF
Valeur maximale de gain 0,2083
Valeur maximale de perte -0,2375
0,1083 0,1667
-0,6292 -0,5042
19Discussion
20Remarques générales
- Dégradation des performances
- MAIS
- Résultats sur la moyenne masquent certaines
performances (C. De Loupy, 2000) - Observation locale des requêtes pour trouver des
comportements généralisables?
21Observation locale
- Certaines requêtes sont améliorées/dégradées
- Pourquoi?
- Difficile à dire à ce stade
- Pas assez de textes pertinents par requêtes
- Jeu de requêtes restreint
22Analyse statistique
- Nombre de méthodes dexpansion qui entraînent une
modification - Ampleur de la modification
- Observation  statistique Analyse en
Composantes Principales
- Pas dhomogénéité apparente
- Mise au jour de comportements isolés non
généralisables
23Expansion quelques observations
- Des explications ad hoc
- Invasion des troupes russes en Tchéchénie
gtTchétchène - Laffaire du sang contaminé gt séropositif
- Le poids
- et éthique
- Catégories grammaticales
- Adjectifs Intervention des troupes russes gt
israélien allemand italien américain chinois
européen étranger britannique local français
espagnol régional irakien anglais national
bosniaque japonais occidental serbe iranien
algérien palestinien belge militaire
international indépendant tchétchène turque arabe
croate indien africain serbe libanais, etc.
Clonage
24Sources dexpansion
- Répartition selon la source de lexpansion?
- Opposition des résultats Adgc et Upery sur
certaines requêtes - Appuyé par une Classification Ascendante
Hiérarchique
- Mais toujours
- Existe-t-il des caractéristiques généralisables
au niveau des requêtes qui permettent de prédire
lefficacité et dadapter lexpansion ?
25Perspectives
26Perspectives (1)
- De nouvelles données
- Vers des requêtes totales
- Premiers résultats encourageants sur DF
- Plus de requêtes, plus de textes
- De nouveaux voisins
- Évolution dUpery (D. Bourigault E. Galy, 2005)
27Perspectives (2)
- De nouvelles possibilités sur la plate-forme
- Lemmatisation, conservation des accents
- Vers des corrélations de traits
- Travaux de M. Vergez-Couret
28Éléments bibliographiques
- BAEZA-YATES, R. B. RIBEIRO-NETO (1999), Modern
Information Retrieval, ACM Press, Addison Wesley,
New York. - BOURIGAULT, D. (2002) Â UPERYÂ un outil
danalyse distributionnelle étendue pour la
consultation dontologies à partir de corpus ,
In Actes de la 9ème conférence annuelle sur le
Traitement Automatique des Langues (TALN 2002),
Nancy, pp75-84. - BOURIGAULT, D. E. GALY (2005) Â Les Voisins de
Le Monde Une base lexicale distributionnelle du
français construite à partir d'un gros corpus ,
Communication orale, In 4èmes Journées de
Linguistique de corpus, Lorient,15-17 septembre
2005. - BOURIGAULT D., FABRE C., FRÉROT C., JACQUES M.-P.
S. OZDOWSKA (2005) Â Syntex, analyseur
syntaxique de corpus , In Actes de la 12e
conférence annuelle sur le Traitement Automatique
des Langues (TALN 2005), Dourdan, 6-10 juin
2005. - DE LOUPY, C. (2000), Évaluation de l'apport de
connaissances linguistiques en désambiguïsation
sémantique et recherche documentaire, Thèse de
doctorat en informatique de l'Université
d'Avignon et des Pays de Vaucluse. - EFTHIMIADIS, E.N. (1996)  Query expansion , In
Williams, M.E. (ed.), Annual Revieew of
Information Systems and Technology (ARIST),
volume 31, pp121-187. - GREFENSTETTE, G. (1992) Â Use of syntactic
context to produce term association lists for
information retrieval , In Actes de la 15ème
Conférence Annuelle Internationale ACM-SIGIR sur
la Recherche et le Développement en Recherche
dInformation,(SIGIR), pages 8997. - GREFENSTETTE, G. (1994), Exploration in Automatic
Thesaurus Discovery, Kluwer Academic Publishers,
Londres. - HARRIS, Z.S. (1968) Mathematical Structures of
Language, New-York, John Wiley Sons. - JANSEN, B.J., SPINK, A. SARACEVIC, T. (2000)
 Real Life, Real Users, and Real Needs A Study
and Analysis of User Queries on the Web , In
Information Processing Management, volume
36(2), pp207-227. - SALTON, G. C., BUCKLEY (1990) Â Improving
retrieval performance by relevance feedback , In
Journal of the American Society for Information
Sciences, volume 41(4), pp288-297. - MAINGUENEAU, D. (1991) Lanalyse du discoursÂ
introduction aux lectures de larchive, Hachette,
Paris. - VOORHEES, E. (1993) Â On expanding query vectors
with lexically related words , In Donna K.
Harman (ed.), TREC-2 (Text REtrieval Conference),
pp223-231. - VOORHEES, E.M. (1994) Â Query expansion using
lexical-semantic relations , In Actes de la
17ème Conférence Annuelle Internationale
ACM-SIGIR sur la Recherche et le Développement en
Recherche dInformation, Dublin, Irlande,
pp61-69.