Title: Campagne dEvaluation de systmes de QuestionsRponses : EQueR
1Campagne dEvaluation de systèmes de
Questions-Réponses EQueR
- Brigitte Grau (LIR LIMSI)
2Recherche dinformation précise
- Besoin particulier
- requête précise une question en langage naturel
- Granularité de la réponse "passage retrieval"
Qui a tué Henri IV ?
3Extraction à partir de textes
Cest à Paris, rue de la Ferronnerie, quHenri
IV a rendu son dernier soupir Dautre part, on
peut rappeler que les rues encombrées et étroites
du Paris davant Haussmann étaient très
favorables aux guets-apens. La facilité avec
laquelle Ravaillac a pu poignarder Henri IV peut
paraître incroyable !
Qui a poignardé Henri IV ?
Qui a tué Henri IV ?
Où a été tué Henri IV ?
4Différents composants
Traitement des documents
Extraction de la réponse
Analyse des questions
Sélection de passages ou de phrases Analyse des
phrases Extraction des réponses Evaluation des
réponses
Etiquetage morpho-syntaxique Analyse
syntaxique Désambiguation Typage des
réponses Choix de mots pivots
Reconnaissance des entités nommées Sélection de
documents ou de passages Moteur de
recherche Constitution de la requête
5Approche linguistique
- Composants concernés
- Détermination du type de réponse
- Des entités nommées classiques à des catégories
spécialisées - Reformulation Web
- Ecriture de patrons dextraction liés au type
dinformation cherché - De patrons très figés à des règles de
reformulation - Appariement de représentations de phrase
(question/phrases candidates) - Fondée sur
- Etiquetage morpho-syntaxique
- Segmentation en groupe
- Analyse syntaxique
- Analyse sémantique
6Approches statistiques et apprentissage
- Composants concernés
- Sélection des documents
- Sélection de passages
- Apprentissage de patrons dextraction
- Evaluation de la réponse
- Un degré de confiance
7Connaissances
- Lexiques spécialisés pour entités nommées
- Bases de connaissances spécialisées
- Connaissances sémantiques générales
- Sources
- WordNet pour langlais
- Pour le français ?
- Connaissances
- Relations de dépendances hiérarchiques
- Relations de synonymie
- Règles de déduction modélisation des
définitions WordNet
8Evaluations existantes
- Etats-Unis TREC
- Tâche Q/A depuis TREC8 (1999)
- Europe CLEF
- Tâche Q/A depuis 2003, analogue à Trec
- Multilingue
- Japon NTCIR
- Tâche Q/A depuis 2003, analogue à Trec
- France EQuER
- Campagne en 2004
9Que doit-on évaluer ?
- La justesse de la réponse
- La concision et la complétude
- Ne pas trop en dire, mais dire tout ce qui est
nécessaire - La pertinence de la réponse
- La réponse peut être différente selon le contexte
- Linteraction avec l'utilisateur
- Le temps de réponse
- La facilité d'utilisation du système
? ? ? ? ?
10EQueR
- Organisateur ELDA (Paris)
- Responsable scientifique Brigitte Grau (LIMSI)
- Fournisseurs de corpus et doutils
- ELDA corpus général
- CISMEF corpus médical
- Systal / Pertimm moteur de recherche
- Participants
- 3 institutions privées France Télécom, Sinequa,
Synapse - 5 laboratoires publics
- Limsi-CNRS, LIA iSmart, STIM / AP-HP,
CEA, Université de Neuchâtel
11Présentation générale
- Objectifs
- Faire une photographie de létat de lart en
France - Permettre le développement de lactivité en
fournissant des corpus aux chercheurs - Trois tâches étaient prévues
- Tâche généraliste
- Tâche spécialisée , domaine spécifique
(médical) - Tâche généraliste Web ? abandonnée
- 2 types de réponses
- passages de 250 caractères
- réponses courtes
12Les corpus de documents
- Corpus général
- 1,5 Go environ (constitution ELDA)
- Articles, dépêches de presse et rapports
institutionnels - Le Monde (1992-2000)
- Le Monde Diplomatique (1992-2000)
- SDA (Schweitzeriche Depeschenagentur (1994-1995)
- Le Sénat (1996-2001)
- Corpus médical
- 50 Mo environ (constitution CISMEF/STIM) tirés
des sites Web - Articles scientifiques du domaine médical,
recommandations - Santé Canada
- Orphanet
- CHU Rouen
- FNLCC (Fédération Nationale de Lutte Contre le
Cancer)
13Corpus de questions
Taux fixé pour chaque type de question Selon les
sources extraction de balises de mots-clés ou
de titres
- 500 questions générales
- 407 questions factuelles
- Qui a écrit Germinal ?
- Emile Zola
- 31 questions de type liste
- Quels sont les 7 pays du G7 ?
- Allemagne, Canada, Etats-Unis, France,Grande-Breta
gne, Italie et Japon - 32 questions de type définition
- Qui est Alexander Popov ?
- Nageur russe
- 30 questions de type oui/non
- Existe-t-il une ligne de TGV Valenciennes-Paris ?
- OUI
- 200 questions médicales
- 81 questions factuelles
- Citer un traitement de la schyzophrénie.
- La neurochirurgie
- 25 questions de type liste
- Quels sont les 4 stades du cancer de lovaire ?
- 70 questions de type définition
- 24 questions de type oui/non
- Le mercure est-il un métal toxique ?
- OUI
14Déroulement de lévaluation
- Distribution des corpus de documents
- Tests des systèmes sur 1 semaine
- Distribution des questions et des documents
fournis par Pertimm pour chacune - Envoi des résultats (2 runs par tâche)
- Nombre de réponses permises
- Maximum 5 pour questions factuelles et de type
définition - 1 pour questions de type oui/non
- Maximum 20 pour les questions de type liste
- Evaluation des résultats par des juges humains
- 2 juges par run
- Un spécialiste pour tâche médicale
- 4 valeurs correct, incorrect, inexact, non
justifié
15Mesures
- 2 métriques utilisées
- MRR Moyenne de linverse du Rang (Mean
Reciprocal Rank) - Questions factuelles simples.
- Questions dont la réponse est une définition .
- Questions dont la réponse est oui/non .
- NIAP Précision moyenne (Non Interpolated
Average Precision) - Questions dont la réponse est une liste .
16Résultats (1)
- Tâche générale
- 7 participants
- Tâche spécialisée
- 5 participants
17Résultats (2)
18Comparaison avec lexistant
- Comparaison
- 5 Réponses courtes
- TREC10 (2001)
- NTCIR (2003)
- Meilleur système actuel sur langlais
- 83 de réponses correctes avec 1 seule réponse
fournie (TREC11)
19Bilan
- Constitution dun ensemble de données
- Ensemble des spécifications de la campagne,
corpus, outils et résultats. - But
- Permettre à nimporte quel industriel ou
académique de faire tourner son système dans des
conditions identiques afin de pouvoir évaluer
lui-même son système.
20Pour aller plus loin
- Pour améliorer les systèmes de question-réponse
- Selon les questions, différentes stratégies
possibles - Maîtriser la difficulté des questions
- Savoir quelle approche est meilleure quune autre
pour chaque composant - Connaître limpact dun composant sur le résultat
final - Question-réponse comme évaluation de processus
par la tâche - Exemples Entité Nommée, résolution danaphore,
analyse syntaxique
21Différents types de questions (1)
Moldovan, D., Pasca M., Harabagiu S., Surdeanu
M., Performance Issues and Error Analysis in an
Open-Domain Question Answering system, ACM
transactions on Information Systems (TOIS), 2003
- Réponse factuelle
- La réponse est extraite telle quelle ou moyennant
quelques variations morphologiques simples. - Une approche mot-clés peut alors tout à fait
convenir. - Réponse issue dun raisonnement simple
- La réponse est extraite dun court passage
toujours mais amène à recourir à des
connaissances sémantiques pour gérer des
variations ou élaborer un raisonnement simple. - Exemple
- Comment est mort Socrate ?
- En buvant du vin empoisonné -gt faire le lien
entre mort et empoisonner.
22Différents types de questions (2)
- Fusion de réponses
- Les éléments de réponses sont répartis sur
plusieurs documents - Il sagit de les assembler en un tout cohérent.
- Cela peut aller de simples listes à la
constitution de modes demploi. - Interaction à gérer
- Questions senchaînant dans un même contexte,
relatif à la première question -gt TREC9 - Raisonnement par analogie
- Les réponses ne sont pas explicites dans les
documents - Entraînent la décomposition en plusieurs
questions et leur interprétation par analogie aux
faits existant.
23Evaluation des composants dun système
- Etablir des cadres dévaluation systématiques,
voire des plates-formes - Permettrait le développement et lévaluation de
processus sans avoir à développer un système
complet - Approfondissement du principe consistant à
fournir les documents aux participants
24Conclusion
- EQueR évaluation sur le français
- 7 participants
- CLEF depuis 2004, évaluation monolingue sur le
français - 4 participants en 2005, plus que les autres
langues - Originalité dEQueR
- A gardé la tâche évaluation de passage
- Réintroduit à TREC 2005
- Introduction de questions booléennes
- Similitudes avec lévaluation Recognizing
Textual entailment du réseau Pascal - Introduction dune tâche spécialisée
- Poursuivre EQueR à CLEF ?