Campagne dEvaluation de systmes de QuestionsRponses : EQueR - PowerPoint PPT Presentation

About This Presentation
Title:

Campagne dEvaluation de systmes de QuestionsRponses : EQueR

Description:

Approches statistiques et apprentissage. Composants concern s. S lection des documents ... Apprentissage de patrons d'extraction. Evaluation de la r ponse. Un ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 25
Provided by: mjar2
Category:

less

Transcript and Presenter's Notes

Title: Campagne dEvaluation de systmes de QuestionsRponses : EQueR


1
Campagne dEvaluation de systèmes de
Questions-Réponses EQueR
  • Brigitte Grau (LIR LIMSI)

2
Recherche dinformation précise
  • Besoin particulier
  • requête précise une question en langage naturel
  • Granularité de la réponse "passage retrieval"

Qui a tué Henri IV ?
3
Extraction à partir de textes
Cest à Paris, rue de la Ferronnerie, quHenri
IV a rendu son dernier soupir Dautre part, on
peut rappeler que les rues encombrées et étroites
du Paris davant Haussmann étaient très
favorables aux guets-apens. La facilité avec
laquelle Ravaillac a pu poignarder Henri IV peut
paraître incroyable !
Qui a poignardé Henri IV ?
Qui a tué Henri IV ?
Où a été tué Henri IV ?
4
Différents composants
Traitement des documents
Extraction de la réponse
Analyse des questions
Sélection de passages ou de phrases Analyse des
phrases Extraction des réponses Evaluation des
réponses
Etiquetage morpho-syntaxique Analyse
syntaxique Désambiguation Typage des
réponses Choix de mots pivots
Reconnaissance des entités nommées Sélection de
documents ou de passages Moteur de
recherche Constitution de la requête
5
Approche linguistique
  • Composants concernés
  • Détermination du type de réponse
  • Des entités nommées classiques à des catégories
    spécialisées
  • Reformulation Web
  • Ecriture de patrons dextraction liés au type
    dinformation cherché
  • De patrons très figés à des règles de
    reformulation
  • Appariement de représentations de phrase
    (question/phrases candidates)
  • Fondée sur
  • Etiquetage morpho-syntaxique
  • Segmentation en groupe
  • Analyse syntaxique
  • Analyse sémantique

6
Approches statistiques et apprentissage
  • Composants concernés
  • Sélection des documents
  • Sélection de passages
  • Apprentissage de patrons dextraction
  • Evaluation de la réponse
  • Un degré de confiance

7
Connaissances
  • Lexiques spécialisés pour entités nommées
  • Bases de connaissances spécialisées
  • Connaissances sémantiques générales
  • Sources
  • WordNet pour langlais
  • Pour le français ?
  • Connaissances
  • Relations de dépendances hiérarchiques
  • Relations de synonymie
  • Règles de déduction modélisation des
    définitions WordNet

8
Evaluations existantes
  • Etats-Unis TREC
  • Tâche Q/A depuis TREC8 (1999)
  • Europe CLEF
  • Tâche Q/A depuis 2003, analogue à Trec
  • Multilingue
  • Japon NTCIR
  • Tâche Q/A depuis 2003, analogue à Trec
  • France EQuER
  • Campagne en 2004

9
Que doit-on évaluer ?
  • La justesse de la réponse
  • La concision et la complétude
  • Ne pas trop en dire, mais dire tout ce qui est
    nécessaire
  • La pertinence de la réponse
  • La réponse peut être différente selon le contexte
  • Linteraction avec l'utilisateur
  • Le temps de réponse
  • La facilité d'utilisation du système

? ? ? ? ?
10
EQueR
  • Organisateur ELDA (Paris)
  • Responsable scientifique Brigitte Grau (LIMSI)
  • Fournisseurs de corpus et doutils
  • ELDA corpus général
  • CISMEF corpus médical
  • Systal / Pertimm moteur de recherche
  • Participants
  • 3 institutions privées France Télécom, Sinequa,
    Synapse
  • 5 laboratoires publics
  • Limsi-CNRS, LIA iSmart, STIM / AP-HP,
    CEA, Université de Neuchâtel

11
Présentation générale
  • Objectifs
  • Faire une photographie de létat de lart en
    France
  • Permettre le développement de lactivité en
    fournissant des corpus aux chercheurs
  • Trois tâches étaient prévues
  • Tâche généraliste
  • Tâche spécialisée , domaine spécifique
    (médical)
  • Tâche généraliste Web ? abandonnée
  • 2 types de réponses
  • passages de 250 caractères
  • réponses courtes

12
Les corpus de documents
  • Corpus général
  • 1,5 Go environ (constitution ELDA)
  • Articles, dépêches de presse et rapports
    institutionnels
  • Le Monde (1992-2000)
  • Le Monde Diplomatique (1992-2000)
  • SDA (Schweitzeriche Depeschenagentur (1994-1995)
  • Le Sénat (1996-2001)
  • Corpus médical
  • 50 Mo environ (constitution CISMEF/STIM) tirés
    des sites Web
  • Articles scientifiques du domaine médical,
    recommandations
  • Santé Canada
  • Orphanet
  • CHU Rouen
  • FNLCC (Fédération Nationale de Lutte Contre le
    Cancer)

13
Corpus de questions
Taux fixé pour chaque type de question Selon les
sources extraction de balises de mots-clés ou
de titres
  • 500 questions générales
  • 407 questions factuelles
  • Qui a écrit Germinal ?
  • Emile Zola
  • 31 questions de type liste
  • Quels sont les 7 pays du G7 ?
  • Allemagne, Canada, Etats-Unis, France,Grande-Breta
    gne, Italie et Japon
  • 32 questions de type définition
  • Qui est Alexander Popov ?
  • Nageur russe
  • 30 questions de type oui/non
  • Existe-t-il une ligne de TGV Valenciennes-Paris ?
  • OUI
  • 200 questions médicales
  • 81 questions factuelles
  • Citer un traitement de la schyzophrénie.
  • La neurochirurgie
  • 25 questions de type liste
  • Quels sont les 4 stades du cancer de lovaire ?
  • 70 questions de type définition
  • 24 questions de type oui/non
  • Le mercure est-il un métal toxique ?
  • OUI

14
Déroulement de lévaluation
  • Distribution des corpus de documents
  • Tests des systèmes sur 1 semaine
  • Distribution des questions et des documents
    fournis par Pertimm pour chacune
  • Envoi des résultats (2 runs par tâche)
  • Nombre de réponses permises
  • Maximum 5 pour questions factuelles et de type
    définition
  • 1 pour questions de type oui/non
  • Maximum 20 pour les questions de type liste
  • Evaluation des résultats par des juges humains
  • 2 juges par run
  • Un spécialiste pour tâche médicale
  • 4 valeurs correct, incorrect, inexact, non
    justifié

15
Mesures
  • 2 métriques utilisées
  • MRR Moyenne de linverse du Rang (Mean
    Reciprocal Rank)
  • Questions factuelles simples.
  • Questions dont la réponse est une définition .
  • Questions dont la réponse est oui/non .
  • NIAP Précision moyenne (Non Interpolated
    Average Precision)
  • Questions dont la réponse est une liste .

16
Résultats (1)
  • Tâche générale
  • 7 participants
  • Tâche spécialisée
  • 5 participants

17
Résultats (2)
18
Comparaison avec lexistant
  • Comparaison
  • 5 Réponses courtes
  • TREC10 (2001)
  • NTCIR (2003)
  • Meilleur système actuel sur langlais
  • 83 de réponses correctes avec 1 seule réponse
    fournie (TREC11)

19
Bilan
  • Constitution dun ensemble de données
  • Ensemble des spécifications de la campagne,
    corpus, outils et résultats.
  • But
  • Permettre à nimporte quel industriel ou
    académique de faire tourner son système dans des
    conditions identiques afin de pouvoir évaluer
    lui-même son système.

20
Pour aller plus loin
  • Pour améliorer les systèmes de question-réponse
  • Selon les questions, différentes stratégies
    possibles
  • Maîtriser la difficulté des questions
  • Savoir quelle approche est meilleure quune autre
    pour chaque composant
  • Connaître limpact dun composant sur le résultat
    final
  • Question-réponse comme évaluation de processus
    par la tâche
  • Exemples Entité Nommée, résolution danaphore,
    analyse syntaxique

21
Différents types de questions (1)
Moldovan, D., Pasca M., Harabagiu S., Surdeanu
M., Performance Issues and Error Analysis in an
Open-Domain Question Answering system, ACM
transactions on Information Systems (TOIS), 2003
  • Réponse factuelle
  • La réponse est extraite telle quelle ou moyennant
    quelques variations morphologiques simples.
  • Une approche mot-clés peut alors tout à fait
    convenir.
  • Réponse issue dun raisonnement simple
  • La réponse est extraite dun court passage
    toujours mais amène à recourir à des
    connaissances sémantiques pour gérer des
    variations ou élaborer un raisonnement simple.
  • Exemple
  • Comment est mort Socrate ?
  • En buvant du vin empoisonné -gt faire le lien
    entre mort et empoisonner.

22
Différents types de questions (2)
  • Fusion de réponses
  • Les éléments de réponses sont répartis sur
    plusieurs documents
  • Il sagit de les assembler en un tout cohérent.
  • Cela peut aller de simples listes à la
    constitution de modes demploi.
  • Interaction à gérer
  • Questions senchaînant dans un même contexte,
    relatif à la première question -gt TREC9
  • Raisonnement par analogie
  • Les réponses ne sont pas explicites dans les
    documents
  • Entraînent la décomposition en plusieurs
    questions et leur interprétation par analogie aux
    faits existant.

23
Evaluation des composants dun système
  • Etablir des cadres dévaluation systématiques,
    voire des plates-formes
  • Permettrait le développement et lévaluation de
    processus sans avoir à développer un système
    complet
  • Approfondissement du principe consistant à
    fournir les documents aux participants

24
Conclusion
  • EQueR évaluation sur le français
  • 7 participants
  • CLEF depuis 2004, évaluation monolingue sur le
    français
  • 4 participants en 2005, plus que les autres
    langues
  • Originalité dEQueR
  • A gardé la tâche évaluation de passage
  • Réintroduit à TREC 2005
  • Introduction de questions booléennes
  • Similitudes avec lévaluation  Recognizing
    Textual entailment  du réseau Pascal
  • Introduction dune tâche spécialisée
  • Poursuivre EQueR à CLEF ?
Write a Comment
User Comments (0)
About PowerShow.com