Corpus et R - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Corpus et R

Description:

Annotation anaphorique pour l'analyse s mantique de corpus ' ... touch es par cet afflux massif de r fugi s auxquels elles doivent fournir une ... – PowerPoint PPT presentation

Number of Views:59
Avg rating:3.0/5.0
Slides: 21
Provided by: alt137
Category:

less

Transcript and Presenter's Notes

Title: Corpus et R


1
  • Corpus et Référence
  • Susanne Salmon-Alt
  • ATILF-CNRS
  • Nancy

2
Projets en cours
  • Corpus et Référence
  • corpus multilingues, coréférence et anaphores
  • Ananas (CNRS) 01/02 12/03
  •  Annotation anaphorique pour lanalyse
    sémantique de corpus 
  • ATILF, LORIA, Grenoble III, ISSCO Genève
  • CommonRefs (INRIA) 10/01 04/03
  •  A computational model for processing referring
    expressions
  • ATILF, LORIA, Unisinos POA (Brésil)

3
  • Ananas

4
Ananas Enjeux
  • Importance croissante des corpus sémantiques
  • modélisation linguistique (polysémie,
    quantification, coréférence entre indéfinis)
  • traitement automatique des langues (WSD,
    recherche dinformations, analyse/génération de
    GN, extraction de terminologie
  • Retard pour le français
  •  Message Understanding Conferences /
     Automatic Content Extraction - Entity Tracking
    and Detection 
  •  Sémantique et Corpus  (ERSS Toulouse) / GDR
    Corblin

5
État des lieux (12/2001)
  • Choix corpus annotés en relations anaphoriques

6
Objectif 1 des corpus utiles
  • Définir le contenu de la base
  • quels genres (presse, littérature, sciences,
    dialogues) ?
  • quelle taille (au moins 1 million de mots) ?
  • vers des corpus annotés  multi-niveaux 
  • morphologie, syntaxe, sens, relations de
    discours, AdL, ...
  • intégration des ressources déjà disponibles
  • Définir les phénomènes à couvrir
  • tous les groupes nominaux vs. anaphores seulement
    ?
  • coréférence stricte vs. anaphores associatives ?
  • pronoms possessifs, relatifs, indéfinis, ellipses
    ?

7
Objectif 2 des corpus réutilisables
  • Définir des schémas dannotation standardisés

ltp n"732" id"PO9163"gt ltsgt Cela veut dire que
toute nouvelle électrification en courant
monophasé posera le problème du passage d' ltexp
id"e2207"gt un système lt/expgt à ltexp id"e2208"gt
ltptr type"desc" src"e2207"/gt l'autre lt/expgt en
termes de traction avec la nécessité de changer
de ltexp id"e2209"gt locomotive lt/expgt si ltexp
id"e2210"gt ltptr type"coref" src"e2209"/gt elle
lt/expgt est monocourant. lt/sgt lt/pgt
ltverbal_action id"xsd20" who"I"gt
ltseggtensuite prendre ltde id"re7"
det"NP_indef"gt une autre barre petite barre
verticale lt/degt lt/seggt ltcomment
type"speech_act"gt requête lt/commentgt lt/verbal_act
iongt ltseggtet ltde id"re8" det"PR_pers"gt la
lt/degt mettre à à peu près quatre centimètres à
droite de ltde id"re9" det"NP_def"gt la euh
première lt/degt lt/seggt lt/verbal_actiongt ltlink_coref
coref_type"classic" re"re8"
anchor"re7"/gt ltlink_codom cd"ordinal"
re"re9" anchor"re7"/gt
8
Objectif 2 des corpus réutilisables
  • Définir des schémas dannotation standardisés
  • flexibles
  • normalisés (TEI, MATE, MUC)
  • méta-schémas XML
  • vers une norme ISO pour le codage (TC37/SC4)
  • Annoter les corpus
  • recenser et adapter les outils dannotation
    manuelle (MMAX) et (semi-)automatique
    ( CalCoRef , Xerox)
  • normaliser les ressources existantes
  • évaluer laccord entre annotateurs
  • Assurer diffusion, accès libre et pérennisation

9
Bilan (très) provisoire
  • Journée inaugurale (02/02, Nancy)
  • prospective sur les ressources
  • définition des phénomènes à annoter
  • Journées  Corpus et Sémantique  (03/02,
    Toulouse)
  • contacts pour récupération de ressources déjà
    utilisées
  • contacts pour utilisation doutils existants
  • extraction NP (D. Bourigault), pré-annotation
    anaphorique (M. Dupont, F. Trouilleux),
    alignement (O. Kraif)
  • Workshop TALN  Chaînes de référence 
  • Journée détude en juin à Nancy

10
  • CommonRefs

11
Objectifs
  • Outil de résolution pour définis et démonstratifs
  • Vieira Poesio (2000) pour les définis de
    langlais
  • étude de corpus WSJ PennTreebank
  • classification, recherche dantécédent
  • 50  discourse new 
  • développement dun résolveur à base
    dheuristiques
  • décision  discourse new  vs.  discourse old 
  • si  discourse old  alors recherche dun
    antécédent
  • F 63 (P 76, R 53)
  • Extension au Français et au Portugais

12
Premières expériences
  • Définition dune tâche de référence
  • Dans quelle mesure des humains sont-ils capables
    de traiter des expressions nominales dans un
    texte écrit ?
  • décision sur nouveau référent vs. anaphore
  • identification dun antécédent
  • typage de la relation (identité, association,
    ...)
  • Mesure de laccord inter-annotateur (Kappa)
  • Annotation de descriptions définies et
    démonstratives dans un corpus parallèle

13
Nos classes
  • Anaphore  fidèle  même entité, même
    expression

A á Comissão tem conhecimento do livro... D
á Comissão costata ainda que o livro não se
debruça sobre
  • Anaphore  infidèle  même entité, expression
    différente

A uma declaração sobre o conteúdo do
estudo... D Comissão tem conhecimento do
livro...
  • Anaphore associative entité différente,
    relation de dépendance

A o recrutamento de pessoal científico e
técnico... D exceptuando estes casos
específicos, as condições de acesso à carreira
científica
  • Discourse new entité différente, pas de
    relation de dépendance

14
Corpus MLCC (JOC)
15
Outil dannotation MMAX
ltDIV2 TYPE"WQA"gt ltHEAD TYPE"OR"gt QUESTION
ÉCRITE ltABBRgtNº lt/ABBRgt ltRS TYPE"WQ"gt676/91lt/RSgt
de ltNAME TYPEPERSONgtltABBR RENDTAIL-SUPERgtM.lt/AB
BRgt Antonio Iodice (PPE) lt/NAMEgt à la Commission
des Communautés européennes ltDATEgt (16 avril
1991) lt/DATEgt lt/HEADgt ltHEAD TYPE"INFO"gt (93/C
32/01) lt/HEADgt ltDIV3 TYPEBODYgt ltDIV4
TYPE"Q"gt ltHEADgt Objet Afflux de réfugiés
albanais dans le sud de l'Italie lt/HEADgt ltPgt
Suite à l'exode de milliers d'Albanais arrivés
pour la plupart dans le port de Brindisi,
quelles mesures la Commission a-t-elle adoptées
pour alléger la tâche difficile des régions
touchées par cet afflux massif de réfugiés
auxquels elles doivent fournir une assistance
humanitaire? lt/Pgt lt/DIV4gt
lt?xml version'1.0' encoding'ISO-8859-1'?gt lt!DOCT
YPE words SYSTEM "words.dtd"gt ltwordsgt ltword
id"word_1"gtQUESTIONlt/wordgt ltword
id"word_2"gtÉCRITElt/wordgt ltword
id"word_3"gtNlt/wordgt ltword id"word_4"gtlt/wordgt ltw
ord id"word_5"gt676/91lt/wordgt ltword
id"word_6"gtdelt/wordgt ltword id"word_7"gtMlt/wordgt lt
word id"word_8"gt.lt/wordgt ltword
id"word_9"gtAntoniolt/wordgt ltword
id"word_10"gtIadicelt/wordgt ltword
id"word_11"gt(lt/wordgt ltword id"word_12"gtPPElt/word
gt ltword id"word_13"gt)lt/wordgt ltword
id"word_14"gtàlt/wordgt ltword id"word_15"gtlalt/wordgt
ltword id"word_16"gtCommissionlt/wordgt ltword
id"word_17"gtdeslt/wordgt ltword id"word_18"gtCommuna
utéslt/wordgt ltword id"word_19"gteuropéenneslt/wordgt
lt?xml version"1.0" encoding"ISO-8859-1"?gt lt!DOCT
YPE text SYSTEM "text.dtd"gt lttextgt ltheadlinegt
ltsentence id"sentence_1" span"word_1..word_5"/gt
lt/headlinegt ltparagraphgt ltsentence
id"sentence_2" span"word_6..word_3564"/gt lt/parag
raphgt ltlt/textgt
16
Fichiers sortie / Évaluation
  • Sortie MMAX

lt?xml version"1.0"?gt ltmarkablesgt ltmarkable
classification"4_pas_de reprise"
id"markable_17" np_form"defNP"
span"word_129..word_136" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_18" np_form"defNP"
pointer"markable_551" span"word_125,word_126"
type"none"/gt ltmarkable classification"1_reprise_
directe" id"markable_19" np_form"defNP"
pointer"markable_553" span"word_138,word_139"
type"none"/gt ltmarkable classification"2_reprise_
autre_expression" id"markable_22"
np_form"defNP" pointer"markable_559"
span"word_189..word_206" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_23" np_form"defNP"
pointer"markable_558" span"word_194..word_206"
type"none"/gt ltmarkable classification"2_reprise_
autre_expression" id"markable_24"
np_form"defNP" pointer"markable_557"
span"word_198..word_206" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_25" np_form"defNP"
pointer"markable_560" span"word_208,word_209"
type"none"/gt ltmarkable classification"3_reprise_
associative" id"markable_26" np_form"defNP"
pointer"markable_561" span"word_218..word_234"
type"none"/gt ltmarkable classification"4_pas_de
reprise" id"markable_29" np_form"defNP"
span"word_247..word_251" type"none"/gt ... ltmarka
ble classification"aucun" id"markable_560"
np_form"none" pointer"" span"word_36"
type"none"/gt ltmarkable classification"aucun"
id"markable_551" np_form"none" pointer""
span"word_84" type"none"/gt ... lt/markablesgt
  • Calcul du Kappa intégré dans MMAX
  • Comptages et matrices de confusion XSL
  • Accord sur antécédents manuel, XSL ?

17
Résultats de classification (F)
0.68 ? K ? 0.8 conclusions préliminaires K gt
0.8 accord
18
Discussion
  • Définis -(
  • plus de 40  discourse new  (? langues, ?
    genres)
  • autour de 25 danaphores  fidèles 
  • variation importante pour anaphores  infidèles 
    et associatives
  • Kappa insuffisant pour créer une ressource clé
  • Démonstratifs -)
  • moins de 10  discourse new 
  • 60 anaphores  non fidèles 
  •  discourse new  cas particuliers (déixis
    temporelle, déixis discursive, antécédents
    complexes)

19
Under construction
  • Démonstratifs bon accord sur les antécédents
  • Critères syntaxiques, sémantiques, de proximité

20
Pour Laurence, Hélène, Evelyne...
  • Dépouillement de la classe  associative 
  • coréférence événementielle

selon lesquelles un tribunal a considéré
récemment que le gouvernement belge avait pris
une décision illégale en interdisant l '
importation de déchets toxiques en Belgique ?
... ce jugement ...
  • reprise darguments non réalisés

le vol Air Lingus EA 643 quitte Bruxelles ...
cet avion ...
  • polysémie processive/résultative (?)

visant à l ' installation , dans la forêt
pétrifiée , de neuf aérogénérateurs , dans ...
... ce parc éolien...
Write a Comment
User Comments (0)
About PowerShow.com