Title: Corpus et R
1-
- Corpus et Référence
- Susanne Salmon-Alt
- ATILF-CNRS
- Nancy
2Projets en cours
- Corpus et Référence
- corpus multilingues, coréférence et anaphores
- Ananas (CNRS) 01/02 12/03
- Annotation anaphorique pour lanalyse
sémantique de corpus - ATILF, LORIA, Grenoble III, ISSCO Genève
- CommonRefs (INRIA) 10/01 04/03
- A computational model for processing referring
expressions - ATILF, LORIA, Unisinos POA (Brésil)
3 4Ananas Enjeux
- Importance croissante des corpus sémantiques
- modélisation linguistique (polysémie,
quantification, coréférence entre indéfinis) - traitement automatique des langues (WSD,
recherche dinformations, analyse/génération de
GN, extraction de terminologie - Retard pour le français
- Message Understanding Conferences /
Automatic Content Extraction - Entity Tracking
and Detection - Sémantique et Corpus (ERSS Toulouse) / GDR
Corblin
5État des lieux (12/2001)
- Choix corpus annotés en relations anaphoriques
6Objectif 1 des corpus utiles
- Définir le contenu de la base
- quels genres (presse, littérature, sciences,
dialogues) ? - quelle taille (au moins 1 million de mots) ?
- vers des corpus annotés multi-niveaux
- morphologie, syntaxe, sens, relations de
discours, AdL, ... - intégration des ressources déjà disponibles
- Définir les phénomènes à couvrir
- tous les groupes nominaux vs. anaphores seulement
? - coréférence stricte vs. anaphores associatives ?
- pronoms possessifs, relatifs, indéfinis, ellipses
?
7Objectif 2 des corpus réutilisables
- Définir des schémas dannotation standardisés
ltp n"732" id"PO9163"gt ltsgt Cela veut dire que
toute nouvelle électrification en courant
monophasé posera le problème du passage d' ltexp
id"e2207"gt un système lt/expgt à ltexp id"e2208"gt
ltptr type"desc" src"e2207"/gt l'autre lt/expgt en
termes de traction avec la nécessité de changer
de ltexp id"e2209"gt locomotive lt/expgt si ltexp
id"e2210"gt ltptr type"coref" src"e2209"/gt elle
lt/expgt est monocourant. lt/sgt lt/pgt
ltverbal_action id"xsd20" who"I"gt
ltseggtensuite prendre ltde id"re7"
det"NP_indef"gt une autre barre petite barre
verticale lt/degt lt/seggt ltcomment
type"speech_act"gt requête lt/commentgt lt/verbal_act
iongt ltseggtet ltde id"re8" det"PR_pers"gt la
lt/degt mettre à à peu près quatre centimètres à
droite de ltde id"re9" det"NP_def"gt la euh
première lt/degt lt/seggt lt/verbal_actiongt ltlink_coref
coref_type"classic" re"re8"
anchor"re7"/gt ltlink_codom cd"ordinal"
re"re9" anchor"re7"/gt
8Objectif 2 des corpus réutilisables
- Définir des schémas dannotation standardisés
- flexibles
- normalisés (TEI, MATE, MUC)
- méta-schémas XML
- vers une norme ISO pour le codage (TC37/SC4)
- Annoter les corpus
- recenser et adapter les outils dannotation
manuelle (MMAX) et (semi-)automatique
( CalCoRef , Xerox) - normaliser les ressources existantes
- évaluer laccord entre annotateurs
- Assurer diffusion, accès libre et pérennisation
9Bilan (très) provisoire
- Journée inaugurale (02/02, Nancy)
- prospective sur les ressources
- définition des phénomènes à annoter
- Journées Corpus et Sémantique (03/02,
Toulouse) - contacts pour récupération de ressources déjà
utilisées - contacts pour utilisation doutils existants
- extraction NP (D. Bourigault), pré-annotation
anaphorique (M. Dupont, F. Trouilleux),
alignement (O. Kraif) - Workshop TALN Chaînes de référence
- Journée détude en juin à Nancy
10 11Objectifs
- Outil de résolution pour définis et démonstratifs
- Vieira Poesio (2000) pour les définis de
langlais - étude de corpus WSJ PennTreebank
- classification, recherche dantécédent
- 50 discourse new
- développement dun résolveur à base
dheuristiques - décision discourse new vs. discourse old
- si discourse old alors recherche dun
antécédent - F 63 (P 76, R 53)
- Extension au Français et au Portugais
12Premières expériences
- Définition dune tâche de référence
- Dans quelle mesure des humains sont-ils capables
de traiter des expressions nominales dans un
texte écrit ? - décision sur nouveau référent vs. anaphore
- identification dun antécédent
- typage de la relation (identité, association,
...) - Mesure de laccord inter-annotateur (Kappa)
- Annotation de descriptions définies et
démonstratives dans un corpus parallèle
13Nos classes
- Anaphore fidèle même entité, même
expression
A á Comissão tem conhecimento do livro... D
á Comissão costata ainda que o livro não se
debruça sobre
- Anaphore infidèle même entité, expression
différente
A uma declaração sobre o conteúdo do
estudo... D Comissão tem conhecimento do
livro...
- Anaphore associative entité différente,
relation de dépendance
A o recrutamento de pessoal científico e
técnico... D exceptuando estes casos
específicos, as condições de acesso à carreira
científica
- Discourse new entité différente, pas de
relation de dépendance
14Corpus MLCC (JOC)
15Outil dannotation MMAX
ltDIV2 TYPE"WQA"gt ltHEAD TYPE"OR"gt QUESTION
ÉCRITE ltABBRgtNº lt/ABBRgt ltRS TYPE"WQ"gt676/91lt/RSgt
de ltNAME TYPEPERSONgtltABBR RENDTAIL-SUPERgtM.lt/AB
BRgt Antonio Iodice (PPE) lt/NAMEgt à la Commission
des Communautés européennes ltDATEgt (16 avril
1991) lt/DATEgt lt/HEADgt ltHEAD TYPE"INFO"gt (93/C
32/01) lt/HEADgt ltDIV3 TYPEBODYgt ltDIV4
TYPE"Q"gt ltHEADgt Objet Afflux de réfugiés
albanais dans le sud de l'Italie lt/HEADgt ltPgt
Suite à l'exode de milliers d'Albanais arrivés
pour la plupart dans le port de Brindisi,
quelles mesures la Commission a-t-elle adoptées
pour alléger la tâche difficile des régions
touchées par cet afflux massif de réfugiés
auxquels elles doivent fournir une assistance
humanitaire? lt/Pgt lt/DIV4gt
lt?xml version'1.0' encoding'ISO-8859-1'?gt lt!DOCT
YPE words SYSTEM "words.dtd"gt ltwordsgt ltword
id"word_1"gtQUESTIONlt/wordgt ltword
id"word_2"gtÉCRITElt/wordgt ltword
id"word_3"gtNlt/wordgt ltword id"word_4"gtlt/wordgt ltw
ord id"word_5"gt676/91lt/wordgt ltword
id"word_6"gtdelt/wordgt ltword id"word_7"gtMlt/wordgt lt
word id"word_8"gt.lt/wordgt ltword
id"word_9"gtAntoniolt/wordgt ltword
id"word_10"gtIadicelt/wordgt ltword
id"word_11"gt(lt/wordgt ltword id"word_12"gtPPElt/word
gt ltword id"word_13"gt)lt/wordgt ltword
id"word_14"gtàlt/wordgt ltword id"word_15"gtlalt/wordgt
ltword id"word_16"gtCommissionlt/wordgt ltword
id"word_17"gtdeslt/wordgt ltword id"word_18"gtCommuna
utéslt/wordgt ltword id"word_19"gteuropéenneslt/wordgt
lt?xml version"1.0" encoding"ISO-8859-1"?gt lt!DOCT
YPE text SYSTEM "text.dtd"gt lttextgt ltheadlinegt
ltsentence id"sentence_1" span"word_1..word_5"/gt
lt/headlinegt ltparagraphgt ltsentence
id"sentence_2" span"word_6..word_3564"/gt lt/parag
raphgt ltlt/textgt
16Fichiers sortie / Évaluation
lt?xml version"1.0"?gt ltmarkablesgt ltmarkable
classification"4_pas_de reprise"
id"markable_17" np_form"defNP"
span"word_129..word_136" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_18" np_form"defNP"
pointer"markable_551" span"word_125,word_126"
type"none"/gt ltmarkable classification"1_reprise_
directe" id"markable_19" np_form"defNP"
pointer"markable_553" span"word_138,word_139"
type"none"/gt ltmarkable classification"2_reprise_
autre_expression" id"markable_22"
np_form"defNP" pointer"markable_559"
span"word_189..word_206" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_23" np_form"defNP"
pointer"markable_558" span"word_194..word_206"
type"none"/gt ltmarkable classification"2_reprise_
autre_expression" id"markable_24"
np_form"defNP" pointer"markable_557"
span"word_198..word_206" type"none"/gt ltmarkable
classification"1_reprise_directe"
id"markable_25" np_form"defNP"
pointer"markable_560" span"word_208,word_209"
type"none"/gt ltmarkable classification"3_reprise_
associative" id"markable_26" np_form"defNP"
pointer"markable_561" span"word_218..word_234"
type"none"/gt ltmarkable classification"4_pas_de
reprise" id"markable_29" np_form"defNP"
span"word_247..word_251" type"none"/gt ... ltmarka
ble classification"aucun" id"markable_560"
np_form"none" pointer"" span"word_36"
type"none"/gt ltmarkable classification"aucun"
id"markable_551" np_form"none" pointer""
span"word_84" type"none"/gt ... lt/markablesgt
- Calcul du Kappa intégré dans MMAX
- Comptages et matrices de confusion XSL
- Accord sur antécédents manuel, XSL ?
17Résultats de classification (F)
0.68 ? K ? 0.8 conclusions préliminaires K gt
0.8 accord
18Discussion
- Définis -(
- plus de 40 discourse new (? langues, ?
genres) - autour de 25 danaphores fidèles
- variation importante pour anaphores infidèles
et associatives - Kappa insuffisant pour créer une ressource clé
- Démonstratifs -)
- moins de 10 discourse new
- 60 anaphores non fidèles
- discourse new cas particuliers (déixis
temporelle, déixis discursive, antécédents
complexes)
19Under construction
- Démonstratifs bon accord sur les antécédents
- Critères syntaxiques, sémantiques, de proximité
20Pour Laurence, Hélène, Evelyne...
- Dépouillement de la classe associative
- coréférence événementielle
selon lesquelles un tribunal a considéré
récemment que le gouvernement belge avait pris
une décision illégale en interdisant l '
importation de déchets toxiques en Belgique ?
... ce jugement ...
- reprise darguments non réalisés
le vol Air Lingus EA 643 quitte Bruxelles ...
cet avion ...
- polysémie processive/résultative (?)
visant à l ' installation , dans la forêt
pétrifiée , de neuf aérogénérateurs , dans ...
... ce parc éolien...