Les Donn - PowerPoint PPT Presentation

About This Presentation
Title:

Les Donn

Description:

Qu'est-ce qu'un corpus, corpus quilibr , monitor corpus, corpus de r f rence, exemples d utilisation. Exemples de corpus textuels : le British National Corpus – PowerPoint PPT presentation

Number of Views:119
Avg rating:3.0/5.0
Slides: 71
Provided by: DIL116
Category:
Tags: donn | indefinite | les | past | tense

less

Transcript and Presenter's Notes

Title: Les Donn


1
Les Données Textuelles
  • Qu'est-ce qu'un corpus, corpus équilibré, monitor
    corpus, corpus de référence, exemples
    dutilisation.
  • Exemples de corpus textuels le British National
    Corpus
  • PAROLE
    Français, Le Monde
  • Les corpus étiquetés et analysés
  • - corpus syntaxiques Penn Treebank
    www.cis.upenn.edu/treebank
  • Corfrans
    www-rali.iro.umontreal.ca/corfrans
  • NEGRA corpus
  • -corpus sémantiques Framenet
    www.icsi.berkeley.edu/framenet
  • PropBank

2
Corpus
  • Définition Une collection quelconque de plus
    d'un texte
  • Propriétés représentatif, de taille finie,
    lisible par une machine
  • Référence standard
  • Utilisations Lexicographieétablir si un verbe
    est transitif
  • Utilisations Développement de
    grammairedéterminer la couverture de la
    grammaire, les erreurs les plus fréquentes.

3
Corpus
Le page suivantes sur lécahntillonage et
lutilisations des corpus sont tiré des
ouvrages Benoît Habert, Adeline Nazarenko, et
André Salem, Les linguistiques de corpus, Armand
Colin Tony Mc Enery et Andrew Wilson, Corpus
Lingusitics, Edinburgh Press
4
Corpus équilibrés
  • En principe, une collection de plus d'un texte
    peut être appelée un corpus. Cependant, le terme
    corpus possède en général des connotations plus
    spécifiques.
  • Le corpus doit être représentatif. Afin quune
    collection de textes soit représentative, elle
    doit être échantillonnée de façon équilibrée. La
    méthode la plus utilisée est la méthode
    d'échantillonnage stratifiée, où l'on crée une
    collection équilibrée de textes distribués
    uniformément à travers les genres (roman,
    journal, discours politique, etc.) et les
    modalités (écrite, orale) qui intéressent.
  • Le corpus doit être de taille finie définie à
    l'avance. On parle alors de corpus fermé.
    D'habitude, les corpus sont des collections des
    textes fixées à l'avance, afin d'assurer que
    l'équilibre et la représentativité soient
    respectés.
  • Un corpus doit être électronique
    (machinereadable) pour permettre des recherches
    et des manipulations rapides à large échelle.

5
Corpus équilibrés
  • D'un point de vue statistique, on peut considérer
    un corpus comme un échantillon d'une population
    (d'événements langagiers).
  • Comme tout échantillon, un corpus est passible de
    deux types d'erreurs statistiques qui menacent la
    généralité des résultats
  • l'incertitude (random error)
  • la déformation (bias error)
  • L'incertitude survient quand un échantillon est
    trop petit pour représenter avec précision la
    population réelle.
  • Une déformation se produit quand les
    caractéristiques d'un échantillon sont
    systématiquement différentes de celles de la
    population que cet échantillon a pour objectif de
    refléter.

6
Exemples derreurs
Incertitude Un extrait de 2 000 mots d'une
interview de George Bush ne permet pas
d'extrapoler et d'en tirer des conclusions sur
l'interaction journaliste-homme politique.
Déformation Si on utilise que les articles de
la seule rubrique Economie du Monde, quel que
soit le volume textuel rassemblé, on risque de
déboucher sur une image déformée du français.
7
Échantillonnage
  • Pour atteindre une diversité maximale de
    situations de communication dans un corpus de
    référence on procède souvent à une démarche
    d'échantillonnage.
  • L'échantillonnage touche à la fois
  • le choix des documents à intégrer et
  • la partie de ces documents à conserver.
  • On essaye d'équilibrer en taille les échantillons
    retenus -- de taille limitée (de 2'000 à 40'000
    mots) --, et à ne pas retenir des empans de texte
    continus, de manière à ne pas risquer de
    sur-représenter des lieux du texte aux
    caractéristiques particulières (l'introduction
    par exemple).
  • Ce saucissonnage rend par contre impossible
    l'étude des changements de corrélations de traits
    linguistiques au fil des textes (étude
    longitudinale).

8
Corpus de contrôle (monitor corpus)
  • Il existe aussi un autre type de corpus, le
    corpus de contrôle, qui n'est pas de taille
    finie, mais plutôt il croit au fur et à mesure.
  • Un corpus de contrôle est un corpus auquel on
    ajoute tout le temps des textes. C'est un corpus
    ouvert. Cela est très utile en lexicographie pour
    chercher les néologismes, mais on ne peut plus
    garantir que le corpus restera équilibré. La
    recherche scientifique courante où l'on utilise
    le Web en tant que corpus rentre dans ce cas de
    figure.

9
Corpus de référence
  • On parle de corpus de référence lorsque un corpus
    devient représentatif de la langue - à un certain
    moment historique,
  • - pour une certaine langue,
  • - dans une certaine modalité.
  • Un corpus de référence est conçu pour fournir
    une information en profondeur sur une langue. Il
    vise à être suffisamment grand pour représenter
    toutes les variétés pertinentes de cette langue
    et son vocabulaire caractéristique, de manière à
    pouvoir servir de base à des grammaires, des
    dictionnaires et d'autres usuels fiables. Il
    s'agit donc d'associer étroitement deux
    caractéristiques
  • une taille suffisante et la diversité des usages
    représentés.
  • Par exemple, le Brown Corpus est le corpus de
    référence de l'anglais Américain écrit, le
    British National Corpus est le corpus de
    référence de l'anglais Britannique écrit et oral.

10
Utilisations en lexicographie
  • Les lexicographes ont utilisées des corpus, ou
    des ensembles de citations, bien avant que la
    linguistique de corpus ne se développe (voir par
    exemple le célèbre dictionnaire de Samuel
    Johnson, de même que lOxford English
    Dictionary).
  • À présent, l'existence de larges collections de
    textes et la possibilité de les consulter et
    manipuler très rapidement est en train de changer
    la pratique de la lexicographie.
  • D'habitude, les lexicographes compilent les
    entrées d'un dictionnaire sur la base de leurs
    propres intuitions et d'une collection d'exemples
    qu'ils collectent à la main (ils utilisent des
    fiches d'exemples). Un corpus peut ajouter de
    l'information supplémentaire.

11
Utilisations en lexicographie
  • Par exemple, Atkins and Levin se sont occupés de
    certaines verbes dans la même classes que le
    verbe shake (trembler).
  • Elles ont consulté le LDOCE (Oxford's Advanced
    Learner's Dictionary) et COBUILD. Les deux
    dictionnaires indiquaient que les verbes quake et
    quiver sont toujours intransitifs (n'ont pas de
    COD). Par contre, si on consulte un corpus de 50
    millions de mots, on trouvera que les deux verbes
    peuvent être utilisés dans la forme transitive.

12
Utilisations en théorie linguistique
  • Les corpus sont important pour la recherche
    linguistique au niveau des phrases et de la
    syntaxe, car, d'un côté, ils fournissent des
    informations quantitatives, et, de l'autre côté,
    ils sont des réservoirs d'exemples naturels de
    l'usage de la langue. Ils peuvent être utilisés
    comme ressources pour tester une théorie
    grammaticale donnée.
  • Pour illustrer le deuxième point, voici un
    exemple.

13
Corpus et théorie linguistique
  • Sampson (1987) analysa manuellement un ensemble
    de syntagmes nominaux. Il arriva à la conclusion
    qu'une grammaire générative ne pouvait pas être
    utilisée pour analyser des données textuelles,
    car il y a trop de constructions différentes.
  • Taylor,Grover et Briscoe (1989) contredirent
    cette hypothèse, à l'aide d'un analyseur
    syntaxique, basée sur une grammaire. Leur
    analyseur marche correctement dans 96.88 de
    cas. Les cas incorrectes sont facilement
    analysable comme lacune de couverture de la
    grammaire, et ils ne sont pas de cas isolés.
  • La conclusion est que une grammaire générative
    peut, en principe, rendre compte des phénomènes
    naturels des données textuelles.

14
Le British National Corpus
Plusieurs projets de constitution de corpus de
référence ont été menés à bien aux États-Unis
corpus Brown et en Angleterre corpus
Lancaster-Oslo/Bergen (LOB). Rappel Il s'agit
d'associer étroitement deux caractéristiques une
taille suffisante la diversité des usages
représentés. Le BNC compte 100 millions de mots
étiquetés. Il mêle oral (10 ) et écrit (textes
de fiction à partir de 1960 et textes
informatifs à partir de 1975).
15
The British National Corpus les usages
En ce qui concerne l'écrit, les variables prises
en compte sont le domaine (textes informatifs et
textes de fiction), le support (livres,
périodiques, discours), la datation et la
diffusion (sélection parmi les listes des
meilleures ventes, celles de prix littéraires,
les indications de prêts en bibliothèque, etc.).
L'accent mis sur la diffusion réelle certifie la
représentation d'usages majeurs de l'anglais.
Pour l'oral, des conversations spontanées ont
été recueillies à partir d'un échantillonnage
démographique en termes d'âge, de sexe, de groupe
social et de région. Ont été également intégrées
des transcriptions d'interactions orales typiques
dans divers domaines affaires (réunions, prises
de parole syndicales, consultations médicales ou
légales) éducation et information (cours et
conférences, informations radio-télévisées)
prises de parole publiques (sermons, discours
politiques, discours parlementaires et légaux)
loisirs (commentaires sportifs, réunions de
clubs).
16
The British National Corpus la taille
Le corpus compte 100106008 de mots, et il
occupe 1,5 gigaoctets despace disque. Pour vous
donner une perspective, si on imprimait le corpus
en petite police sur papier très fin (comme livre
de poche) il occuperait 10 mètres détagère. (Un
livre de poche habituel consiste en 250 pages
pour chaque centimètre dépaisseur, et il a 400
mots par page.) Si on le lisait à haute voix, à
la vitesse plutôt rapide de 150 mots par minute,
8 heures par jour, 365 jours par an, il nous
faudrait un peu plus de 4 ans pour le lire
entièrement. Il y a 6 million 250 milles phrase
dans le corpus. La segmentation et létiquetage
ont été fait automatiquement avec le tagger
stochastique CLAWS développé à luniversité de
Lancaster. On utilise 65 partie du discours.
17
The British National Corpus exemple
ltpgt lts n"38"gtltw VVG-NN1gtRaising ltw NN1gtmoney ltw
PRPgtfor ltw DPSgtyour ltw AJ0-NN1gtfavourite ltw
NN1gtcharity ltw VM0gtcan ltw VBIgtbe ltw AJ0gtfunltc
PUNgt. lts n"39"gtltw PNPgtYou ltw VM0gtcan ltw VDIgtdo
ltw PNPgtit ltw PRP-AVPgton ltw DPSgtyour ltw DT0gtown ltw
CJCgtor ltw PNPgtyou ltw VM0gtcan ltw VVIgtget ltw
AV0gttogether ltw PRPgtwith ltw NN1gtfamily ltw CJCgtand
ltw NN2gtfriendsltc PUNgt. lts n"40"gtltw EX0gtThere ltw
VBZgtis ltw AT0gtno ltw NN1gtlimit ltw PRPgtto ltw
AT0gtthe ltw NN1gtnumber ltw PRFgtof ltw NN2gtways ltw
TO0gtto ltw VVIgtraise ltw NN1gtmoneyltc PUNgt. lts
n"41"gtltw CJSgtWhether ltw AT0gtthe ltw AJ0gtfinal ltw
NN1gttotal ltw VBZgtis ltw NN0gtpound5 ltw CJCgtor ltw
NN0gtpound5,000ltc PUNgt, ltw PNPgtit ltw VBZgtis ltw
DT0gtall ltw AV0gtvery ltw AV0gtmuch ltw
VVN-VVDgtneededltc PUNgt. lt/pgt
18
Autres Corpus pour l'anglais
The Bank of English http//titania.cobuild.colli
ns.co.uk/boe_info.html http//titania.cobuild.col
lins.co.uk/direct_info.html The International
Corpus of English (ICE) http//www.ucl.ac.uk/engl
ish-usage/ice.htm     
19
Corpus français (projet PAROLE)
  • Différemment du BNC, les récents projets de
    constitution de corpus en France reposent plutôt
    sur l'assemblage de données préexistantes.
  • Exemple corpus réalisé dans le cadre du projet
    européen Parole (1996-1998).

20
Corpus français (projet PAROLE)
  • Les 20 093 099 mots obtenus se répartissent à
    l'issue du projet en
  • 2 025 964 mots de transcriptions de débats au
    parlement européen,
  • 3 267 409 mots d'une trentaine d'ouvrages de
    disciplines variées
  • (en sciences humaines) fournis par
    CNRS-Éditions,
  • 942 963 mots provenant des notes de
    vulgarisation de la revue CNRS Info
  • et d'articles sur la communication de la
    revue Hermès
  • 13 856 763 mots correspondant à 25 654 articles
    provenant du choix
  • aléatoire de numéros entiers parmi ceux
    des années
  • 1987, 1989, 1991, 1993 et 1995
    du journal Le Monde.
  • Les données rassemblées sont variées, mais pas
    représentatives des emplois principaux du
    français un seul journal, quotidien. La presse
    régionale, les hebdomadaires, la presse
    spécialisée sont absents, ainsi que les langages
    techniques et scientifiques. Néanmoins, très
    utile en pratique.

21
Corpus Français
University of Virginia Electronic Text Centre
 Corpus téléchargeables dans plusieurs langues (y
compris le français) http//etext.lib.virginia.ed
u/uvaonline.html Corpus lexicaux québécois  (Onze
corpus (entre autres, le Trésor de la langue
française au Québec) http//www.spl.gouv.qc.ca/ba
nque/banque.html Corpus 56 56 articles de
journaux (français, canadiens, suisses) http//ta
ctweb.chass.utoronto.ca/french/corp_dat.htm InaLF
Institut National de la Langue
Française http//www.inalf.fr/produits.html
22
Corpus arborés
Une collection de textes permet d'engendrer de
multiples corpus distincts. Chacun de ces corpus
peut donner lieu à des annotations variées
étiquetage morpho-syntaxique, projection de
catégories sémantiques, lemmatisation, etc.
Description de corpus arborés http//www.u-gren
oble3.fr/idl/cursus/enseignants/tutin/corpus.htm h
ttp//treebanks/linguist/jussieu/index.html
23
Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et
1992 (1ère phase). Cest un corpus annoté
denviron 4.5 millions de mots danglais-américain
. Lensemble de ce corpus a presque entièrement
été analysé par arbres. http//www.cis.upenn.edu/
treebank/ Composition résumés du Département
dénergie (230'000 mots)
articles du Dow Jones Newswire (3 mos de mots
dont 1 mo arboré)
bulletins du Département dagriculture (80'000
mots) bibliothèque de
textes américains (105'000 mots)
messages MUC-3 (infos sur les terroristes
en Amérique du Sud) (112K mots)
phrases dATIS (phrases spontanées
transcrites) (20'000 mots)
phrases prononcées en radio (10'000 mots)
Brown Corpus réétiqueté
(1200000 mots) phrases
des manuels IBM (90'000 mots)
24
Étiquetage du Penn Treebank
Le Penn Treebank est en fait un corpus
semi-automatisé car létiquetage et la
parenthétisation sont automatiquement analysés,
mais ensuite corrigés par des annotateurs
humains. Létiquetage du Penn Treebank est basé
sur celui du Brown Corpus qui comportait 87
étiquettes simples. Le nombre détiquettes a été
réduit en éliminant les redondances (c'est-à-dire
en tenant compte des informations lexicales et
syntaxiques), on arrive ainsi à 48 étiquettes (36
étiquettes des parties du discours et 12 autres
pour la ponctuation et les symboles monétaires.
) Lorsque les annotateurs ne réussissent pas à
désambiguïser, ils ont la possibilité de combiner
deux étiquettes. Ainsi, les décisions arbitraires
sont évitées.
25
Étiquetage du Penn Treebank
Exemples Le nombre détiquettes a été réduit. On
a éliminé les distinctions que lon peut déduire
en tenant compte des 1) informations lexicales
2) informations
syntaxiques. (1) Brown PTB sing/VB am/BE
sing/VB am/VB sang/VBD was/BEDZ
sang/VBD was/VBD (2) conjonctions de
subordination et prépositions reçoivent la même
étiquette IN, car les conjonctions précèdent
toujours une phrase tandis que les prépositions
précèdent des SN.
26
Étiquetage du Penn Treebank
Le jeu d'étiquette code la fonction grammatical
si possible afin de faciliter une analyse
syntaxique ultérieure. Exemple
Brown PTB the one/CD the one/NN the
ones/NNS the ones/NNS the fallen/JJ leaf
the fallen/VBN leaf
27
Étiquetage du Penn Treebank
1ère phase l'étiquetage automatique Cet
étiquetage est réalisé par PARTS, un algorithme
développé par les laboratoires ATT. Il s'agit en
fait d'une version modifiée de l'étiquetage du
Brown Corpus, puis de plusieurs étiqueteurs. Le
taux d'erreurs est de 7.9. 2e phase la
correction manuelle Cette correction est réalisée
simplement avec une souris en positionnant le
curseur sur une étiquette fausse et en entrant
l'étiquette souhaitée. Cette donnée entrée
automatiquement est vérifiée afin de voir si elle
appartient bien à la liste d'étiquettes. Si elle
est valide, elle est ajoutée à la paire
mot-étiquette séparée par un astérisque.
L'étiquette fausse n'est pas supprimée afin
d'identifier les erreurs produites à l'étiquetage
automatique des parties du discours. (Dans la
version de distribution du corpus, les étiquettes
fausses de l'étape automatique sont supprimées.)
28
Parenthétisation du Penn Treebank
3e phase la parenthétisation automatique
(réalisé par Fidditch) Fidditch est un analyseur
développé par Donald Hindle (d'abord à
l'université de Pennsylvanie, puis aux
laboratoires de l'ATT), qui est utilisé pour
fournir une analyse initiale. Cet algorithme
laisse beaucoup de constituants non rattachés qui
sont étiquetés "?". Il s'agit des syntagmes
prépositionnels, des propositions relatives et
des compléments circonstanciels. À ce niveau-là,
on n'a pas encore véritablement d'arbre, mais
plutôt plusieurs fragments d'arbres. 4e phase
la parenthétisation simplifiée automatiquement
Les représentations sont simplifiées et aplaties
par la suppression des étiquettes de parties du
discours, des nœuds lexicaux non-branchés et de
certains nœuds.
29
Parenthétisation du Penn Treebank
5e phase La correction du parenthétisation Cette
correction est aussi réalisée à l'aide d'une
souris. Les annotateurs collent tout d'abord les
fragments ensemble, ils corrigent les analyses
incorrectes et effacent certaines structures. La
correction des structures parenthétisées est plus
difficile à réaliser que la correction de
l'étiquetage des parties du discours. Comme on
veut que le Penn Treebank contienne seulement des
structures certaines , il y a deux façons
d'annoter les structures incertaines
l'étiquette de constituant X et le
"pseudo-attachement". L'étiquette de
constituant X est utilisé si un annotateur est
sûr qu'une séquence de mots est un constituant
majeur, mais pas sûr de sa catégorie syntaxique.
Dans ces cas, l'annotateur parenthèse seulement
la séquence et l'étiquette X. Le
"pseudo-attachement" est utilisé pour annoter
"les ambiguïtés permanentes prévisibles".
L'annotateur indique cela quand une structure est
globalement ambiguë même donnée dans un contexte.
30
Exemple d'arbres du Penn Treebank phase 3
( (S (NP (ADJP Battle-tested industrial)
managers) (? here) (? always)
(VP buck)) (? (PP up (NP nervous
newcomers))) (? (PP with (NP the
tale (PP of (NP
the (ADJP first))))))
(? (PP of (NP their countrymen)))
(? (S (NP ) to (VP visit
(NP Mexico)))) (? ,) (? (NP a
boatload (PP of (NP
warriors)) (VP blown (?
ashore) (NP 375 years)))) (?
ago) (? .))
Battle-tested industrial managers here always
buck up nervous newcomers with the tale of the
first of their countrymen to visit Mexico a
boatload of warriors blown ashore 375 years ago
31
Exemple d'arbres du Penn Treebank phase 5
( (S (NP Battle-tested industrial managers
here) always (VP buck up
(NP nervous newcomers) (PP with
(NP the tale (PP of
(NP (NP the (ADJP
first (PP of
(NP their
countrymen))) (S (NP
) to
(VP visit
(NP Mexico))))
, (NP (NP a boatload
(PP of
(NP (NP warriors)
(VP-1 blown
ashore
(ADVP (NP 375
years)
ago))))) (VP-1
pseudo-attach)))))))) .)
32
Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été
réalisée concernant deux modes d'annotation
- l'étiquetage manuel des annotateurs ont
étiqueté des textes
entièrement non annotés, à la main
- la "correction" ils ont vérifié et
corrigé la production de PARTS. Ce test a montré
que l'étiquetage manuel est deux fois plus long
que la simple correction (44 min/1000 mots contre
20 minutes) avec deux fois plus de taux de
désaccord (7.2 contre 3.5) et un taux d'erreurs
50 plus élevé. En ce qui concerne la
structure, les annotateurs peuvent corriger la
structure pleine fournie par Fidditch à une
vitesse moyenne d'environ 375 m/h après 3
semaines et d'environ 475 m/h après 6 semaines.
La réduction à une représentation plus
squelettique augmente la productivité de
l'annotateur d'environ 100 à 200 mots/heure.
Après 3 ou 4 mois d'entraînement, les annotateurs
produisent environ 750, voire même pour certains
plus de 1000 mots/heure. Le taux d'erreurs de la
version finale est estimé à environ 1 .
33
Corfrans corpus arboré en français
Annotation morpho-syntaxique denvirons 400000
mots avec plusieurs variétés de français
(présentés dans le Monde, le Hansard,
lhebdo). Marquage syntaxique automatique avec
lanalyseur Shallow parseur développé par A.
Kinyon qui annote les frontières en minimisant
les cas de rattachement (il se base sur les mots
fonctionnels pour déterminer les frontières de
constituants). Correction manuelle des erreurs
commises lors de lanalyse. Un outil daide à la
correction pour les annotateurs a été
conçu. Définition dun standard dannotation en
constituants qui évite les syntagmes vides, les
syntagmes discontinus qui posent problème lors de
la réalisation darbres syntaxiques. Évaluation
et enrichissement du corpus, dans le but de faire
le point sur les besoins et les outils des
producteurs et utilisateurs de corpus.
34
Corfrans corpus arboré en français
Comment léquipe gère-t-elle le problème de la
discontinuité de la négation ? Ex Jean ne
veut pas venir ne pas pourrait éventuellement
être adverbe continu car il existe des phrases
comme Jean préfère ne pas venir mais pour une
discontinuité avec dautre mots négatifs je ne
veux voir personne on ne peut pas faire un
constituant ne personne car elle ne se trouve
jamais dans une séquence je préfère ne
personne voir. Il ny aura donc pas de syntagmes
discontinues.
35
Corfrans corpus arboré en français
Les solutions Ladverbe négatif "ne" fait
toujours parti du noyau verbal par contre les
forclusifs (mots négatifs pas, jamais, rien )
ne sont pas rattaché au VN sauf sils sont entre
lauxiliaire et le participe passé. Ex Je
ltVNgt ne veux lt/VNgt pas ltVPinfgt ltVNgt venir lt/VNgt
lt/VPinfgt Jean ltVNgt nest pas venu lt/VNgt
Je ltVNgt nai ltNPgt rien Pro lt/NPgt vu lt/VNgt
36
Negr_at_ Corpus
Corpus arborés de l'allemand http//www.coli.uni-
sb.de/sfb378/negra-corpus/negra-corpus.html 355,0
96 tokens (20,602 phrases) tirés du quotidien
allemand Frankfurter Rundschau (Multilingual
Corpus 1 de la European Corpus Initiative). Le
corpus est étiqueté et arboré. Les arbres
peuvent avoir des branches croisées. Si l'on
désire, on peut transformer les branches croisés
en trace et obtenir le même format du Penn
Treebank.
37
Negr_at_ Corpus
Différents types d'information dans le
corpus Part-of-Speech Tags -- Stuttgart-Tübingen-
Tagset (STTS) Analyse Morphologique (60,000
tokens) Catégories syntaxiques et fonction
grammaticales
38
Negr_at_ Corpus exemple
(CS (S-CJ (PPER-SB Sie)
(VVFIN-HD gehen)
(CNP-OA (NP-CJ
(ADJA-NK gewagte)
(NN-NK Verbindungen)
) (KON-CD
und) (NN-CJ Risiken)
) (PTKVZ-SVP ein)
) (, ,) (S-CJ
(VVFIN-HD versuchen) (VP-OC
(NP-OA
(PPOSAT-NK ihre)
(NN-NK Möglichkeiten)
) (VVIZU-HD
auszureizen) ) )
(. .)
39
Canadian Hansards
  • A bilingual corpus of the proceedings of the
    Canadian parliament Contains parallel texts in
    English and French which have been used to
    investigate statistically based machine
    translation.

40
ltPAIRgt ltENGLISHgt no , it is a falsehood .
lt/ENGLISHgt ltFRENCHgt non , ce est un mensonge .
lt/FRENCHgt lt/PAIRgt ltPAIRgt ltENGLISHgt Mr. Speaker ,
the record speaks for itself with regard to what
I said about the price of fertilizer .
lt/ENGLISHgt ltFRENCHgt monsieur le Orateur , ma
déclaration sur le prix de les engrais a été
confirmée par les événements . lt/FRENCHgt lt/PAIRgt
41
Les corpus étiquetés sémantiques
42
Framenet (from their web page)
The Berkeley FrameNet project is creating an
on-line lexical
resource for English,
based on frame semantics and
supported by corpus evidence. The
aim is to document the range of semantic and
syntactic combinatory possibilities (valences) of
each word in each of its senses, through manual
annotation of example sentences and automatic
capture and organization of the annotation
results.
43
Framenet basic concepts
A lexical unit is a pairing of a word with a
meaning. Typically, each sense of a polysemous
word belongs to a different semantic frame, a
script-like structure of inferences that
characterize a type of situation, object, or
event. Each frame contains a predicates and
what are called frame elements (FEs) -
participants and props in the frame whose
linguistic expressions are syntactically
connected to the target word.
44
Framenet Annotation example
Revenge frame Definition An Avenger performs
some Punishment on an Offender as a response to
an earlier action, the Injury, that was inflicted
on an Injured_party. The Avenger need not be
identical to the Injured_party but needs to
consider the prior action of the Offender a
wrong. Importantly, the punishment of the
Offender by the Avenger is seen as justified by
individual or group opinion rather than by law.
Frame elements in the Revenge frame are Avenger,
Punishment, Offender, Injury, and Injured_party.
45
Framenet Annotation example
Lexical units in this frame include avenge.v,
avenger.n, get even.v, retaliate.v,
retaliation.n, retribution.n, retributive.a,
retributory.a, revenge.v, revenge.n,
revengeful.a, revenger.n, vengeance.n,
vengeful.a, and vindictive.a. Some example
sentences with the lexical unit avenge are given
here. His brothers Avenger avenged him
Injured_party. With this, El Cid Agent at
once avenged the death of his son Injury.
Hook Avenger tries to avenge himself
Injured_party on Peter Pan Offender by
becoming a second and better father Punishment.
46
Framenet Annotation example
Here goes a screen dump
47
Framenet Annotation easy cases
Annotation is easiest when all and only the core
frame elements (the conceptually necessary
participants of the frame that a syntactic
governor evokes) find syntactic expression in the
sentence as separate immediate syntactic
dependents of the governor.
48
Framenet Annotationnot so easy cases
Non-core frame elements are conceptually not
necessary in the sense that they do not uniquely
characterize the frame. Thus, for most frames
standing for events or processes, Time and Place
frame elements are not core, and therefore may
not always be annotated. Similarly, actions
often have a Purpose that the Agent intends to
accomplish by performing the action indicated by
the target word. However, having a purpose
doesn't usually distinguish types of actions and
so Purpose is often a non-core frame element, as
in the following example They wake you up to
give you a sleeping pill Purpose.
49
Framenet Annotationmissing frame elements
Sometimes FEs that are conceptually salient do
not show up as lexical or phrasal material in the
sentence chosen for annotation. They are however
annotated to indicate omissibility
conditions. Constructional Null Instantiation
(CNI) Constructionally omitted constituents
(also called structurally omitted) have their
omission licensed by a grammatical construction
in which the target word appears and are
therefore more or less independent of the LU.
Cases of CNI include the omitted subject of
imperative sentences, the omitted agent of
passive sentences, the omitted subjects of
independent gerunds and infinitives (PRO), and so
on
50
Framenet Annotationmissing frame lements
  • Family feuds last for generations, and slurs on
    honor Injury are avenged by murder Punishment
    . CNI Avenger
  • Get even with her Offender for this Injury
    CNI Avenger
  • In addition, we use CNI for missing objects in
    instructional imperatives such as exemplified
    below, even though in this case the omission is
    not dependent on a particular construction, but
    rather on a genre. 
  • Cook on low heat until done. CNI Food
  • Tie together loosely. CNI Items

51
Framenet Annotationmissing frame elements
Definite Null Instantiation (DNI) Cases of
definite null (also called anaphoric)
instantiation are those in which the missing
element must be something that is already
understood in the linguistic or discourse
context. In the following example, the Offender
is not expressed overtly in the syntax, but its
referent has to be known in the context. The
monkey Avenger avenged himself Injured_party
by growing to the size of a giant and setting
fire to the city Punishment. Offender DNI
52
Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI) The
indefinite cases (sometimes also referred to as
existential) are illustrated by the missing
objects of verbs like eat, sew, bake, drink,
etc., that is, cases in which these ordinarily
transitive verbs can be spoken of as used
intransitively. Molly rarely eats alone Granny
begins baking about a month before Christmas Jo
even drinks heavily on weeknights. There are
often special interpretations of the
existentially understood missing objects for
example, with eat the missing entity is likely to
be a meal, with bake it is likely to be
flour-based foods, with drink it is likely to be
alcoholic beverages, etc.
53
Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI)
continued There is no need to retrieve or
construct a specific discourse referent. For
example, in the Revenge frame, all lexical units
happen to allow the frame element Punishment to
be omitted under indefinite null instantiation.
He took it out on Scarlet in the same way as he
Avenger avenged himself Injured_party on her
Offender for the pressures at work and the
demands of his first wife Injury . INI
Punishment Note that usually verbs in a frame
differ in this respect. For instance, while eat
allows its object to be omitted, devour does not,
even though they are both in the Ingestion frame.
54
Framenet Annotationframe element conflation
In some cases, information about two frame
elements is expressed in a single constituent, a
situation we call conflation. For instance, in
the Revenge frame, the Injured_party may be
contained as a possessive in the phrase that
realizes the Injury frame element as seen in the
following example He Avenger avenged Pedro
's death Injury by taking out the poker-faced
Guards Officer Punishment. In this example, the
possessive Pedro's realizes the frame element
Injured_party, the person who suffered the
Injury. Also, We ousted Jones as mayor vs. We
ousted the mayor, where the direct object stands
for both the office and the incumbent.
55
Proposition Bankall following transparencies on
Proposition Bank from web page of ACE
projecthttp//www.cis.upenn.edu/mpalmer/project_
pages/ACE.htmdirectorProfessor Martha
PalmerUniversity of Colorado
56
Proposition Bank
How much can current statistical NLP systems be
made more domain-independent without prohibitive
costs, either in terms of engineering or
annotation? The Proposition Bank is designed as a
broad-coverage resource to facilitate the
development of more general systems. It focuses
on the argument structure of verbs, and provides
a complete corpus annotated with semantic
roles. Correctly identifying the semantic roles
of the sentence constituents is a crucial part of
interpreting text, for information extraction
machine translation or automatic
summarization. http//www.cis.upenn.edu/mpa
lmer/project_pages/ACE.htm
57
PropBank
The Proposition Bank project takes a practical
approach to semantic representation, adding a
layer of predicate-argument information, or
semantic roles, to the syntactic structures of
the Penn Treebank. The resulting resource can
be thought of as shallow, in that it does not
represent coreference, quantification, and many
other higher-order phenomena, but also broad,
in that it covers every verb in the corpus and
allows representative statistics to be
calculated. http//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
58
Proposition Bank From Sentences to
Propositionshttp//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
meet(Somebody1, Somebody2)
. . .
When Powell met Zhu Rongji on Thursday they
discussed the return of the spy
plane. meet(Powell, Zhu) discuss(Powell,
Zhu, return(X, plane))
59
Capturing semantic roleshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm
SUBJ
  • George broke ARG1 the laser pointer.
  • ARG1 The windows were broken by the hurricane.
  • ARG1 The vase broke into pieces when it toppled
    over.

SUBJ
SUBJ
60
A TreeBanked Sentencehttp//www.cis.upenn.edu/mp
almer/project_pages/ACE.htm
S
VP
NP-SBJ
Analysts
NP
S
VP
NP-SBJ
T-1
would
NP
PP-LOC
61
The same sentence, PropBankedhttp//www.cis.upenn
.edu/mpalmer/project_pages/ACE.htm
have been expecting
Arg1
Arg0
Analysts
62
Frames File Example expect
Roles Arg0 expecter Arg1 thing
expected Example Transitive, active
Portfolio managers expect further declines in
interest rates. Arg0
Portfolio managers REL
expect Arg1 further
declines in interest rates http//www.cis.upenn.ed
u/mpalmer/project_pages/ACE.htm
63
Frames File example give
  • Roles
  • Arg0 giver
  • Arg1 thing given
  • Arg2 entity given to
  • Example double object
  • The executives gave the chefs a standing
    ovation.
  • Arg0 The executives
  • REL gave
  • Arg2 the chefs
  • Arg1 a standing
    ovation
  • http//www.cis.upenn.edu/mpalmer/project_pages/AC
    E.htm

64
Word Senses in PropBank
  • Orders to ignore word sense not feasible for 700
    verbs
  • Mary left the room
  • Mary left her daughter-in-law her pearls in her
    will
  • Frameset leave.01 "move away from"
  • Arg0 entity leaving
  • Arg1 place left
  • Frameset leave.02 "give"
  • Arg0 giver
  • Arg1 thing given
  • Arg2 beneficiary

http//www.cis.upenn.edu/mpalmer/project_pages/AC
E.htm
65
Annotation procedurehttp//www.cis.upenn.edu/mpal
mer/project_pages/ACE.htm
  • PTB II - Extraction of all sentences with given
    verb
  • Create Frame File for that verb
  • (3100 lemmas, 4400 framesets,118K predicates)
  • Over 300 created automatically via VerbNet
  • First pass Automatic tagging http//www.cis.upen
    n.edu/josephr/TIDES/index.htmllexicon
  • Second pass Double blind hand correction

  • Tagging tool highlights discrepancies
  • Third pass Solomonization (adjudication)

66
Trends in Argument Numberinghttp//www.cis.upenn.
edu/mpalmer/project_pages/ACE.htm
  • Arg0 agent
  • Arg1 direct object / theme / patient
  • Arg2 indirect object / benefactive / instrument
    / attribute / end state
  • Arg3 start point / benefactive / instrument /
    attribute
  • Arg4 end point
  • Per word vs frame level more general?

67
Additional tags http//www.cis.upenn.edu/mpalmer/
project_pages/ACE.htm(arguments or adjuncts?)
  • Variety of ArgMs (Arggt4)
  • TMP - when?
  • LOC - where at?
  • DIR - where to?
  • MNR - how?
  • PRP -why?
  • REC - himself, themselves, each other
  • PRD -this argument refers to or modifies another
  • ADV others

68
Inflection http//www.cis.upenn.edu/m
palmer/project_pages/ACE.htm
  • Verbs also marked for tense/aspect
  • Passive/Active
  • Perfect/Progressive
  • Third singular (is has does was)
  • Present/Past/Future
  • Infinitives/Participles/Gerunds/Finites
  • Modals and negations marked as ArgMs

69
Frames Multiple Framesetshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm
  • Framesets are not necessarily consistent between
    different senses of the same verb
  • Framesets are consistent between different verbs
    that share similar argument structures,
    (like FrameNet)

70
Résumé du cours
  • Corpus collection de plus dun texte
  • Propriétés représentatif, de taille finie,
    électronique
  • Types de corpus équilibré par échantillonnage
  • de contrôle
  • référence
  • Utilisations lexicographie, théorie linguistique
  • données dentraînement pour apprentissage
    automatique
  • Exemples de corpus
  • de référence British National Corpus
  • arboré Penn Treebank, Corfrans, Negr_at_
  • sémantique FrameNet PropBank
Write a Comment
User Comments (0)
About PowerShow.com