Title: Mettre tout
1Mettre tout ça ensemble
- Exemple de problème Attachement du SP
- Le problème
- Méthodes possibles
- Implémentation en Perl
- Évaluation
2Le problème
SP complément du nom ou du verbe? Jai vu
lhomme avec les jumelles Jai vu lhomme au
chapeau Je mange la pizza avec la fourchette Je
mange la pizza au fromage Je mange la pizza avec
une bière
3Pourquoi faut-il résoudre ce problème?
Environ 70 des erreurs de construction de
structure syntaxique pendant une analyse
automatique sont des erreurs dattachement de
SP. Donc, si on améliorait la performance de la
résolution de ce problème, toute lanalyse serait
améliorée.
4Comment faut-il résoudre ce problème?
- Jai vu lhomme avec les jumelles
- Jai vu lhomme au chapeau
- Je mange la pizza avec la fourchette
- Je mange la pizza au fromage
- Je mange la pizza avec une bière
- Y-a-t-il des régularités visibles qui distinguent
entre attachement au nom et attachement au verbe? - Linformation lexicale, quels mots sont utilisés
dans la phrase, est cruciale.
5Attachement du SP méthode manuelle
- Récolte dun petit corpus dexemples de SPs avec
la distinction entre complément du nom ou
complément du verbe. En général, par
introspection ou récolte non-systématique de
données observationnelles - Création de règles régissant les différences
entre ces deux cas de figure par observation
jusquà couverture des toutes les données
observées - Implémentation dun système et extension aux
exemples qui navaient pas été prévus
6Méthode manuelle problèmes
- Récolte non-systématique des données
observationnelles, donc pas garantie de
représentativité - Possibilité de complexité excessive du système de
règles, surtout si on veut tenir compte des mots - Pas de tests systématiques, ni de tests sur un
ensemble séparé dexemples, pas dévaluation
quantitative, difficile à comparer avec dautres
méthodes
7Structure dune expérience informatique
Corpus dentraînement ? filtre ?
données dentraînement
apprenant
modèle de classification Corpu
s dentraînement ? filtre ? données test ?
classificateur
données test classifiées
évaluateur
mésures de
performance
8Mesures de performance exactitude
Supposons quon ait un problème dapprentissage
automatique où il sagit didentifier, parmi un
certain nombre dobjets, lesquels ont la
propriété X. Pour chaque objet, on obtient à
laide dun modèle statistique la réponse oui
ou la réponse non . Comment peut-on évaluer la
performance de notre modèle? Il y a plusieurs
méthodes. La plus simple est ce que nous
appellerons lexactitude ou, parfois, la
précisionmais attention, le mot précision
est ici ambigu, comme on va le voir plus
tard. Exactitude Nombre de réponses
correctes Nombre total de réponses
9Mesures de performance exactitude
Parfois, lexactitude nest pas appropriée.
Supposons quon évalue un engin de recherche
comme Google et quil y ait 1000000 de
documents dont 100 mintéressent. Si je fais le
recherche et Google me propose 50 documents dont
10 sont parmi ces 100, alors Nombre de réponses
correctes 10 (oui qui sont exacts) 999860
(non qui sont exacts) Donc exactitude 999870
/ 1000000 .99987 !!! Pourtant, ce résultat
est en fait mauvais, puisque jai 40 documents
que je ne veux pas et il en manque 90 que je
voudrais.
10Mesures de performance précision et rappel
Deux autres mesures sont plus utiles ici la
précision et le rappel. Étant donné les valeurs
dans le tableau suivants
Réponse de lalgorithme Réponse de lalgorithme
oui non
Vraie réponse oui vp Vrai positif fn Faux négatif
Vraie réponse Non fp Faux positif vn Vrai négatif
On définit ces mesures ainsi Précision oui
corrects vp / vp fp de oui trouvés Rappel
oui corrects vp / vp fn de oui
réels
11Mesures de performance précision et rappel
Alors pour notre recherche sur Google, nous avons
Réponse de lalgorithme Réponse de lalgorithme
oui non
Vraie réponse oui 10 90
Vraie réponse Non 40 999860
Précision 10 / 10 40 .2 Rappel 10 / 10
90 .1 Ces mesures sont plus utiles dans ce
cas-ci que Exactitude vp vn / total
12Mesures de performance mesure F
Une autre mesure est utile, résumant la précision
et le rappel en une seule mesure la mesure
F. Si P est la précision et R est la rappel,
alors F se définit comme F 2PR / P R La
mesure F nous donne un mesure de performance
moyenne. Question pourquoi F et non pas
simplement une moyenne?
F' P R /2
13Mesures de performance mesure F
F se définit comme F 2PR / P R Elle
est la moyenne harmonique
F 2/ 1/P 1/R Elle donne un mesure
de performance équilibrée. On veut une mesure
equilibrée car on sait que, en pratique,
précision et rappel sont en rélation
inverse. Précision inadéquate Rappel
inadéquat Équilibre
vp 100 fn 0
fp 900 vn 999000
vp 20 fn 80
fp 0 vn 999900
vp 80 fn 20
fp 20 vn 999880
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8
14Mesures de performance mesure F
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8 M .55
M .7 M .8 P
R M
F 1 100 50.5
1.98 2 50
26 3.85 3
33.3 18 5.5 4
25 14.5
6.9 5 20
12.5 8 10 10
10 10
15Mesures de performance mesure F
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8 M .55
M .7 M .8 P
R M
F 1 100 50.5
1.98 2 50
26 3.85 3
33.3 18 5.5 4
25 14.5
6.9 5 20
12.5 8 10 10
10 10
16Mesures de performance exemple 2
- Supposons davoir 20 verbes. En réalité la moitié
des verbes appartient à la classe E, tandis que
lautre moitié appartient à un mélange dautres
classes qui ne nous intéressent pas. On lappelle
O. E est la classe dobservations expérimentales,
tandis que O est la classe de contrôle. - Nous lançons notre algorithme et il nous dit que
8 verbes appartient à la classe E et 12 verbes
appartient à la classe O. - Voici un exemple des données résultats
17Mesures de performance
- Verbe Verité Algorithme
- Floated E O
- Hiked E E
- Hurried E O
- Jumped E E
- Leaped E E
- Marched E E
- Paraded E E
- Raced E E
- Rushed E O
- Skipped E E
Verbe Verité Algorithme Borrowed O O Carved O O
Inherited O O Kicked O E Knitted O O Organised O
O Painted O O Played O O Typed O E Washed O O
Yelled O O
18Mesures de performance
- Quel sont le critères de performance qui nous
intéressent? - Si lalgorithme me dit quun verbe est E, quel
est la probabilité quil se trompe? Est-il
précis? - Pour tous les verbes E qui mintéressent, combien
lalgorithme arrive-t-il à en trouver? A-t-il
une bonne couverture? - Quel sont les erreurs possibles?
- Verbes qui en réalité sont de E mais qui ont été
classés comme O - Verbes qui en réalité sont de O mais qui ont été
classés comme E
19Mesures de performance
Verbe Verité Algorithme Borrowed O O Carved O O
Inherited O O Kicked O E Knitted O O Organised
O O Painted O O Played O O Typed O E Washed O
O Yelled O O
- Verbe Verité Algorithme
- Floated E O
- Hiked E E
- Hurried E O
- Jumped E E
- Leaped E E
- Marched E E
- Paraded E E
- Raced E E
- Rushed E O
- Skipped E E
Algorithme Algorithme Algorithme
Effectifs E O Total
Effectifs E 7 3 10
Effectifs O 2 8 10
Effectifs Total 9 11 20
20Mesures de performance
Algorithme Algorithme Algorithme
Verité E O Total
Verité E 7 3 10
Verité O 2 8 10
Verité Total 9 11 20
- Précision E 7 / 9
- O 8/11
- Rappel E 7/10
- O 8/10
- Exactitude EO 78/20
21Mesures de performance-Formules générales
Algorithme Algorithme Algorithme
Verité X X Total
Verité X a b ab
Verité X c d cd
Verité Total ac bd abcd
- Si la classe dobservation qui nous intéresse est
X alors - Précision a/ac
- Rappel a/ab
- Exactitude de lalgorithme ad/abcd
22Attachement du SP méthode basée sur le corpus
- Annotation dun corpus dexemples de phrases
spontanées. - Récolte de SPs dans le corpus avec la distinction
entre complément du nom ou complément du verbe. - Création dun algorithme apprenant
automatiquement les règles qui régissent les
différences entre complément du nom ou complément
du verbe. - Implémentation de lalgorithme et son
entraînement sur la base dune partie du corpus. - Évaluation de la précision de lalgorithme sur la
partie restante du corpus.
Représentativité Exhaustivité, même si
grande variabilité Fiabilité de lévaluation
23Étape 1
- Annotation dun corpus dexemples de phrases
spontanées - Questions toutes le questions concernant
lannotation vue auparavant. Années de travail de
conception et annotation. - Penn TreeBank
- annotation syntaxique qui distingue les deux
types dattachement
24Exemples dans la PTB
( (S (NP-SBJ (NP (NNP Pierre) (NNP
Vinken) ) (VP (MD will) (VP (VB
join) (NP (DT the) (NN board) )
(PP-CLR (IN as) (NP (DT a) (JJ
nonexecutive) (NN
director) )) (NP-TMP (NNP Nov.) (CD 29)
))) (. .) ))
( (S (NP-SBJ (NNP Mr.) (NNP Vinken) )
(VP (VBZ is) (NP-PRD (NP (NN
chairman) ) (PP (IN of) (NP
(NP (NNP Elsevier) (NNP N.V.) )
(, ,) (NP (DT the) (NNP Dutch)
(VBG publishing) (NN group)
))))) (. .) ))
25Étape 2
2a. Récolte des SPs dans le corpus avec la
distinction entre complément du nom ou complément
du verbe Questions Quest-ce quon veut extraire?
Sous-arbre qui couvre
verbe,
nom et SP Comment arrive-t-on à extraire le
sous-arbre couvrant Verbe, nom et SP, étant donné
les arbres de la PTB? Programme disponible
tgrep2 (Essayez)
26Étape 2
- 2b. Simplification et normalisation de données
- Tête dun syntagme nom pour SN, verbe pour SV
etc. - Lemmatisation on utilise le lemme, soit
linfinitif pour les verbes et le singulier pour
les noms. (Lemmatisation avec ER). - On transforme le sous-arbre en une suite de têtes
syntaxiques plus une valeur binaire qui indique
le type dattachement. - Exemple
- manger pizza avec fourchette 1
- manger pizza au fromage 0
27SP n-uplets
VERB NOUN PREP NOUN2 ATTACH abolish levy for
concern 0 accept payment from Linear 0 accompany
President on tour 0 accrue dividend at
0 accumulate wealth across spectrum 0 yank
balloon to ground 1 yield at bank 1 yield in
offering 1 yield in week 1 zip order into
exchange 1
28Étape 3
3. Création dun algorithme apprenant
automatiquement les règles qui régissent les
différences entre complément du nom ou complément
du verbe Question faut-il comprendre ce quon
apprend ou pas? Autrement dit, faut-il apprendre
grâce à une explication ou par imitation? La
méthode basée sur les corpus utilise souvent
lapprentissage par imitation.
29Quel algorithme? Essayez
VERB NOUN PREP NOUN2 abolish levy for concern
0 accept payment from Linear 0 accompany
President on tour 0 accrue dividend at
0 accumulate wealth across spectrum 0 yank
balloon to ground 1 yield at bank 1 yield in
offering 1 yield in week 1 zip order into
exchange 1
30Étape 3 Entraînement
Mémoriser les données dentraînement, c-à-d
mémoriser les n-uplets (têtes,attachement) si
des exemples se répètent, mettre à jour un
compteur On obtient une base de données composé
par tous les n-uplets observés avec leur
fréquence.
31Étape 3 Test (Collins et Brooks, 1995)
Pour chaque donnée de test, on utilise la suite
de back-offs suivante si on a déjà vu la même
donnée (la même séquence de 4 mots),
alors attachement attachement à
lentraînement sinon si on a vu une (ou
plusieurs) sous-séquence(s) des 3 mots à
lentraînement, alors
attachement attachement majoritaire
de la
(moyenne des) sous-séquences des 3 mots sinon
si on a vu une (ou plusieurs) sous-séquence(s)
des 2 mots à lentraînement,
alors attachement attachement majoritaire
de la
(moyenne des) sous-séquences des 2 mots sinon
si on a vu une (ou plusieurs) sous-séquence(s)
dun mot à lentraînement, alors
attachement attachement majoritaire
de la
(moyenne des) sous-séquences dun mot sinon
attachement majoritaire
32Étape 3 Test (Collins et Brooks, 1995)
Pour chaque donnée de test if (verbe nom prép.
nom2) in n-uplets dentraînement alors
attachement attachement du n-uplet elsif
(verbe nom prép.), (nom prép. nom2) ou (verbe
prép. nom2) in n-uplets dentraînement
alors attachement attachement majoritaire de
(verbe nom
prép.) (nom prép. nom2) (verbe prép. nom2)
elsif (verbe prép.), (nom prép.) ou (prép. nom2)
in n-uplets dentraînement alors
attachement attachement majoritaire de
(verbe prép.)
(nom nom2) (prép. nom2) elsif (prép.) in
n-uplets dentraînement alors
attachement attachement majoritaire de prép.
sinon attachement majoritaire dans le corpus
dentraînement
33Back-off
- Notes à propos de lalgorithme de Collins et
Brooks (1995) - On utilise un suite de back-offs sil ny a
aucunes données à un niveau donné, on utilise
plutôt de niveau suivant, plus général, moins
précis (mais qui contient des données!). - Cest un back-off pur ici, on ne passe au
niveau suivant que lorsquil ny a aucunes
données. - Collins et Brooks ont constaté que cétait le
back-off optimal pour ce problème. - Ce nest pas le cas pour la modélisation n-gram
de langages, par exemple.
34Back-off
- Autres méthodes de back-off
- On passe au niveau suivant si il y a trop peu de
données, par ex. moins de 5 . - Back-off smoothing une formule qui passe
graduellement au niveau suivant quand la quantité
de données diminue. - Exemple la méthode de Hindle et Rooth, 1993
- Premier niveau f(n,p) / f(n) ou f(v,p) / f(v),
c-à-d fréquence dutilisation de la préposition
avec le nom ou le verbe donné. - Deuxième niveau f(N,p) / f(N) ou f(V,p) / f(V),
c-à-d fréquence dutilisation de la préposition
avec nimporte quel nom ou verbe. - p(prép.nom) estimé par f(n,p) f(N,p)/f(N) /
f(n) 1. - p(prép.verbe) estimé par f(v,p) f(V,p)/f(V)
/ f(v) 1. - Lattachement se fait là où la probabilité est
plus élevée.
35Étape 4
4. Implémentation de lalgorithme et son
entraînement sur la base dune partie du corpus
36Exemple
!/usr/bin/perl w use strict use warnings
Computes collects tuples and updates
counts Loads n-uplets ltverbe nom prep
nom2 attachementgt my (noms, verbes, noms,
verbes) open(TRAINING, "training-quads") or die
"Cant open training-quads !\n" while
(ltTRAININGgt) my (v, n, p, n2, a)
split if (a 0) noms"v n p
n2" noms"v p n" noms"n p
n2" noms"v p n2" noms"v
p" noms"n p" noms"p
n2" nomsp noms else
verbes"v n p n2" verbes"v
p n" verbes"n p n2" verbes"v
p n2" verbes"v p" verbes"n
p" verbes"p n2" verbesp
verbes
37Étape 5 Évaluation
5. Évaluation de la précision de lalgorithme sur
un échantillon de nouvelles phrases Exemple
partiel en Perl
open(TESTING, "testing-quads") or die "Cant open
testing-quads !\n" while (ltTESTINGgt) my
(v, n, p, n2, a) split deviner
lattachement calculer la précision des
réponses imprimer les résultats
38SP évaluation
Résultats de Collins et Brooks (1995)
Niveau Total Correct Précision ()
Quadruplets 242 224 92.6
Triplets 977 858 87.8
Doublets 1739 1433 92.4
Simplets 136 99 72.8
Restant 3 3 100.0
Total 3097 2617 84.5
39SP évaluation
Performance minimum et maximum pour Collins et
Brooks (1995)
Méthode Précision ()
Attache toujours au nom 59.0
Attachement majoritaire de prép. 72.2
Moyenne de trois humains (quadruplets) 88.2
Moyenne de trois humains (toute la phrase) 93.2