Mettre tout - PowerPoint PPT Presentation

About This Presentation
Title:

Mettre tout

Description:

SP compl ment du nom ou du verbe? J'ai vu l'homme avec les jumelles ... attention, le mot ' pr cision ' est ici ambigu, comme on va le voir plus tard. ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 40
Provided by: dil91
Category:
Tags: ambigu | mettre | tout

less

Transcript and Presenter's Notes

Title: Mettre tout


1
Mettre tout ça ensemble
  • Exemple de problème Attachement du SP
  • Le problème
  • Méthodes possibles
  • Implémentation en Perl
  • Évaluation

2
Le problème
SP complément du nom ou du verbe? Jai vu
lhomme avec les jumelles Jai vu lhomme au
chapeau Je mange la pizza avec la fourchette Je
mange la pizza au fromage Je mange la pizza avec
une bière
3
Pourquoi faut-il résoudre ce problème?

Environ 70 des erreurs de construction de
structure syntaxique pendant une analyse
automatique sont des erreurs dattachement de
SP. Donc, si on améliorait la performance de la
résolution de ce problème, toute lanalyse serait
améliorée.
4
Comment faut-il résoudre ce problème?
  • Jai vu lhomme avec les jumelles
  • Jai vu lhomme au chapeau
  • Je mange la pizza avec la fourchette
  • Je mange la pizza au fromage
  • Je mange la pizza avec une bière
  • Y-a-t-il des régularités visibles qui distinguent
    entre attachement au nom et attachement au verbe?
  • Linformation lexicale, quels mots sont utilisés
    dans la phrase, est cruciale.

5
Attachement du SP méthode manuelle
  1. Récolte dun petit corpus dexemples de SPs avec
    la distinction entre complément du nom ou
    complément du verbe. En général, par
    introspection ou récolte non-systématique de
    données observationnelles
  2. Création de règles régissant les différences
    entre ces deux cas de figure par observation
    jusquà couverture des toutes les données
    observées
  3. Implémentation dun système et extension aux
    exemples qui navaient pas été prévus

6
Méthode manuelle problèmes
  1. Récolte non-systématique des données
    observationnelles, donc pas garantie de
    représentativité
  2. Possibilité de complexité excessive du système de
    règles, surtout si on veut tenir compte des mots
  3. Pas de tests systématiques, ni de tests sur un
    ensemble séparé dexemples, pas dévaluation
    quantitative, difficile à comparer avec dautres
    méthodes

7
Structure dune expérience informatique
Corpus dentraînement ? filtre ?
données dentraînement



apprenant

modèle de classification Corpu
s dentraînement ? filtre ? données test ?
classificateur



données test classifiées

évaluateur

mésures de
performance
8
Mesures de performance exactitude
Supposons quon ait un problème dapprentissage
automatique où il sagit didentifier, parmi un
certain nombre dobjets, lesquels ont la
propriété X. Pour chaque objet, on obtient à
laide dun modèle statistique la réponse  oui 
ou la réponse  non . Comment peut-on évaluer la
performance de notre modèle? Il y a plusieurs
méthodes. La plus simple est ce que nous
appellerons lexactitude ou, parfois, la
précisionmais attention, le mot  précision 
est ici ambigu, comme on va le voir plus
tard. Exactitude Nombre de réponses
correctes Nombre total de réponses
9
Mesures de performance exactitude
Parfois, lexactitude nest pas appropriée.
Supposons quon évalue un engin de recherche
comme Google et quil y ait 1000000 de
documents dont 100 mintéressent. Si je fais le
recherche et Google me propose 50 documents dont
10 sont parmi ces 100, alors Nombre de réponses
correctes 10 (oui qui sont exacts) 999860
(non qui sont exacts) Donc exactitude 999870
/ 1000000 .99987 !!! Pourtant, ce résultat
est en fait mauvais, puisque jai 40 documents
que je ne veux pas et il en manque 90 que je
voudrais.
10
Mesures de performance précision et rappel
Deux autres mesures sont plus utiles ici la
précision et le rappel. Étant donné les valeurs
dans le tableau suivants
Réponse de lalgorithme Réponse de lalgorithme
oui non
Vraie réponse oui vp Vrai positif fn Faux négatif
Vraie réponse Non fp Faux positif vn Vrai négatif
On définit ces mesures ainsi Précision oui
corrects vp / vp fp de oui trouvés Rappel
oui corrects vp / vp fn de oui
réels
11
Mesures de performance précision et rappel
Alors pour notre recherche sur Google, nous avons

Réponse de lalgorithme Réponse de lalgorithme
oui non
Vraie réponse oui 10 90
Vraie réponse Non 40 999860
Précision 10 / 10 40 .2 Rappel 10 / 10
90 .1 Ces mesures sont plus utiles dans ce
cas-ci que Exactitude vp vn / total
12
Mesures de performance mesure F
Une autre mesure est utile, résumant la précision
et le rappel en une seule mesure la mesure
F. Si P est la précision et R est la rappel,
alors F se définit comme F 2PR / P R La
mesure F nous donne un mesure de performance
moyenne. Question pourquoi F et non pas
simplement une moyenne?
F' P R /2
13
Mesures de performance mesure F
F se définit comme F 2PR / P R Elle
est la moyenne harmonique
F 2/ 1/P 1/R Elle donne un mesure
de performance équilibrée. On veut une mesure
equilibrée car on sait que, en pratique,
précision et rappel sont en rélation
inverse. Précision inadéquate Rappel
inadéquat  Équilibre 
vp 100 fn 0
fp 900 vn 999000
vp 20 fn 80
fp 0 vn 999900
vp 80 fn 20
fp 20 vn 999880
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8
14
Mesures de performance mesure F
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8 M .55
M .7 M .8 P
R M
F 1 100 50.5
1.98 2 50
26 3.85 3
33.3 18 5.5 4
25 14.5
6.9 5 20
12.5 8 10 10
10 10
15
Mesures de performance mesure F
P .1 R 1 P 1 R .4 P .8 R .8 F
.18 F .33 F .8 M .55
M .7 M .8 P
R M
F 1 100 50.5
1.98 2 50
26 3.85 3
33.3 18 5.5 4
25 14.5
6.9 5 20
12.5 8 10 10
10 10
16
Mesures de performance exemple 2
  • Supposons davoir 20 verbes. En réalité la moitié
    des verbes appartient à la classe E, tandis que
    lautre moitié appartient à un mélange dautres
    classes qui ne nous intéressent pas. On lappelle
    O. E est la classe dobservations expérimentales,
    tandis que O est la classe de contrôle.
  • Nous lançons notre algorithme et il nous dit que
    8 verbes appartient à la classe E et 12 verbes
    appartient à la classe O.
  • Voici un exemple des données résultats

17
Mesures de performance
  • Verbe Verité Algorithme
  • Floated E O
  • Hiked E E
  • Hurried E O
  • Jumped E E
  • Leaped E E
  • Marched E E
  • Paraded E E
  • Raced E E
  • Rushed E O
  • Skipped E E

Verbe Verité Algorithme Borrowed O O Carved O O
Inherited O O Kicked O E Knitted O O Organised O
O Painted O O Played O O Typed O E Washed O O
Yelled O O
18
Mesures de performance
  • Quel sont le critères de performance qui nous
    intéressent?
  • Si lalgorithme me dit quun verbe est E, quel
    est la probabilité quil se trompe? Est-il
    précis?
  • Pour tous les verbes E qui mintéressent, combien
    lalgorithme arrive-t-il à en trouver? A-t-il
    une bonne couverture?
  • Quel sont les erreurs possibles?
  • Verbes qui en réalité sont de E mais qui ont été
    classés comme O
  • Verbes qui en réalité sont de O mais qui ont été
    classés comme E

19
Mesures de performance
Verbe Verité Algorithme Borrowed O O Carved O O
Inherited O O Kicked O E Knitted O O Organised
O O Painted O O Played O O Typed O E Washed O
O Yelled O O
  • Verbe Verité Algorithme
  • Floated E O
  • Hiked E E
  • Hurried E O
  • Jumped E E
  • Leaped E E
  • Marched E E
  • Paraded E E
  • Raced E E
  • Rushed E O
  • Skipped E E

Algorithme Algorithme Algorithme
Effectifs E O Total
Effectifs E 7 3 10
Effectifs O 2 8 10
Effectifs Total 9 11 20
20
Mesures de performance
Algorithme Algorithme Algorithme
Verité E O Total
Verité E 7 3 10
Verité O 2 8 10
Verité Total 9 11 20
  • Précision E 7 / 9
  • O 8/11
  • Rappel E 7/10
  • O 8/10
  • Exactitude EO 78/20

21
Mesures de performance-Formules générales
Algorithme Algorithme Algorithme
Verité X X Total
Verité X a b ab
Verité X c d cd
Verité Total ac bd abcd
  • Si la classe dobservation qui nous intéresse est
    X alors
  • Précision a/ac
  • Rappel a/ab
  • Exactitude de lalgorithme ad/abcd

22
Attachement du SP méthode basée sur le corpus
  1. Annotation dun corpus dexemples de phrases
    spontanées.
  2. Récolte de SPs dans le corpus avec la distinction
    entre complément du nom ou complément du verbe.
  3. Création dun algorithme apprenant
    automatiquement les règles qui régissent les
    différences entre complément du nom ou complément
    du verbe.
  4. Implémentation de lalgorithme et son
    entraînement sur la base dune partie du corpus.
  5. Évaluation de la précision de lalgorithme sur la
    partie restante du corpus.


Représentativité Exhaustivité, même si
grande variabilité Fiabilité de lévaluation
23
Étape 1
  • Annotation dun corpus dexemples de phrases
    spontanées
  • Questions toutes le questions concernant
    lannotation vue auparavant. Années de travail de
    conception et annotation.
  • Penn TreeBank
  • annotation syntaxique qui distingue les deux
    types dattachement

24
Exemples dans la PTB
( (S (NP-SBJ (NP (NNP Pierre) (NNP
Vinken) ) (VP (MD will) (VP (VB
join) (NP (DT the) (NN board) )
(PP-CLR (IN as) (NP (DT a) (JJ
nonexecutive) (NN
director) )) (NP-TMP (NNP Nov.) (CD 29)
))) (. .) ))
( (S (NP-SBJ (NNP Mr.) (NNP Vinken) )
(VP (VBZ is) (NP-PRD (NP (NN
chairman) ) (PP (IN of) (NP
(NP (NNP Elsevier) (NNP N.V.) )
(, ,) (NP (DT the) (NNP Dutch)
(VBG publishing) (NN group)
))))) (. .) ))

25
Étape 2
2a. Récolte des SPs dans le corpus avec la
distinction entre complément du nom ou complément
du verbe Questions Quest-ce quon veut extraire?
Sous-arbre qui couvre
verbe,
nom et SP Comment arrive-t-on à extraire le
sous-arbre couvrant Verbe, nom et SP, étant donné
les arbres de la PTB? Programme disponible
tgrep2 (Essayez)

26
Étape 2
  • 2b. Simplification et normalisation de données
  • Tête dun syntagme nom pour SN, verbe pour SV
    etc.
  • Lemmatisation on utilise le lemme, soit
    linfinitif pour les verbes et le singulier pour
    les noms. (Lemmatisation avec ER).
  • On transforme le sous-arbre en une suite de têtes
    syntaxiques plus une valeur binaire qui indique
    le type dattachement.
  • Exemple
  • manger pizza avec fourchette 1
  • manger pizza au fromage 0


27
SP n-uplets
VERB NOUN PREP NOUN2 ATTACH abolish levy for
concern 0 accept payment from Linear 0 accompany
President on tour 0 accrue dividend at
0 accumulate wealth across spectrum 0 yank
balloon to ground 1 yield at bank 1 yield in
offering 1 yield in week 1 zip order into
exchange 1

28
Étape 3

3. Création dun algorithme apprenant
automatiquement les règles qui régissent les
différences entre complément du nom ou complément
du verbe Question faut-il comprendre ce quon
apprend ou pas? Autrement dit, faut-il apprendre
grâce à une explication ou par imitation? La
méthode basée sur les corpus utilise souvent
lapprentissage par imitation.
29
Quel algorithme? Essayez
VERB NOUN PREP NOUN2 abolish levy for concern
0 accept payment from Linear 0 accompany
President on tour 0 accrue dividend at
0 accumulate wealth across spectrum 0 yank
balloon to ground 1 yield at bank 1 yield in
offering 1 yield in week 1 zip order into
exchange 1

30
Étape 3 Entraînement
Mémoriser les données dentraînement, c-à-d
mémoriser les n-uplets (têtes,attachement) si
des exemples se répètent, mettre à jour un
compteur On obtient une base de données composé
par tous les n-uplets observés avec leur
fréquence.

31
Étape 3 Test (Collins et Brooks, 1995)
Pour chaque donnée de test, on utilise la suite
de back-offs suivante si on a déjà vu la même
donnée (la même séquence de 4 mots),
alors attachement attachement à
lentraînement sinon si on a vu une (ou
plusieurs) sous-séquence(s) des 3 mots à
lentraînement, alors
attachement attachement majoritaire
de la
(moyenne des) sous-séquences des 3 mots sinon
si on a vu une (ou plusieurs) sous-séquence(s)
des 2 mots à lentraînement,
alors attachement attachement majoritaire
de la
(moyenne des) sous-séquences des 2 mots sinon
si on a vu une (ou plusieurs) sous-séquence(s)
dun mot à lentraînement, alors
attachement attachement majoritaire
de la
(moyenne des) sous-séquences dun mot sinon
attachement majoritaire

32
Étape 3 Test (Collins et Brooks, 1995)
Pour chaque donnée de test if (verbe nom prép.
nom2) in n-uplets dentraînement alors
attachement attachement du n-uplet elsif
(verbe nom prép.), (nom prép. nom2) ou (verbe
prép. nom2) in n-uplets dentraînement
alors attachement attachement majoritaire de
(verbe nom
prép.) (nom prép. nom2) (verbe prép. nom2)
elsif (verbe prép.), (nom prép.) ou (prép. nom2)
in n-uplets dentraînement alors
attachement attachement majoritaire de
(verbe prép.)
(nom nom2) (prép. nom2) elsif (prép.) in
n-uplets dentraînement alors
attachement attachement majoritaire de prép.
sinon attachement majoritaire dans le corpus
dentraînement

33
Back-off
  • Notes à propos de lalgorithme de Collins et
    Brooks (1995)
  • On utilise un suite de back-offs sil ny a
    aucunes données à un niveau donné, on utilise
    plutôt de niveau suivant, plus général, moins
    précis (mais qui contient des données!).
  • Cest un back-off  pur  ici, on ne passe au
    niveau suivant que lorsquil ny a aucunes
    données.
  • Collins et Brooks ont constaté que cétait le
    back-off optimal pour ce problème.
  • Ce nest pas le cas pour la modélisation n-gram
    de langages, par exemple.


34
Back-off
  • Autres méthodes de back-off
  • On passe au niveau suivant si il y a trop peu de
    données, par ex.  moins de 5 .
  •  Back-off smoothing  une formule qui passe
    graduellement au niveau suivant quand la quantité
    de données diminue.
  • Exemple la méthode de Hindle et Rooth, 1993
  • Premier niveau f(n,p) / f(n) ou f(v,p) / f(v),
    c-à-d fréquence dutilisation de la préposition
    avec le nom ou le verbe donné.
  • Deuxième niveau f(N,p) / f(N) ou f(V,p) / f(V),
    c-à-d fréquence dutilisation de la préposition
    avec nimporte quel nom ou verbe.
  • p(prép.nom) estimé par f(n,p) f(N,p)/f(N) /
    f(n) 1.
  • p(prép.verbe) estimé par f(v,p) f(V,p)/f(V)
    / f(v) 1.
  • Lattachement se fait là où la probabilité est
    plus élevée.


35
Étape 4

4. Implémentation de lalgorithme et son
entraînement sur la base dune partie du corpus
36
Exemple
!/usr/bin/perl w use strict use warnings
Computes collects tuples and updates
counts Loads n-uplets ltverbe nom prep
nom2 attachementgt my (noms, verbes, noms,
verbes) open(TRAINING, "training-quads") or die
"Cant open training-quads !\n" while
(ltTRAININGgt) my (v, n, p, n2, a)
split if (a 0) noms"v n p
n2" noms"v p n" noms"n p
n2" noms"v p n2" noms"v
p" noms"n p" noms"p
n2" nomsp noms else
verbes"v n p n2" verbes"v
p n" verbes"n p n2" verbes"v
p n2" verbes"v p" verbes"n
p" verbes"p n2" verbesp
verbes
37
Étape 5 Évaluation
5. Évaluation de la précision de lalgorithme sur
un échantillon de nouvelles phrases Exemple
partiel en Perl

open(TESTING, "testing-quads") or die "Cant open
testing-quads !\n" while (ltTESTINGgt) my
(v, n, p, n2, a) split deviner
lattachement calculer la précision des
réponses imprimer les résultats
38
SP évaluation
Résultats de Collins et Brooks (1995)

Niveau Total Correct Précision ()
Quadruplets 242 224 92.6
Triplets 977 858 87.8
Doublets 1739 1433 92.4
Simplets 136 99 72.8
Restant 3 3 100.0
Total 3097 2617 84.5
39
SP évaluation
Performance minimum et maximum pour Collins et
Brooks (1995)

Méthode Précision ()
Attache toujours au nom 59.0
Attachement majoritaire de prép. 72.2
Moyenne de trois humains (quadruplets) 88.2
Moyenne de trois humains (toute la phrase) 93.2
Write a Comment
User Comments (0)
About PowerShow.com