Apprentissage et extraction dinformation - PowerPoint PPT Presentation

1 / 32

About This Presentation

Title:

Apprentissage et extraction dinformation

Description:

MACWORLD EXPO, NEW YORK--July 17, 2002--Apple's first retail store in New York ... The SoHo store will be Apple's largest retail store to date and is a stunning ... – PowerPoint PPT presentation

Number of Views:77

Avg rating:3.0/5.0

Slides: 33

Provided by: willi289

Category:

more less

Transcript and Presenter's Notes

Title: Apprentissage et extraction dinformation

1
Apprentissage et extraction dinformation

William W. Cohen
Carnegie Mellon University
Traduction Thierry Poibeau
Master MICR 2

2
Lextraction dépend du domaine !
Exemple sur le web, moins de grammaire mais plus
dinstruction de formattage et de liens
Web
www.apple.com/retail
Texte dagence de presse
Apple to Open Its First Retail Store in New York
City MACWORLD EXPO, NEW YORK--July 17,
2002--Apple's first retail store in New York City
will open in Manhattan's SoHo district on
Thursday, July 18 at 800 a.m. EDT. The SoHo
store will be Apple's largest retail store to
date and is a stunning example of Apple's
commitment to offering customers the world's best
computer shopping experience. "Fourteen months
after opening our first retail store, our 31
stores are attracting over 100,000 visitors each
week," said Steve Jobs, Apple's CEO. "We hope our
SoHo store will surprise and delight both Mac and
PC users who want to see everything the Mac can
do to enhance their digital lifestyles."
www.apple.com/retail/soho
www.apple.com/retail/soho/theatre.html
La structure (format, liens, présentation) est la
grammaire du web.
3
Aperçu de lextraction (1/4)le degré de
formatage
Texte avec paragraphes sans autre formatage
Texte avec formatage et liens
Astro Teller is the CEO and co-founder of
BodyMedia. Astro holds a Ph.D. in Artificial
Intelligence from Carnegie Mellon University,
where he was inducted as a national Hertz fellow.
His M.S. in symbolic and heuristic computation
and B.S. in computer science are from Stanford
University. His work in science, literature and
business has appeared in international media from
the New York Times to CNN to NPR.
Eléments dinformation éparpillés avec formatage
et liens
Tableaux
4
Aperçu de lextraction (1/4)la couverture visée
(généricité)
Spécifique à un site web
Large, non-spécifique
Spécifique à un genre
Formatage
Langue
Disposition
Pages de Amazon.com
CV
Noms duniversités
5
Aperçu de lextraction (1/4)Complexité
E.g. patrons sur les mots
Ensemble régulier
Ensemble fermé
Numéros de téléphone
Etats U.S.
Phone (413) 545-1323
He was born in Alabama
The CALD main office can be reached at
412-268-1299
The big Wyoming sky
Patrons ambigus, reposant sur le contexte et
des connaissances extérieures
Patrons complexes
Adresses postales U.S.
Noms de personnes
University of Arkansas P.O. Box 140 Hope, AR
71802
was among the six houses sold by Hope Feldman
that year.
Pawel Opalinski, SoftwareEngineer at WhizBang
Labs.
Headquarters 1128 Main Street, 4th
Floor Cincinnati, Ohio 45210
6
Aperçu de lextraction (1/4)Type de relation
Jack Welch will retire as CEO of General Electric
tomorrow. The top role at the Connecticut
company will be filled by Jeffrey Immelt.
Entité simple
Relation binaire
Tableau N-aire
Personne Jack Welch
Relation Personne-Titre Personne Jack
Welch Titre CEO
Relation Succession Société General
Electric Titre CEO Part Jack
Welsh Arrive Jeffrey Immelt
Personne Jeffrey Immelt
Relation Société-Lieu Société General
Electric Lieu Connecticut
Lieu Connecticut
Cas de lextraction dentités nommées
7
Modèles pour lextraction
Dictionnaires
Abraham Lincoln was born in Kentucky.
member?
Alabama Alaska Wisconsin Wyoming
Grammaires hors contexte
Repérage de frontières
Abraham Lincoln was born in Kentucky.
Abraham Lincoln was born in Kentucky.
BEGIN
NNP
V
P
NP
V
NNP
Quelle séquence?
Classifieur
PP
Quelle classe?
VP
NP
VP
BEGIN
END
BEGIN
END
S
8
Vue sommaire sur les techniques
Complexité des patrons
closed set
regular
complex
ambiguous
Traits pris en compte
words
words formatting
formatting
Domaine dapplication
site-specific
genre-specific
general
Arité des patrons
entity
binary
n-ary
Modèle
lexicon
regex
window
boundary
FSM
9
Fenêtres glissantes
10
Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
11
Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
12
Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
13
Fenêtre glissante avec classifieur bayesien naïf
Freitag 1997
00 pm Place Wean Hall Rm 5409
Speaker Sebastian Thrun

w t-m
w t-1
w t
w tn
w tn1
w tnm
préfixe
contenu
suffixe
Estimer Pr(LOCATIONwindow) avec un Bayesien
naïf Essayer toutes les fenêtres raisonnables
(en variant longueur et position) Hypothèse
dindépendance entre longueur, préfixe, suffixe
et contenu Estimer daprès le corpus les
probabilités Pr(Place in prefixLOCATION)
Si P(Wean Hall Rm 5409 LOCATION) est
au-dessus du seuil, alors lextraire
Autre exemple avec fene tre glissante Baluja
et al 2000 (arbre de décision sur les mots et le
contexte
14
Fenêtre glissante avec classifieur bayesien naïf
résultats
Corpus CMU UseNet Seminar Announcements
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Champ F1 Personne 30 Lieu 61 Heure
déb. 98
15
SRV un système dextraction réaliste à base
de fenêtre glissante
Frietag AAAI 98

Quelle longueur de fenêtre prendre en compte?
Toutes les fenêtres comportant au moins autant de
mots que le plus petit exemple et au plus autant
de mots que le plus long exemple
Comment représenter un classifieur? On peut
Réduire la longueur dune fenêtre
Réduire le vocabulaire (ou le formatage)
avant/après/dans la fenêtre
Ne pas utiliser lordre relatif des token
Utiliser la programmation logique inductive pour
exprimer tout cela

lttitlegtCourse Information for CS213lt/titlegt lth1gtCS
213 C Programminglt/h1gt
16
SRV un système dapprentissage de règles pour
lextraction

Prédicats primaires utilisés par SRV
token(X,W), allLowerCase(W), numerical(W),
nextToken(W,U), previousToken(W,V)
Prédicats spécifiques pour le formatage HTML
inTitleTag(W), inH1Tag(W), inEmTag(W),
emphasized(W) inEmTag(W) or inBTag(W) or
tableNextCol(W,U) U is some token in the
column after the column W is in
tablePreviousCol(W,V), tableRowHeader(W,T),

17
SRV un système dapprentissage de règles pour
la classification de fenêtre

Conditions non primaires utilisées par SRV
every(X, f, c) pour tout W dans X f(W)c
some(X, W, ltf1,,fkgt, g, c) il existe W
g(fk((f1(W)))c
tokenLength(X, relop, c)
position(W,direction,relop, c)
e.g., tokenLength(X,gt,4), position(W,fromEnd,lt,2)

18
Rapier une approche alternative
Califf Mooney, AAAI 99

Algorithme bottom-up dapprentissage de règles
initialiser RULES tq il y ait une règle par
exemple
répéter
prendre aléatoirement N paires of règles
(Ri,Rj)
Soit G1,GN une généralisation consistante
Soit G Gi tel que la compression soit
optimisée
Soit RULES RULES G R covers(G,R)
où compression(G,RULES) taille de RULES- R
covers(G,R) et covers(G,R) signifie que
chaque exemple reconnaissant G reconnaît aussi R

19
lttitlegtCourse Information for CS213lt/titlegt lth1gtCS
213 C Programminglt/h1gt
Les différences sont éliminées
courseNum(window1) - token(window1,CS),
doubleton(CS), prevToken(CS,CS213),
inTitle(CS213), nextTok(CS,213),
numeric(213), tripleton(213),
nextTok(213,C), tripleton(C), .
lttitlegtSyllabus and meeting times for Eng
214lt/titlegt lth1gtEng 214 Software Engineering for
Non-programmers lt/h1gt
courseNum(window2) - token(window2,Eng),
tripleton(Eng), prevToken(Eng,214),
inTitle(214), nextTok(Eng,214),
numeric(214), tripleton(214),
nextTok(214,Software),
courseNum(X) - token(X,A),
prevToken(A, B), inTitle(B),
nextTok(A,C)), numeric(C),
tripleton(C), nextTok(C,D),
20
Rapier une approche alternative

Combine une stratégie dapprentissage montante et
descendante (top-down et bottom-up)
Montante pour trouver des restrictions sur le
contenu
Descendante pour ajouter des restrictions sur le
contexte
Utilise analyse morpho-syntaxique
(part-of-speech) et traits sémantiques (de
Wordnet).
Patrons linguistiques fondés sur des séquences de
token, chacun devant satisfaire un ensemble de
contraintes
lt lttok2ate,hit,POS2vbgt, lttok2thegt,
ltPOS2nngtgt

21
Rapier résultats précision/rappel
22
Rapier résultats vs. SRV
23
Apprentissage de règles pour la classification de
fenêtres résumé

SRV, Rapier et WHISK Soderland KDD 97
Les représentations pour les classifieurs
permettent des restrictions sur les liens entre
token, etc
Les représentations sont des sous-ensembles
soigneusement choisis de représentation plus
puissantes (ILP et Prolog)
Lutilisation de ces représentation plus
lourdes est compliquée mais semble donner des
résultats
Quelques questions en suspens
Des représentation plus simples, dordre
propositionnelles peuvent-elles fonctionner ?
(cf. Roth and Yih)
Quelle méthode dapprentissage adopter ?
(Bayesien naïf, ILP, boosting, semi-supervisé
voir Collins Singer)
Quand est-il bon dutiliser ces méthodes?

24
BWI Apprendre à détecter des frontières
Freitag Kushmerick, AAAI 2000

Une autre formulation du problème apprendre
trois classifieurs probabilistes
START(i) Prob(i marque le début dun champ)
END(j) Prob(j marque la fin dun champ)
LEN(k) Prob(le champ a une longueur k)
La probabilité dextraire une séquence (I,j) est
la suivante
START(i) END(j) LEN(j-i)
LEN(k) est estimé par un histogramme

25
BWI Apprendre à détecter des frontières

BWI utilise des techniques de boosting pour
trouver les amorces START et END
Chaque amorce faible a un patron BEFORE et AFTER
(un token avant ou après la position i).
Chaque patron est une séquence de token ou de
jokers comme anyAlphabeticToken, anyToken,
anyUpperCaseLetter, anyNumber,
Laprentissage de patrons ambigus utilise un
algorithme glouton (regard en avant) pour
étendre progressivement les patrons BEFORE et
AFTER

26
BWI Apprendre à détecter des frontières
Champ F1 Personne 30 Lieu 61 Heure
déb. 98
27
Problèmes liés à lusage des fenêtres glissantes
et au repérage de frontières

Les décisions de découpage sont prises
indépendamment les unes des autres
Lapproche par fenêtre glissante peut prédire une
heure de fin de séminaire avant lheure de
début.
Il est possible que deux fenêtres avec un score
au-dessus du seuil fixé se superposent.
Dans un système par repérage de frontières, les
frontières gauxches sont repérées indépendamment
des frontières droites

28
Machines à nombre fini détats
29
Modèles de Markov cachés(Hidden Markov Models)
HMMs est un moyen standard de représenter des
séquences en génomique, musique, parole, TAL
Graphical model
Finite state model
S
S
S
transitions
t
-
1
t
t1
...
...
observations
...
Etats Observations
O
O
O
t
t
1
-
t
1
o1 o2 o3 o4 o5 o6 o7 o8
Paramètres pour tous les états Ss1,s2,
Probabilité de létat initial P(st )
Probabilité des transitions P(stst-1 )
Probabilités des observations P(otst
) Entraînement Maximiser les probabilités
sur les observations (w/ prior)
Usually a multinomial over atomic, fixed alphabet
30
EI avec des Modèles de Markov Cachés
Soit une séquence dobservations
Yesterday Pedro Domingos spoke this example
sentence.
Et un HMM
person name
location name
background
Trouver la séquence détat correspondant à un nom
de personne (Viterbi)
Yesterday Pedro Domingos spoke this example
sentence.
Nimporte quelle séquence reconnue par lautomate
est étiqueté comme nom de personne
Person name Pedro Domingos
31
Exemple de HMM Nymble
Bikel, et al 1998, BBN IdentiFinder
Tâche extraction dentité nommée
Probabilités des transitions
Probabilités des observations
Person
end-of-sentence
P(ot st , st-1 )
P(st st-1, ot-1 )
start-of-sentence
Org
P(ot st , ot-1 )
or

Back-off to
(Five other name classes)
Back-off to
P(st st-1 )
P(ot st )
Other
P(st )
P(ot )
Entraînement sur 500k mots (dépêches dagence).
Case Language F1 . Mixed
English 93 Upper English 91 Mixed Spanish 90

Résultats
Autre exemple (extraction avec HMM) Freitag
and McCallum 99
32
Avoir plus quune simple vue atomique des mots
Représentation plus riche du texte Recours à
des traits nombreux, superposables, etc.
S
S
S
Le mot lui-même Terminaison en -ski En
capitales Fait partie dun GN Est dans une liste
de noms de ville Est situé sous le noeud X dans
WordNet Est en gras Est indenté Est dans un lien
hypertexte Le dernier nom de personne était
féminin Les deux mots suivants sont and
Associates
t
-
1
t
t1

is Wisniewski

part ofnoun phrase
ends in -ski
O
O
O
t
t
1
-
t
1
33
Problèmes dus aux représentations plus riches

Les traits ne sont pas indépendants
Plusieurs niveaux de granularité (caractères,
mots, syntagmes)
Plusieurs registres interdépendant (mots,
formattage, disposition)
Passé et futur
Deux choix

Ignorer les dépendances Cela produit un poids
trop forts lors des comptage. Problème lors du
calcul de la combinaison (Viterbi)
Modéliser les dépendances Caque état à son propre
réseau bayesien (mais on manque déjà de données
pour lapprentissage !
S
S
S
S
S
S
t
-
1
t
t1
t
-
1
t
t1
O
O
O
O
O
O
t
t
t
1
-
t
1
-
t
1
t
1
34
Modèles de séquence conditionnels

On préfère un modèle entraîné pour maximiser la
probabilityé conditionnelle plutôt que la
probabilité jointe P(so) plutôt que P(s,o)
Peut prendre en compte des traits mais ne
soccupe pas de les générer
Na pas à modéliser explicitement les liens de
dépendances entre traits
Ne perd pas de modéliser les éléments lors de
lanalyse

35
Markov Models Conditionnels (CMMs) vs HMMS
St-1
St
St1
...
Ot
Ot1
Ot-1
St-1
St
St1
...
Ot
Ot1
Ot-1
Il existe de nombreuses façons dextimer Pr(y x)
36
Des HMMs aux CRFs
Modèle de séquences à nombre fini détats
conditionnel
McCallum, Freitag Pereira, 2000
Lafferty, McCallum, Pereira 2001
St-1
St
St1
...
ProbabilitéJointe
...
Ot
Ot1
Ot-1
Probabilité conditionelle
where
(un cas spécial de Conditional Random Fields.)

Write a Comment

User Comments (0)