Title: Apprentissage et extraction dinformation
1Apprentissage et extraction dinformation
- William W. Cohen
- Carnegie Mellon University
- Traduction Thierry Poibeau
- Master MICR 2
2Lextraction dépend du domaine !
Exemple sur le web, moins de grammaire mais plus
dinstruction de formattage et de liens
Web
www.apple.com/retail
Texte dagence de presse
Apple to Open Its First Retail Store in New York
City MACWORLD EXPO, NEW YORK--July 17,
2002--Apple's first retail store in New York City
will open in Manhattan's SoHo district on
Thursday, July 18 at 800 a.m. EDT. The SoHo
store will be Apple's largest retail store to
date and is a stunning example of Apple's
commitment to offering customers the world's best
computer shopping experience. "Fourteen months
after opening our first retail store, our 31
stores are attracting over 100,000 visitors each
week," said Steve Jobs, Apple's CEO. "We hope our
SoHo store will surprise and delight both Mac and
PC users who want to see everything the Mac can
do to enhance their digital lifestyles."
www.apple.com/retail/soho
www.apple.com/retail/soho/theatre.html
La structure (format, liens, présentation) est la
grammaire du web.
3Aperçu de lextraction (1/4)le degré de
formatage
Texte avec paragraphes sans autre formatage
Texte avec formatage et liens
Astro Teller is the CEO and co-founder of
BodyMedia. Astro holds a Ph.D. in Artificial
Intelligence from Carnegie Mellon University,
where he was inducted as a national Hertz fellow.
His M.S. in symbolic and heuristic computation
and B.S. in computer science are from Stanford
University. His work in science, literature and
business has appeared in international media from
the New York Times to CNN to NPR.
Eléments dinformation éparpillés avec formatage
et liens
Tableaux
4Aperçu de lextraction (1/4)la couverture visée
(généricité)
Spécifique à un site web
Large, non-spécifique
Spécifique à un genre
Formatage
Langue
Disposition
Pages de Amazon.com
CV
Noms duniversités
5Aperçu de lextraction (1/4)Complexité
E.g. patrons sur les mots
Ensemble régulier
Ensemble fermé
Numéros de téléphone
Etats U.S.
Phone (413) 545-1323
He was born in Alabama
The CALD main office can be reached at
412-268-1299
The big Wyoming sky
Patrons ambigus, reposant sur le contexte et
des connaissances extérieures
Patrons complexes
Adresses postales U.S.
Noms de personnes
University of Arkansas P.O. Box 140 Hope, AR
71802
was among the six houses sold by Hope Feldman
that year.
Pawel Opalinski, SoftwareEngineer at WhizBang
Labs.
Headquarters 1128 Main Street, 4th
Floor Cincinnati, Ohio 45210
6Aperçu de lextraction (1/4)Type de relation
Jack Welch will retire as CEO of General Electric
tomorrow. The top role at the Connecticut
company will be filled by Jeffrey Immelt.
Entité simple
Relation binaire
Tableau N-aire
Personne Jack Welch
Relation Personne-Titre Personne Jack
Welch Titre CEO
Relation Succession Société General
Electric Titre CEO Part Jack
Welsh Arrive Jeffrey Immelt
Personne Jeffrey Immelt
Relation Société-Lieu Société General
Electric Lieu Connecticut
Lieu Connecticut
Cas de lextraction dentités nommées
7Modèles pour lextraction
Dictionnaires
Abraham Lincoln was born in Kentucky.
member?
Alabama Alaska Wisconsin Wyoming
Grammaires hors contexte
Repérage de frontières
Abraham Lincoln was born in Kentucky.
Abraham Lincoln was born in Kentucky.
BEGIN
NNP
V
P
NP
V
NNP
Quelle séquence?
Classifieur
PP
Quelle classe?
VP
NP
VP
BEGIN
END
BEGIN
END
S
8Vue sommaire sur les techniques
Complexité des patrons
closed set
regular
complex
ambiguous
Traits pris en compte
words
words formatting
formatting
Domaine dapplication
site-specific
genre-specific
general
Arité des patrons
entity
binary
n-ary
Modèle
lexicon
regex
window
boundary
FSM
9Fenêtres glissantes
10Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
11Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
12Extraction avec fenêtre glissante
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Recherche du lieu du séminaire
Corpus CMU UseNet Seminar Announcement
13Fenêtre glissante avec classifieur bayesien naïf
Freitag 1997
00 pm Place Wean Hall Rm 5409
Speaker Sebastian Thrun
w t-m
w t-1
w t
w tn
w tn1
w tnm
préfixe
contenu
suffixe
Estimer Pr(LOCATIONwindow) avec un Bayesien
naïf Essayer toutes les fenêtres raisonnables
(en variant longueur et position) Hypothèse
dindépendance entre longueur, préfixe, suffixe
et contenu Estimer daprès le corpus les
probabilités Pr(Place in prefixLOCATION)
Si P(Wean Hall Rm 5409 LOCATION) est
au-dessus du seuil, alors lextraire
Autre exemple avec fene tre glissante Baluja
et al 2000 (arbre de décision sur les mots et le
contexte
14Fenêtre glissante avec classifieur bayesien naïf
résultats
Corpus CMU UseNet Seminar Announcements
GRAND CHALLENGES FOR MACHINE LEARNING
Jaime Carbonell School of Computer
Science Carnegie Mellon University
330 pm 7500 Wean
Hall Machine learning has evolved from obscurity
in the 1970s into a vibrant and popular
discipline in artificial intelligence during the
1980s and 1990s. As a result of its success and
growth, machine learning is evolving into a
collection of related disciplines inductive
concept acquisition, analytic learning in problem
solving (e.g. analogy, explanation-based
learning), learning theory (e.g. PAC learning),
genetic algorithms, connectionist learning,
hybrid systems, and so on.
Champ F1 Personne 30 Lieu 61 Heure
déb. 98
15SRV un système dextraction réaliste à base
de fenêtre glissante
Frietag AAAI 98
- Quelle longueur de fenêtre prendre en compte?
- Toutes les fenêtres comportant au moins autant de
mots que le plus petit exemple et au plus autant
de mots que le plus long exemple - Comment représenter un classifieur? On peut
- Réduire la longueur dune fenêtre
- Réduire le vocabulaire (ou le formatage)
avant/après/dans la fenêtre - Ne pas utiliser lordre relatif des token
- Utiliser la programmation logique inductive pour
exprimer tout cela
lttitlegtCourse Information for CS213lt/titlegt lth1gtCS
213 C Programminglt/h1gt
16SRV un système dapprentissage de règles pour
lextraction
- Prédicats primaires utilisés par SRV
- token(X,W), allLowerCase(W), numerical(W),
- nextToken(W,U), previousToken(W,V)
- Prédicats spécifiques pour le formatage HTML
- inTitleTag(W), inH1Tag(W), inEmTag(W),
- emphasized(W) inEmTag(W) or inBTag(W) or
- tableNextCol(W,U) U is some token in the
column after the column W is in - tablePreviousCol(W,V), tableRowHeader(W,T),
17SRV un système dapprentissage de règles pour
la classification de fenêtre
- Conditions non primaires utilisées par SRV
- every(X, f, c) pour tout W dans X f(W)c
- some(X, W, ltf1,,fkgt, g, c) il existe W
g(fk((f1(W)))c - tokenLength(X, relop, c)
- position(W,direction,relop, c)
- e.g., tokenLength(X,gt,4), position(W,fromEnd,lt,2)
18Rapier une approche alternative
Califf Mooney, AAAI 99
- Algorithme bottom-up dapprentissage de règles
- initialiser RULES tq il y ait une règle par
exemple - répéter
- prendre aléatoirement N paires of règles
(Ri,Rj) - Soit G1,GN une généralisation consistante
- Soit G Gi tel que la compression soit
optimisée - Soit RULES RULES G R covers(G,R)
-
- où compression(G,RULES) taille de RULES- R
covers(G,R) et covers(G,R) signifie que
chaque exemple reconnaissant G reconnaît aussi R
19lttitlegtCourse Information for CS213lt/titlegt lth1gtCS
213 C Programminglt/h1gt
Les différences sont éliminées
courseNum(window1) - token(window1,CS),
doubleton(CS), prevToken(CS,CS213),
inTitle(CS213), nextTok(CS,213),
numeric(213), tripleton(213),
nextTok(213,C), tripleton(C), .
lttitlegtSyllabus and meeting times for Eng
214lt/titlegt lth1gtEng 214 Software Engineering for
Non-programmers lt/h1gt
courseNum(window2) - token(window2,Eng),
tripleton(Eng), prevToken(Eng,214),
inTitle(214), nextTok(Eng,214),
numeric(214), tripleton(214),
nextTok(214,Software),
courseNum(X) - token(X,A),
prevToken(A, B), inTitle(B),
nextTok(A,C)), numeric(C),
tripleton(C), nextTok(C,D),
20Rapier une approche alternative
- Combine une stratégie dapprentissage montante et
descendante (top-down et bottom-up) - Montante pour trouver des restrictions sur le
contenu - Descendante pour ajouter des restrictions sur le
contexte - Utilise analyse morpho-syntaxique
(part-of-speech) et traits sémantiques (de
Wordnet). - Patrons linguistiques fondés sur des séquences de
token, chacun devant satisfaire un ensemble de
contraintes - lt lttok2ate,hit,POS2vbgt, lttok2thegt,
ltPOS2nngtgt
21Rapier résultats précision/rappel
22Rapier résultats vs. SRV
23Apprentissage de règles pour la classification de
fenêtres résumé
- SRV, Rapier et WHISK Soderland KDD 97
- Les représentations pour les classifieurs
permettent des restrictions sur les liens entre
token, etc - Les représentations sont des sous-ensembles
soigneusement choisis de représentation plus
puissantes (ILP et Prolog) - Lutilisation de ces représentation plus
lourdes est compliquée mais semble donner des
résultats - Quelques questions en suspens
- Des représentation plus simples, dordre
propositionnelles peuvent-elles fonctionner ?
(cf. Roth and Yih) - Quelle méthode dapprentissage adopter ?
(Bayesien naïf, ILP, boosting, semi-supervisé
voir Collins Singer) - Quand est-il bon dutiliser ces méthodes?
24BWI Apprendre à détecter des frontières
Freitag Kushmerick, AAAI 2000
- Une autre formulation du problème apprendre
trois classifieurs probabilistes - START(i) Prob(i marque le début dun champ)
- END(j) Prob(j marque la fin dun champ)
- LEN(k) Prob(le champ a une longueur k)
- La probabilité dextraire une séquence (I,j) est
la suivante - START(i) END(j) LEN(j-i)
- LEN(k) est estimé par un histogramme
25BWI Apprendre à détecter des frontières
- BWI utilise des techniques de boosting pour
trouver les amorces START et END - Chaque amorce faible a un patron BEFORE et AFTER
(un token avant ou après la position i). - Chaque patron est une séquence de token ou de
jokers comme anyAlphabeticToken, anyToken,
anyUpperCaseLetter, anyNumber, - Laprentissage de patrons ambigus utilise un
algorithme glouton (regard en avant) pour
étendre progressivement les patrons BEFORE et
AFTER
26BWI Apprendre à détecter des frontières
Champ F1 Personne 30 Lieu 61 Heure
déb. 98
27Problèmes liés à lusage des fenêtres glissantes
et au repérage de frontières
- Les décisions de découpage sont prises
indépendamment les unes des autres - Lapproche par fenêtre glissante peut prédire une
heure de fin de séminaire avant lheure de
début. - Il est possible que deux fenêtres avec un score
au-dessus du seuil fixé se superposent. - Dans un système par repérage de frontières, les
frontières gauxches sont repérées indépendamment
des frontières droites
28Machines à nombre fini détats
29Modèles de Markov cachés(Hidden Markov Models)
HMMs est un moyen standard de représenter des
séquences en génomique, musique, parole, TAL
Graphical model
Finite state model
S
S
S
transitions
t
-
1
t
t1
...
...
observations
...
Etats Observations
O
O
O
t
t
1
-
t
1
o1 o2 o3 o4 o5 o6 o7 o8
Paramètres pour tous les états Ss1,s2,
Probabilité de létat initial P(st )
Probabilité des transitions P(stst-1 )
Probabilités des observations P(otst
) Entraînement Maximiser les probabilités
sur les observations (w/ prior)
Usually a multinomial over atomic, fixed alphabet
30EI avec des Modèles de Markov Cachés
Soit une séquence dobservations
Yesterday Pedro Domingos spoke this example
sentence.
Et un HMM
person name
location name
background
Trouver la séquence détat correspondant à un nom
de personne (Viterbi)
Yesterday Pedro Domingos spoke this example
sentence.
Nimporte quelle séquence reconnue par lautomate
est étiqueté comme nom de personne
Person name Pedro Domingos
31Exemple de HMM Nymble
Bikel, et al 1998, BBN IdentiFinder
Tâche extraction dentité nommée
Probabilités des transitions
Probabilités des observations
Person
end-of-sentence
P(ot st , st-1 )
P(st st-1, ot-1 )
start-of-sentence
Org
P(ot st , ot-1 )
or
Back-off to
(Five other name classes)
Back-off to
P(st st-1 )
P(ot st )
Other
P(st )
P(ot )
Entraînement sur 500k mots (dépêches dagence).
Case Language F1 . Mixed
English 93 Upper English 91 Mixed Spanish 90
Résultats
Autre exemple (extraction avec HMM) Freitag
and McCallum 99
32Avoir plus quune simple vue atomique des mots
Représentation plus riche du texte Recours à
des traits nombreux, superposables, etc.
S
S
S
Le mot lui-même Terminaison en -ski En
capitales Fait partie dun GN Est dans une liste
de noms de ville Est situé sous le noeud X dans
WordNet Est en gras Est indenté Est dans un lien
hypertexte Le dernier nom de personne était
féminin Les deux mots suivants sont and
Associates
t
-
1
t
t1
is Wisniewski
part ofnoun phrase
ends in -ski
O
O
O
t
t
1
-
t
1
33Problèmes dus aux représentations plus riches
- Les traits ne sont pas indépendants
- Plusieurs niveaux de granularité (caractères,
mots, syntagmes) - Plusieurs registres interdépendant (mots,
formattage, disposition) - Passé et futur
- Deux choix
Ignorer les dépendances Cela produit un poids
trop forts lors des comptage. Problème lors du
calcul de la combinaison (Viterbi)
Modéliser les dépendances Caque état à son propre
réseau bayesien (mais on manque déjà de données
pour lapprentissage !
S
S
S
S
S
S
t
-
1
t
t1
t
-
1
t
t1
O
O
O
O
O
O
t
t
t
1
-
t
1
-
t
1
t
1
34Modèles de séquence conditionnels
- On préfère un modèle entraîné pour maximiser la
probabilityé conditionnelle plutôt que la
probabilité jointe P(so) plutôt que P(s,o) - Peut prendre en compte des traits mais ne
soccupe pas de les générer - Na pas à modéliser explicitement les liens de
dépendances entre traits - Ne perd pas de modéliser les éléments lors de
lanalyse
35Markov Models Conditionnels (CMMs) vs HMMS
St-1
St
St1
...
Ot
Ot1
Ot-1
St-1
St
St1
...
Ot
Ot1
Ot-1
Il existe de nombreuses façons dextimer Pr(y x)
36Des HMMs aux CRFs
Modèle de séquences à nombre fini détats
conditionnel
McCallum, Freitag Pereira, 2000
Lafferty, McCallum, Pereira 2001
St-1
St
St1
...
ProbabilitéJointe
...
Ot
Ot1
Ot-1
Probabilité conditionelle
where
(un cas spécial de Conditional Random Fields.)