Estrazione di informazioni da testo - PowerPoint PPT Presentation

1 / 91
About This Presentation
Title:

Estrazione di informazioni da testo

Description:

Bridgestone Sports Co. said Friday it had set up a joint venture in Taiwan with ... produce golf clubs to be supplied to Japan. ... – PowerPoint PPT presentation

Number of Views:89
Avg rating:3.0/5.0
Slides: 92
Provided by: pia77
Category:

less

Transcript and Presenter's Notes

Title: Estrazione di informazioni da testo


1
Estrazione di informazioni da testo
2
Perchè occuparsene?
  • E unapplicazione particolarmente complessa.
  • Sfrutta la maggior parte delle risorse utilizzate
    in compiti di analisi.
  • Il suo studio permette quindi di avere una buona
    panoramica delle problematiche e delle tecnologie
    utilizzate nellanalisi del linguaggio naturale.

3
Cosa è lEstrazione di Informazioni da Testo?
  • Information retrieval (IR) cercare e
    informazioni in testi a fronte di richieste
    specifiche.
  • Recupero di passaggi cercare e trovare passaggi
    (paragrafi, frasi) allinterno di un testo che
    possano fornire risposte a determinati quesiti.
  • Estrazione di informazioni (IE) trovare
    informazioni che possano riempire schemi
    (templates) predefiniti.
  • Domanda-risposta (Question-answering) dare
    risposte a domande di tipo generale formulate da
    un utente IEIR
  • Comprensione di testi modellare la comprensione
    dei testi da parte di umani.

4
Tipo di domande
  • IR
  • Recupero di passaggi
  • IE
  • Domanda/risposta
  • Comprensione dei testi

Pre-definite. Aspetti fissi della informazione
testuale
5
Un esempio FASTUS (1993)
  • Bridgestone Sports Co. said Friday it had set up
    a joint venture in Taiwan with a local concern
    and a Japanese trading house to produce golf
    clubs to be supplied to Japan.
  • The joint venture, Bridgestone Sports Taiwan Co.,
    capitalized at 20 million new Taiwan dollars,
    will start production in January 1990 with
    production of 20,000 iron and metal wood clubs
    a month.

6
Un esempio FASTUS (1993)
  • Bridgestone Sports Co. said Friday it had set up
    a joint venture in Taiwan with a local concern
    and a Japanese trading house to produce golf
    clubs to be supplied to Japan.
  • The joint venture, Bridgestone Sports Taiwan Co.,
    capitalized at 20 million new Taiwan dollars,
    will start production in January 1990 with
    production of 20,000 iron and metal wood clubs
    a month

7
  • Bridgestone Sports Co. said Friday it had set up
    a joint venture in Taiwan with a local concern
    and a Japanese trading house to produce golf
    clubs to be supplied to Japan.
  • The joint venture, Bridgestone Sports Taiwan Co.,
    capitalized at 20
  • million new Taiwan dollars, will start production
    in January 1990
  • with production of 20,000 iron and metal wood
    clubs a month

8
  • Bridgestone Sports Co. said Friday it had set up
    a joint venture
  • in Taiwan with a local concern and a Japanese
    trading house to
  • produce golf clubs to be supplied to Japan.
  • The joint venture, Bridgestone Sports Taiwan Co.,
    capitalized at 20
  • million new Taiwan dollars, will start production
    in January 1990
  • with production of 20,000 iron and metal wood
    clubs a month.

9
Come funziona FASTUS
1.Parole complesse e nomi propri
set up new Twaiwan dollars
2.Sintagmi semplici nominali, verbali,
particelle
a Japanese trading house had set up
3.Sintagmi complessi
4.Eventi rilevanti Costruzione di semplici
templates
5. Fusione di templates, nel caso Presentino
informazioni sullo stesso evento
10
(No Transcript)
11
Altro esempio un template sbagliato
. Jurgen Pfrang, 51, reportedly stumbled upon
the robbers on the second floor of his Nanjing
home early on Sunday. The deputy general manager
of Yaxing Benz, a Sino-German joint venture that
makes buses and bus chassis in nearby
Yangzhou, was hacked to death with 45 cm
watermelon knives. .
Name of the Venture Yaxing Benz Products
buses and bus chassis Location
Yangzhou,China Companies involved
(1)Name X?
Country German
(2)Name Y?
Country China

Template sbagliato
12
Template giusto
A German vehicle-firm executive was stabbed to
death . . Jurgen Pfrang, 51, reportedly
stumbled upon the robbers on the second floor of
his Nanjing home early on Sunday. The deputy
general manager of Yaxing Benz, a Sino-German
joint venture that makes buses and bus chassis
in nearby Yangzhou, was hacked to death with 45
cm watermelon knives. .
Crime-Type Murder Type
Stabbing The killed Name Jurgen Pfrang
Age 51
Profession Deputy general
manager Location Nanjing, China

13
Chi esegue linterpretazione?
(1) IR
(2) Recupero passaggi
(3) IE
(4) Domanda/risposta
(5) Comprensione testi
14
Sistema di IR
Insieme di testi
15
Sistema di IR
Insieme di testi
16
Recupero passaggi IR
Insieme di testi
17
Recupero passaggi IR
Sistema di IE
Insieme di testi
testi
18
Sistema di IE
Templates
testi
19
IE un approccio Pragmatico al NLP
Interpretazaione
IE
Templates
Testi
Predefinito
20
Valutazione delle prestazioni
(1)IR,
(2) recupero passaggi
(3) ie
(4) Domanda/Risposa
(5) Comprensione di testi
21
Insieme dei documenti
22
Insieme dei documenti
Il tutto è più complicato per la Possibilità di
template parzialmente riempiti
23
Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
24
Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
Analisi sintattica
Analisi semantica
Contesto interpretazione
25
Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
26
Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
27
Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
Mario è uno studente. Lui corre.
28
Architettura generica per NLP
Tokenizzazione Marcatura a parti del
discorso Morfologia flessionale
e derivazionale Nomi composti Riconoscimento
di terminologia
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
29
Tokenizzazione
  • Luomo savvicinò alla ragazza domandandole che
    ore erano.
  • l
  • uomo
  • si
  • avvicinomarca per accento
  • a
  • la
  • ragazza
  • domandando
  • le
  • che
  • ore
  • erano
  • .

30
Tokenizzazione
  • I testi, così come si prentano, obbediscono a
    convenzioni tipografiche ed ortografiche.
  • Per poter procedere alle fasi successive di
    analisi occorre poter individuare gli elementi
    (token) ai quali esse si applicheranno.
  • alle a le.
  • Inoltre, occorre normalizzare ogni token rispetto
    alle convenzioni tipografiche.
  • luomo l uomo
  • avvicinò avvicinomarca per accento
  • erano. erano .

31
Analizzatore morfologico
  • Modulo che, data una parola, restituisce tutti i
    lemmi a cui può essere ricondotta, insieme ai
    tratti flessionali rilevanti
  • Porta (portare, V, 3sing, pres, ind)
  • (portare, V, 2sing, pres, imp)
  • (porta, N, fem, sing)

32
  • l (lo, Art, mas, sing), (lo, Art, fem, sing),
    (lo, pron, 3, mas, sing, acc), (lo, pron, 3,
    fem, sing, acc)
  • uomo (uomo, N, mas, sing)
  • si (si, pron-rifl, 3, sing), (si, pron-rifl, 3,
    plu)
  • avvicinomarca per accento (avvicinare, V, 3,
    sing, pass-rem, ind.)
  • a (a, prep)
  • la (lo, Art, fem, sing) (lo, pron, 3, fem,
    sing, acc)
  • ragazza (ragazza, N, fem, sing)
  • domandando (domandare, V, pres, ger.)
  • le (lo, Art, fem, plu) (lo, pron, fem, plu, acc)
    (lo, pron, fem, sing, dat)
  • che (che, comp)
  • ore (ora, N, fem, plu)
  • erano (essere, V, 3, plu, impf, ind.)

33
Marcatore di parti del discorso (POS)
  • Modulo che permette di assegnare, in maniera
    univoca, la corretta categoria grammaticale (ed i
    tratti relativi) ad una data parola.
  • Di solito, un POS-tagger si basa su informazioni
    di tipo statistico.
  • Tali informazioni sono desunte automaticamente a
    partire da un corpus etichettato

34
  • l (lo, Art, mas, sing)
  • uomo (uomo, N, mas, sing)
  • si (si, pron-rifl, 3, sing),
  • avvicinomarca per accento (avvicinare, V, 3,
    sing, pass-rem, ind.)
  • a (a, prep)
  • la (lo, Art, fem, sing)
  • ragazza (ragazza, N, fem, sing)
  • domandando (domandare, V, pres, ger.)
  • le (lo, pron, fem, sing, dat)
  • che (che, comp)
  • ore (ora, N, fem, plu)
  • erano (essere, V, 3, plu, impf, ind.)

35
Riconoscimento di terminologia
  • In molti casi, un lessico generico non è in grado
    di fornire linformazione adeguata.
  • Ciò avviene soprattutto se si lavora su domini
    specialistici.
  • Compilatore modulo software che traduce un
    programma in un linguaggio di alto livello (C,
    C, Basic, Fortran, ecc.) in istruzioni del
    linguaggio macchina.
  • Compilatorecolui che compila qualcosa.

36
  • Tasso dinteresse
  • Tasso di sconto
  • Indice MIBTEL
  • Benzodiazepina
  • Laparatomia

37
Problemi per lelaborazione del linguaggio
naturale
  • Robustezza come tutti i sistemi software, anche
    un sistema di NLP non deve mai fermarsi,
    piantarsi senza essere in grado di dare una
    qualche risposta.
  • Robustezza un sistema di NLP non deve mai dire
    mi dispiace.

38
Architettura generica per NLP
Lessico incompleto Parole di classi
aperte Terminologia Riconoscimento termini Nomi
propri (named entities) Persone Società Luoghi .
1) Robustezza Conoscenza incompleta
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
39
Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
1) Robustezza Conoscenza incompleta
Grammatiche incomplete copertura sintattica
costruzioni particolari del dominio
costruzioni non grammaticali
Analisi sintattica
Analisi semantica
Contesto interpretazione
40
Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
1) Robustezza Conoscenza incompleta
Analisi sintattica
Analisi semantica
Conoscenza sul dominio e regole
dinterpretazione Incomplete
Contesto interpretazione
41
Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
  • Robustezza Conoscenza incompleta
  • Ambiguità, esplosione combinatoria

Analisi sintattica
Ambiguità strutturali
Analisi semantica
Contesto interpretazione
42
Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
  • Robustezza Conoscenza incompleta
  • Ambiguità, esplosione combinatoria

Analisi sintattica
Ambiguità strutturali
Analisi semantica
Ambiguità sulla struttura pred-arg.
Contesto interpretazione
43
Ambiguità attaccamento di sintagmi preposizionali
SV V SN SV V SN SP SN Art N SN Art N SP
Loro guardano luomo con il canocchiale
S
S
SN
SV
SN
SV
V
SN
Pron
V
SP
SN
Pron
SP
guardano
Art
N
loro
SN
guardano
P
Art
N
SN
loro
P
uomo
lo
Art
N
con
uomo
lo
Art
N
con
canocchiale
il
canocchiale
il
44
Ambiguità attaccamento di sintagmi preposizionali
X
Z
Y
W
J
K
Y
SP
B
A
45
Ambiguità attaccamento di sintagmi preposizionali
X
W K X
Z
Y
W
X
K
Z
Y
SP
W
J
K
Y
B
A
46
Ambiguità coordinazione
  • Mario e Carlo o Giusi
  • (Mario e Carlo) o Giusi
  • (Mario e (Carlo o Giusi))

47
Ambiguità coordinazione attaccamento di SP
  • Ho visto Mario e Carlo o Giusi con il binocolo
  • Ho visto
  • ((Mario e Carlo) o Giusi) con il binocolo
  • (Mario e Carlo) o (Giusi con il binocolo)
  • (Mario e (Carlo o Giusi)) con il binocolo
  • (Mario e ((Carlo o Giusi) con il binocolo))
  • (Mario e (Carlo o (Giusi con il binocolo))
  • Ho visto con il binocolo
  • ((Mario e Carlo) o Giusi)
  • (Mario e (Carlo o Giusi)

48
Altre ambiguità strutturali
  • Il manager della Cucirini Cantoni, Andrea Rossi.
  • Il manager della Cucirini Cantoni, società del
    ramo Vita.

49
Ambiguità semantiche
  • John bought a car with Mary.
  • 3000 can buy a nice car.
  • Ogni compagnia ha incontrato un rappresentante
    del ministero.
  • Maria disse a sua madre che nessuno le aveva
    detto la verità perché ..

50
Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
  • Robustezza Conoscenza incompleta
  • Ambiguità, esplosione combinatoria

Analisi sintattica
Ambiguità strutturali
Analisi semantica
Ambiguità sulla struttura pred-arg.
Contesto interpretazione
51
Ambiguità verso robustezza
  • Robustezza occorrono lessici più grandi e
    robusti grammatiche migliori e con aumentata
    copertura.
  • Ambiguità lessici più grandi e robusti producono
    maggiori ambiguità.
  • Grammatiche con più ampia copertura, aumentano le
    ambiguità strutturali
  • Robustezza più conoscenza
  • Più conoscenza più ambiguità

52
Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
  • Robustezza Conoscenza incompleta

Analisi sintattica
Analisi semantica
Conoscenza limitata ed incompleta del dominio
Contesto interpretazione
53
Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
  • Robustezza Conoscenza incompleta

Analisi sintattica
Analisi semantica
Conoscenza limitata ed incompleta del dominio
Contesto interpretazione
54
Tecnologie utilizzate in IE
  • Uso di conoscenza parziale e specifica ad un
    dominio. Conoscenza importante per le
    informazioni da estrarre.
  • Ambiguità. Ignorarle il più possibile. Ricorrere
    a metodologie di analisi più semplici.
  • Robustezza. Adeguarsi al fatto che i lessici
    utilizzati sono incompleti. Focalizzare
    lattenzione sulle parti importanti di una frase
    e tralasciare il resto.
  • Tecniche adattive Machine learning, sistemi ad
    apprendimento.

55
Architettura generale di NLP
Analisi lessicale e morfologica
Dipendente dal dominio
Analisi sintattica
Analisi semantica
Contesto interpretazione
56
  • Uso di POS.
  • Precision e recall 95
  • Basati su automi a stati finiti (grammatiche
    regolari). Etichettatori statistici.
  • Regole di dominio
  • ltWordgtltWordgt, Inc.
  • Mr. ltCpt-Lgt. ltWordgt
  • Machine Learning
  • HMM, Decision Trees
  • Rules Machine Learning

57
Riconoscimento di nomi propri
  • Il 5 Aprile 2001, lamministratore delegato della
    Merril Lynch, George Green, ha dichiarato che
    entro lanno prossimo la sua società verrà
    quotata nella borsa della Groenlandia, vista come
    testa di ponte per un ingresso in forza in
    Europa. Partner strategico sarà la Pinguini
    Riuniti, società offshore con sede nelle Isole
    Cayman. La nuova joint-venture intende iniziare
    con una capitale di 50.000.000, per raddoppiare
    entro il 2003.

58
Riconoscimento di nomi propri
  • Esistono sistemi commerciali.
  • Molti sono facilmente adattibili a vari domini.
  • Basati su regole (per lo più). Spesso abbisognano
    di liste di nomi di vario tipo (gazetteres).
  • Ottimi risultati F intorno al 95.

59
FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entità
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità/evento.
60
FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entità
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità/evento.
61
FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entità
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità/evento.
62
Gerarchia di Chomsky Gerarchia
delle grammatiche degli automi F
-gt w A Grammatiche regolari
Automi a stati finiti Complessità proporzionale
alla stringa F -gt AB Grammatiche libere dal
contesto Automi a pila Complessità
proporzionale al cubo della stringa Grammatiche
contestuali Automi linearmente
limitati Grammatiche di tipo 0 Macchine di
Touring
63
Gerarchia di Chomsky Gerarchia
delle grammatiche degli
automi Grammatiche regolari
Automi a stati finiti Grammatiche libere dal
contesto Automi a pila Grammatiche
contestuali Automi linearmente
limitati Grammatiche di tipo 0 Macchine di
Touring
64
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
65
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
66
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
67
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
68
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
69
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
70
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
71
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
72
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
73
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
74
Pattern-maching PN s (ADJ) N P Art (ADJ) N
PN s/ Art(ADJ) N(P Art (ADJ) N)
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
75
FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entità
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità/evento.
76
Esempio di IE FASTUS(1993)
1.Parole complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
77
Esempio di IE FASTUS(1993)


1.Parole complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
a Japanese tea house a Japanese tea house a
Japanese tea house
78
Esempio di IE FASTUS(1993)
1.Parole Complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
79
Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports Co.
Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
80
Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
Un pò di struttura sintattica Per esempio
81
Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
Informazione sintattica rilevante per le
informazioni da estrarre.
82
Variazione sintattica
GM set up a joint venture with Toyota. GM
announced it was setting up a joint venture with
Toyota. GM signed an agreement setting up a joint
venture with Toyota. GM announced it was signing
an agreement to set up a joint venture with
Toyota.
GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di stare mettendo in
piedi una joint venture con Toyota. GM ha
firmato un accordo per mettere. in piedi una
joint venture con Toyota. .
83
GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di aver messo in piedi
una joint venture con Toyota. GM ha firmato un
accordo per mettere in piedi una joint venture
con Toyota. GM ha annunciato di stare per
firmare un accordo per mettere in piedi una
joint venture con Toyota.
GM pianifica di mettere in piedi una joint
venture con Toyota. GM si aspetta di mettere in
piedi una joint venture con Toyota.
84
GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di aver messo in piedi
una joint venture con Toyota. GM ha firmato un
accordo per mettere in piedi una joint venture
con Toyota. GM ha annunciato di stare per
firmare un accordo per mettere in piedi una
joint venture con Toyota.
S
NP
VP
GM
V
mettere in piedi
GM pianifica di mettere in piedi una joint
venture con Toyota. GM si aspetta di mettere in
piedi una joint venture con Toyota.
85
Esempio di IE FASTUS(1993)
3.Sintagmi complessi 4. Eventi del
dominio COMPANYSET-UPJOINT-VENTURE with
COMPANY COMPANYSET-UPJOINT-VENTURE
(others) withCOMPANY
86
Complicazioni dovute alla variazione sintattica
Frasi relative The mayor, who was kidnapped
yesterday, was found dead today.
SN Relpro SN/altro SV SN/altroSV SN
Relpro SN/altro SV
87
Complicazioni dovute alla variazione sintattica
Frasi relative The mayor, who was kidnapped
yesterday, was found dead today.
SN Relpro SN/altro SV SN/altroSV SN
Relpro SN/altro SV
88
FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
89
FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
90
FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
91
Stato dellarte dei sistemi di IE
  • Sistemi costruiti a mano
  • F-60 level (accordo tra annotatori 60-80)
  • Domini brevi messaggi sulle operazioni
    navali
  • (MUC-187, MUC-289)
  • articoli di giornale e
    trascrizioni di notiziari radiofonici
  • rapporti su terrorismo
    (MUC-391, MUC-41992)
  • articoli su joint ventures
    (MUC-5, 93)
  • articoli su cambiamenti di
    management (MUC-6, 95)
  • articoli su veicoli
    spaziali (MUC-7, 97)
  • Le regole sono scritte a mana (riconoscimento di
    entità,
  • eventi del dominio, etc)

Apprendimento automatico da testi
apprendimento con supervisione preparazione del
corpus
Apprendimento non-supervisionato
Write a Comment
User Comments (0)
About PowerShow.com