Title: Elaborazione del linguaggio naturale
1Elaborazione del linguaggio naturale
2Part seven
- Modular and Robust parsing
3Our Aim
- Lines of development
- Grammatical Representation Power
- CFG (context free grammars) ? DCG
- Feature Structures
- Tree Adjoining Grammars (TAG)
- Grammar Use
- CYK
- Chart and Early Algorithm
4Lesson learnt
- Lexicon (i.e. words) is a very important piece of
the Language and of the language model - Words carry meaning and govern the syntactic
structure of sentences
5Limits of the previous approaches
- When parsing or
- one interpretation is active at each processing
step (for example, DCG in Prolog) - all interpretations are active (for example, CYK
or Chart Parsing) - Processing complexity depends on the number of
active interpretation
6Observation
- Question
- is it possible to fix some ambiguity in early
step of the analysis?
la
7Decomposizione del processo
- Processori Pi che si occupano di specifici
fenomeni accoppiati con una possibile funzione di
disambiguazione basata su informazioni locali
8Decomposizione del processo
- Ricerca di obbiettivi (o rappresentazioni)
intermedi raggiungibili (e utili) - Criteri psicolinguistici
- Requisiti computazionali
- Esigenze applicative
- È possibile trovare soluzioni approssimate per
problemi più semplici?
9Decomposizione del processo
L'industria giapponese dei robot, una delle poche
a non risentire della grave crisi economica, ha
sfornato una versione perfezionata del robot
umanoide "Db", fatto nascere due anni fa in un
laboratorio vicino a Kyoto.
10Decomposizione del processo
- Esiste un livello di aggregazione nel testo che
si pone tra parole e frasi. - Gli aggregati non si sovrappongono (i.e. non sono
ricorsivi)
11Chunking esempio di stratificazione di un albero
S
VP
NP
VP
PP
NP
NP
NP
AdjP
NP
AdjP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
12Chunking esempio di stratificazione di un albero
S
VP
NP
AdjP
VP
NP
PP
NP
AdjP
NP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
13Chunking esempio di stratificazione di un albero
S
VP
VP
PP
NP
NP
NP
AdjP
NP
AdjP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
14Chunking esempio di stratificazione di un albero
VP
PP
NP
NP
AdjP
NP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
15Decomposizione del processo
- Chunk
- livello intermedio di rappresentazione
- giustificato psico-linguisticamente (Abney, 1991)
- Definizione (intuitiva) di chunk Sequenza di
parole - fortemente connessa
- con un unico portatore di significato
- costante alle differenti interpretazioni
16Decomposizione del processo
- LESSICALIZZAZIONE Controllo dellambiguità
- verbi controllano semantica delle proposizioni
- quindi controllano le relazioni sintattiche
I medici operano un paziente al femore aveva
105 anni.
17Decomposizione del processo
- Controllo dellambiguità
- verbi controllano semantica delle proposizioni
- quindi controllano le relazioni sintattiche
SUBJ operare OBJ PP(a)
I medici operano un paziente al femore aveva
105 anni.
18Definizione di chunk
- Bottom-up
- Una sequenza di parole che rappresenta il nucleo
non ricorsivo di sintagmi nominali,
preposizionali, verbali ed aggettivali - Top-down
- Una sequenza di parole le cui relazioni non sono
influenzate dal comportamento dei verbi
19Chunk osservazioni
- Chunk
- nuclei non ricorsivi di sintagmi particolari
non ricorsivi ricorsivi destri che non
rimandano a sintagmi superiori
20Chunking prototipi
- Prototipo
- regola per catturare chunk
- esprimibile utilizzando informazione di POS tags
tramite - espressioni regolari/trasduttori (Fastus,
Alembic, ChanodAit) - marker iniziale e finale (ACL, 2001)
21Chunking prototipi
- Esempi di espressioni regolari
- NPK
- Art N Art A N
- VPK
- V V V
- PPK
- P Art N P Art A N
22Chunking prototipi
- Esempi di marker iniziale e finale
- NPK
- MI Art MF N
- VPK
- MI V MF V
- PPK
- MI P MF N
23Chunking considerazioni
- Identificazione e classificazione
- possibile nel livello sintattico
- risolvibile con macchinari semplici (i.e. FSA)
- La grammatica (ovvero i prototipi)
- indipendente dal dominio di applicazione
- Domanda Qualora fosse la sola informazione
estratta, sarebbe utile per una qualche
applicazione?
24Prerequisiti
- Chunking
- Part-of-speech tagging
- Riconoscimento dei legami verbali
- Individuazione dei limiti delle proposizioni
(clause boundary recognition)
25Part-of-speech tagging
- Definizione del problema
- w1wn? t1tn
26Part-of-speech tagging
- Origini (1989) sotto la spinta dellInformation
Extraction alla Message Understanding Conference - Approcci
- approcci simbolici (regole trasformazionali,
Brill 94) - approcci statistici (a seguire)
27POS Tagging basato sulle trasformazioni (Brill,
94)
- Dato un primo tagging (dizionario con tag più
frequenti), - applicare regole di trasformazione fino a che
lerrore non diminuisca sotto una soglia
28Trasformazioni
- Regole di riscrittura
- t1 ? t2 se ltcondizione nello spazio circostante
(triggering environment)gt - Esempio
- NN ? VB se il tag precedente è TO
29Trasformazioni Schemi dei triggering environments
ti
ti-3
ti-2
ti-1
ti3
ti1
ti2
30Trasformazioni algoritmo di apprendimento
- Quali trasformazioni?
- Quale ordine di applicazione?
31Trasformazioni algoritmo di apprendimento
- C0 Corpus con tag più frequenti
- for k0 step 1 do
- v trasformazione n che minimizza E(n(Ck))
- if (E(Ck) - E(n(Ck))) lt e then break
- Ck1 v(Ck)
- tk1 v
- end
- OUTPUT sequenza t1, , tk
32POS Tagging basato sulle trasformazioni
- Tagging delle parole sconosciute basato sulla
morfologia - Tutte le parole sconosciute vengono taggate con
NN - Il tag viene cambiato seguendo alcune regole
trasformazionali morfologiche - Es NN? NNS la parola termina con -s
33POS Tagging basato sulle trasformazioni
- Qualità dellattività di POS Tagging dipende
- dallinsieme dei tag obbiettivo
- dalla possibilità di recuperare informazione
disambiguante nei contesti di attivazione - Es. che in italiano (pronome/congiuzione)
- dal materiale di apprendimento
34Clause boundary recognition
L'industria giapponese dei robot, una delle poche
a non risentire della grave crisi economica , ha
sfornato una versione perfezionata del robot
umanoide "Db", fatto nascere due anni fa in un
laboratorio vicino a Kyoto .
35Clause boundary recognition
- Proposizioni sono utili per
- Conversione Text-to-speech
- Allineamento di testi
- Traduzione automatica
- Particolarità
- Ricorsività non presente nei chunks
36Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
37Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Inf(S1)
Inf(S2)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
38Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Inf(S1)
Inf(S2)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
39Clause boundary recognition
- Algoritmo
- Ipotesi iniziale di
- minima estensione delle proposizioni
- gerarchia derivata
- Finché ci sono verbi da analizzare (da destra
verso sinistra) - Riconoscere il legami verbali
- Espandere lestensione minima della proposizione
40Controllo del processo
- Passi analisi
- POS Tagging
- Chunking
- Clause Boundary Recognition
- Verb Argument Detection
41Controllo del processo
- Situazione problematica
- necessità di definire i tipi di dati trattati
42Controllo del processo
- Situazione problematica
- necessità di definire i tipi di dati trattati
43Formalismo di rappresentazione
- Requisiti
- Rappresentazione di analisi parziali
- Rappresentazione di legami distanti
- Information hiding
- rendere disponibile la sola informazione
necessaria - ma capace di esprimere tutti i vincoli correnti
44Formalismo di rappresentazione
- Rappresentazione a costituenti
- Context-free Grammar (Tree)
- Well Formed Substring Table (WFST) chart
- Tree-Adjoint Grammar (TAG)
- Rappresentazione a dipendenze
- Link Grammar
- Rappresentazione miste
- Extended Dependency Graph (XDG)
45XDG eXtended Dependency Graph
- an XDG is a graph
- XDG(constituents,dependencies)
- Nice property allow to store persistent
ambiguity (for interpretations projected by the
same nodes) - Each constituent has
- a potential governor
- a grammatical head
46Modular approach
- Syntactic parser
- SP(S,K)I ? SP(S)I
- Syntactic parsing module
- Pi(Si,Ki)Si1 ? Pi(Si)Si1
- Modular syntactic parser
- SP Pn?... ?P2?P1
47Classification of parsing modules
- Pi(XDGi,Ki)Pi(XDGi)XDGi1
- The classification is performed according to
- the type of information K used
- how they manipulate the sentence representation
48Decomposizione del processo
- Principi
- Scegliere i fenomeni trattati in ogni livello
- Scegliere lalgoritmo migliore per ogni task
- Scegliere un opportuno formalismo di
rappresentazione
49Back to the beginning...
?x Marinaio (x).(? y Ragazza(y) ? Ama (x, y)) ? y
Ragazza(y).(?x Marinaio (x) ? Ama (x, y))
conosenza simbolica incerta
?
abilità linguistica
conosenza simbolica
apprendimento
Tutti i marinai amano una ragazza
50Interpreting Language Through Syntax
- Assunzione di Chomsky i differenti significati
hanno differenti strutture sintattiche profonde - Esempio
- Luigina ha chiesto in prestito la borsetta di
pelle di nonna. - Possibili Costruzioni Sintattiche in alberi
- ...(la borsetta di (pelle di nonna))
- ...(la (borsetta di pelle) di nonna)
51Where we worked
- Lines of development
- Grammatical Representation Power
- CFG (context free grammars) ? DCG
- Feature Structures
- Tree Adjoining Grammars (TAG)
- Grammar Use
- CYK
- Chart and Early Algorithm
- Modular Parsing and Cascades of Different
Theories (XDG)
52NLP Applications
- Information Extraction
- QA
- Ontological QA
- Textual Entailment