Elaborazione del linguaggio naturale - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Elaborazione del linguaggio naturale

Description:

Title: Parsing del linguaggio naturale Author: zanzotto Last modified by: Fabio Created Date: 6/12/2001 2:47:30 PM Document presentation format: Presentazione su ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 53
Provided by: zanz5
Category:

less

Transcript and Presenter's Notes

Title: Elaborazione del linguaggio naturale


1
Elaborazione del linguaggio naturale
  • Fabio Massimo Zanzotto

2
Part seven
  • Modular and Robust parsing

3
Our Aim
  • Lines of development
  • Grammatical Representation Power
  • CFG (context free grammars) ? DCG
  • Feature Structures
  • Tree Adjoining Grammars (TAG)
  • Grammar Use
  • CYK
  • Chart and Early Algorithm

4
Lesson learnt
  • Lexicon (i.e. words) is a very important piece of
    the Language and of the language model
  • Words carry meaning and govern the syntactic
    structure of sentences

5
Limits of the previous approaches
  • When parsing or
  • one interpretation is active at each processing
    step (for example, DCG in Prolog)
  • all interpretations are active (for example, CYK
    or Chart Parsing)
  • Processing complexity depends on the number of
    active interpretation

6
Observation
  • Question
  • is it possible to fix some ambiguity in early
    step of the analysis?

la
7
Decomposizione del processo
  • Processori Pi che si occupano di specifici
    fenomeni accoppiati con una possibile funzione di
    disambiguazione basata su informazioni locali

8
Decomposizione del processo
  • Ricerca di obbiettivi (o rappresentazioni)
    intermedi raggiungibili (e utili)
  • Criteri psicolinguistici
  • Requisiti computazionali
  • Esigenze applicative
  • È possibile trovare soluzioni approssimate per
    problemi più semplici?

9
Decomposizione del processo
L'industria giapponese dei robot, una delle poche
a non risentire della grave crisi economica, ha
sfornato una versione perfezionata del robot
umanoide "Db", fatto nascere due anni fa in un
laboratorio vicino a Kyoto.
10
Decomposizione del processo
  • Esiste un livello di aggregazione nel testo che
    si pone tra parole e frasi.
  • Gli aggregati non si sovrappongono (i.e. non sono
    ricorsivi)

11
Chunking esempio di stratificazione di un albero
S
VP
NP
VP
PP
NP
NP
NP
AdjP
NP
AdjP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
12
Chunking esempio di stratificazione di un albero
S
VP
NP
AdjP
VP
NP
PP
NP
AdjP
NP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
13
Chunking esempio di stratificazione di un albero
S
VP
VP
PP
NP
NP
NP
AdjP
NP
AdjP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
14
Chunking esempio di stratificazione di un albero
VP
PP
NP
NP
AdjP
NP
NP
A
N
Adj
V
V
A
N
Adj
PA
N
Adj
N
L industria giapponese ha sfornato una versione
perfezionata del robot umanoide "Db.
15
Decomposizione del processo
  • Chunk
  • livello intermedio di rappresentazione
  • giustificato psico-linguisticamente (Abney, 1991)
  • Definizione (intuitiva) di chunk Sequenza di
    parole
  • fortemente connessa
  • con un unico portatore di significato
  • costante alle differenti interpretazioni

16
Decomposizione del processo
  • LESSICALIZZAZIONE Controllo dellambiguità
  • verbi controllano semantica delle proposizioni
  • quindi controllano le relazioni sintattiche

I medici operano un paziente al femore aveva
105 anni.
17
Decomposizione del processo
  • Controllo dellambiguità
  • verbi controllano semantica delle proposizioni
  • quindi controllano le relazioni sintattiche

SUBJ operare OBJ PP(a)
I medici operano un paziente al femore aveva
105 anni.
18
Definizione di chunk
  • Bottom-up
  • Una sequenza di parole che rappresenta il nucleo
    non ricorsivo di sintagmi nominali,
    preposizionali, verbali ed aggettivali
  • Top-down
  • Una sequenza di parole le cui relazioni non sono
    influenzate dal comportamento dei verbi

19
Chunk osservazioni
  • Chunk
  • nuclei non ricorsivi di sintagmi particolari

non ricorsivi ricorsivi destri che non
rimandano a sintagmi superiori
20
Chunking prototipi
  • Prototipo
  • regola per catturare chunk
  • esprimibile utilizzando informazione di POS tags
    tramite
  • espressioni regolari/trasduttori (Fastus,
    Alembic, ChanodAit)
  • marker iniziale e finale (ACL, 2001)

21
Chunking prototipi
  • Esempi di espressioni regolari
  • NPK
  • Art N Art A N
  • VPK
  • V V V
  • PPK
  • P Art N P Art A N

22
Chunking prototipi
  • Esempi di marker iniziale e finale
  • NPK
  • MI Art MF N
  • VPK
  • MI V MF V
  • PPK
  • MI P MF N

23
Chunking considerazioni
  • Identificazione e classificazione
  • possibile nel livello sintattico
  • risolvibile con macchinari semplici (i.e. FSA)
  • La grammatica (ovvero i prototipi)
  • indipendente dal dominio di applicazione
  • Domanda Qualora fosse la sola informazione
    estratta, sarebbe utile per una qualche
    applicazione?

24
Prerequisiti
  • Chunking
  • Part-of-speech tagging
  • Riconoscimento dei legami verbali
  • Individuazione dei limiti delle proposizioni
    (clause boundary recognition)

25
Part-of-speech tagging
  • Definizione del problema
  • w1wn? t1tn

26
Part-of-speech tagging
  • Origini (1989) sotto la spinta dellInformation
    Extraction alla Message Understanding Conference
  • Approcci
  • approcci simbolici (regole trasformazionali,
    Brill 94)
  • approcci statistici (a seguire)

27
POS Tagging basato sulle trasformazioni (Brill,
94)
  • Dato un primo tagging (dizionario con tag più
    frequenti),
  • applicare regole di trasformazione fino a che
    lerrore non diminuisca sotto una soglia

28
Trasformazioni
  • Regole di riscrittura
  • t1 ? t2 se ltcondizione nello spazio circostante
    (triggering environment)gt
  • Esempio
  • NN ? VB se il tag precedente è TO

29
Trasformazioni Schemi dei triggering environments
ti
ti-3
ti-2
ti-1
ti3
ti1
ti2









30
Trasformazioni algoritmo di apprendimento
  • Quali trasformazioni?
  • Quale ordine di applicazione?

31
Trasformazioni algoritmo di apprendimento
  • C0 Corpus con tag più frequenti
  • for k0 step 1 do
  • v trasformazione n che minimizza E(n(Ck))
  • if (E(Ck) - E(n(Ck))) lt e then break
  • Ck1 v(Ck)
  • tk1 v
  • end
  • OUTPUT sequenza t1, , tk

32
POS Tagging basato sulle trasformazioni
  • Tagging delle parole sconosciute basato sulla
    morfologia
  • Tutte le parole sconosciute vengono taggate con
    NN
  • Il tag viene cambiato seguendo alcune regole
    trasformazionali morfologiche
  • Es NN? NNS la parola termina con -s

33
POS Tagging basato sulle trasformazioni
  • Qualità dellattività di POS Tagging dipende
  • dallinsieme dei tag obbiettivo
  • dalla possibilità di recuperare informazione
    disambiguante nei contesti di attivazione
  • Es. che in italiano (pronome/congiuzione)
  • dal materiale di apprendimento

34
Clause boundary recognition
  • Definizione del problema

L'industria giapponese dei robot, una delle poche
a non risentire della grave crisi economica , ha
sfornato una versione perfezionata del robot
umanoide "Db", fatto nascere due anni fa in un
laboratorio vicino a Kyoto .
35
Clause boundary recognition
  • Proposizioni sono utili per
  • Conversione Text-to-speech
  • Allineamento di testi
  • Traduzione automatica
  • Particolarità
  • Ricorsività non presente nei chunks

36
Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
37
Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Inf(S1)
Inf(S2)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
38
Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at)
Inf(S1)
Inf(S2)
Mr. Gaubert contributed real estate
valued at 25 million to the assets
of Independent American
39
Clause boundary recognition
  • Algoritmo
  • Ipotesi iniziale di
  • minima estensione delle proposizioni
  • gerarchia derivata
  • Finché ci sono verbi da analizzare (da destra
    verso sinistra)
  • Riconoscere il legami verbali
  • Espandere lestensione minima della proposizione

40
Controllo del processo
  • Passi analisi
  • POS Tagging
  • Chunking
  • Clause Boundary Recognition
  • Verb Argument Detection

41
Controllo del processo
  • Situazione problematica
  • necessità di definire i tipi di dati trattati

42
Controllo del processo
  • Situazione problematica
  • necessità di definire i tipi di dati trattati

43
Formalismo di rappresentazione
  • Requisiti
  • Rappresentazione di analisi parziali
  • Rappresentazione di legami distanti
  • Information hiding
  • rendere disponibile la sola informazione
    necessaria
  • ma capace di esprimere tutti i vincoli correnti

44
Formalismo di rappresentazione
  • Rappresentazione a costituenti
  • Context-free Grammar (Tree)
  • Well Formed Substring Table (WFST) chart
  • Tree-Adjoint Grammar (TAG)
  • Rappresentazione a dipendenze
  • Link Grammar
  • Rappresentazione miste
  • Extended Dependency Graph (XDG)

45
XDG eXtended Dependency Graph
  • an XDG is a graph
  • XDG(constituents,dependencies)
  • Nice property allow to store persistent
    ambiguity (for interpretations projected by the
    same nodes)
  • Each constituent has
  • a potential governor
  • a grammatical head

46
Modular approach
  • Syntactic parser
  • SP(S,K)I ? SP(S)I
  • Syntactic parsing module
  • Pi(Si,Ki)Si1 ? Pi(Si)Si1
  • Modular syntactic parser
  • SP Pn?... ?P2?P1

47
Classification of parsing modules
  • Pi(XDGi,Ki)Pi(XDGi)XDGi1
  • The classification is performed according to
  • the type of information K used
  • how they manipulate the sentence representation

48
Decomposizione del processo
  • Principi
  • Scegliere i fenomeni trattati in ogni livello
  • Scegliere lalgoritmo migliore per ogni task
  • Scegliere un opportuno formalismo di
    rappresentazione

49
Back to the beginning...
?x Marinaio (x).(? y Ragazza(y) ? Ama (x, y)) ? y
Ragazza(y).(?x Marinaio (x) ? Ama (x, y))
conosenza simbolica incerta
?
abilità linguistica
conosenza simbolica
apprendimento
Tutti i marinai amano una ragazza
50
Interpreting Language Through Syntax
  • Assunzione di Chomsky i differenti significati
    hanno differenti strutture sintattiche profonde
  • Esempio
  • Luigina ha chiesto in prestito la borsetta di
    pelle di nonna.
  • Possibili Costruzioni Sintattiche in alberi
  • ...(la borsetta di (pelle di nonna))
  • ...(la (borsetta di pelle) di nonna)

51
Where we worked
  • Lines of development
  • Grammatical Representation Power
  • CFG (context free grammars) ? DCG
  • Feature Structures
  • Tree Adjoining Grammars (TAG)
  • Grammar Use
  • CYK
  • Chart and Early Algorithm
  • Modular Parsing and Cascades of Different
    Theories (XDG)

52
NLP Applications
  • Information Extraction
  • QA
  • Ontological QA
  • Textual Entailment
Write a Comment
User Comments (0)
About PowerShow.com