Title: Wykorzystanie metod NLP w systemach odpowiedzi na pytania
1Wykorzystanie metod NLP w systemach odpowiedzi na
pytania
- Anna Kupsc
- aniak_at_ipipan.waw.pl
- Instytut Podstaw Informatyki
- Polska Akademia Nauk
2Co to jest QA?
- QAQuestion Answering systemy odpowiadajace na
pytania... Spytajmy Arnolda http//www.bluemount
ain.com/view.pd?i101686885m1037rrysourcebma
999
3Plan
- Javelin system odpowiadajacy na pytania
niezwiazane z konkretna dziedzina - Czy do tego potrzebne jest NLP?
- Modul NLP
- Przetwarzanie tekstu
- Reprezentacja tekstu a rodzaje pytan
- Okreslanie koreferencji
4Architektura sytemu Javelin Jak Arnold udziela
odpowiedzi?
5Wyszukiwanie InformacjiInformation Extraction
(IE)
- Kilka podmodulów wykorzystujacych
- wzorce powierzchniowe (wyrazenia regularne)
- statystyki tekstowe
- przetwarzanie jezyka (NLP)
- Wyniki uzyskane z poszczególnych modulów IE sa
normalizowane i szeregowane w module generujacym
odpowiedzi (AG) i wybrana jest najlepsza
6Przykladowy wynik
- Przyklad When was Wendys founded?
- Znaleziony fragment tekstu
- The renowned ltENAMEXPERSONgtMuranolt/ENAMEXgt
glassmaking industry, on an island in the
Venetian lagoon, has gone through several
reincarnations since it was founded in 1291.
Three exhibitions of ltTIMEXDATEgt20th
Centurylt/TIMEXgt ltENAMEXLOCATIONgtMuranolt/ENAMEXgt
glass are coming up in ltENAMEXLOCATIONgtNew
Yorklt/ENAMEXgt. By ltENAMEXPERSONgtWendy
Moonanlt/ENAMEXgt - Wynik 20th Century
- (Poprawna odpowiedz 1969)
7Modul IE metody statystyczne a NLP
- Wsród róznych wyników znalezionych przez modul
statystyczny jest tez poprawna odpowiedz (1969)
jednakze wszystkie wyniki maja przypisana prawie
taka sama wiarygodnosc (confidence score) - ostateczna odpowiedz zalezy od miejsca, które
zajmuje na liscie (decyduje o tym m.in.
wiarygodnosc) wyników, tworzonej przez AG - (prawidlowa) odpowiedz znaleziona przez modul NLP
pochodzi z fragmentu - R. David Thomas founded Wendys in 1969,
- Odpowiedzi znaleznione przez modul NLP maja
przypisana wieksza wiarygodnosc oraz potwierdzaja
dodatkowo odpowiedzi znalezione przez pozostale
moduly - Tak, NLP jest potrzebne
8Do czego przydaje sie NLP w QA?
- Analiza skladniowa (np. strona czynna i bierna)
- Q When was Wendys founded? A R. David Thomas
founded Wendys in 1969 - synonimy
- Q When was JFK killed? A JFK was
assassinated... - role semantyczne
- Q Who sold the car to Peter? A Peter bought the
car from Mark. - wnioskowanie
- Q When was Wendys founded? A Donatos, founded
in 1963, six years before Wendys was founded,
began franchising in 1991 as customers took to
its Edge to Edge'' pizzas. - okreslanie referencji
- Q Who did J. Howell travel with? A The tracks
run through Belleview, where 19-year-old Jesse
Howell was found slain on March 23,1997. His
16-year-old travelling companion, Wendy
VonHuben,...
9Modul NLP
miara podo- bienstwa
wyniki
unifikacja
WordNet
predykaty
fragmenty tekstu
okreslanie koreferencji
analiza tekstu
Reprezentacja pytania
segmentacja tekstu
analiza morfologiczna
parser
slowniki
10Przetwarzanie tekstu na potrzeby QA (1)
- Roboust (stabilne?) dowolne teksty, niezwiazane
z konkretna dziedzina, - zakres zarówno pytania jak i zdania twierdzace
- poczatkowo do przetwarzania uzyte zostaly recznie
pisane gramatyki (w stylu LFG), ale - niewystarczajacy zakres konstrukcji skladniowych
(uzycie parsera tablicowego (chart parser)
czesciowo rozwiazalo problem) - niejednoznacznosci
- Rozwiazanie dedykowane gramatyki do analizy
pytan i ogólny parser do analizy fragmentów
zawierajacych odpowiedzi
11Przetwarzanie tekstu (2)
- Segmentacja tekstu (RASP Briscoe Carroll,
2002) - zdania
- slowa
- morfologia (RASP)
- POS (CLAWS2 tagset podawane wszystkie etykiety,
do przetwarzania brana najbardziej prawdopodobna)
- rdzen (stem)
- Informacje slownikowe
- slowniki (imiona i nazwiska, nazwy geograficzne)
- WordNet
- Funkcje gramatyczne (Link Grinberg et al.,1995)
12Analiza Tekstu
- lttext id"1" source"na"gtMr. Chairman, Bin Ladin
did not believe that we would invade his
sanctuary. - ltpassage id"2" source"unspecified"gtltsentence
id"3" source"na"gtlttextgtMr. Chairman, Bin Ladin
did not believe that we would invade his
sanctuary.lt/textgtlttokens id"5"
source"link"gtlttoken id"6"gtltproperty
name"morphology" source"morpha"gtmrlt /propertygt - ltleftgt0lt/leftgtltrightgt1lt/rightgtltpossgtltpos
id"12" source"claws"gtltproperty
name"prob"gt0.00617284lt/propertygt NP1lt
/posgtlt/possgtlttextgtMrlt/textgtlt/tokengtlttoken
id"15"gtltleftgt1lt/leftgtltrightgt2lt/rightgt ltpossgtltpos
id"19" source"claws"gtltproperty
name"prob"gt0.00617284lt/propertygt.lt/posgtlt/possgtltte
xtgt.lt/textgtlt/tokengtlttoken id"22"gtltproperty
name"morphology" source"morpha"gtchairmanlt/proper
tygtltproperty name"morphology" source"morpha"gt
chairmanlt/propertygtltproperty name"morphology"
source"morpha"gtchairmanlt/propertygtltproperty
name"morphology" source"morpha"gt
chairmanlt/propertygtltleftgt2lt/leftgtltrightgt3lt/rightgtlt
possgtltpos id"30" source"claws"gtltproperty
name"prob"gt1lt/propertygtNNS1lt/posgt ltpos id"32"
source"claws"gt ltproperty name"prob"gt2.58482e-306
lt/propertygtNNSB1lt/posgtlt/possgtlttextgtChairmanlt/textgt
lt/tokengt lttoken id"35"gtltleftgt3lt/leftgtltrightgt4lt/ri
ghtgtltpossgtltpos id"39" source"claws"gtltproperty
name"prob"gt1lt/propertygt,lt/posgt
lt/possgtlttextgt,lt/textgtlt/tokengtlttoken
id"42"gtltproperty name"morphology"
source"morpha"gtbinlt/propertygtltproperty
name"morphology" source"morpha"gtbinlt/propertygtltl
eftgt4lt/leftgtltrightgt5lt/rightgtltpossgtltpos id"48"
source"claws"gtltproperty name"prob"gt1lt/propertygtN
N1lt/posgtlt/possgtlttextgtBinlt/textgtlt/tokengtlttoken
id"51"gtltproperty name"morphology"
source"morpha"gt ladinlt/propertygtltproperty
name"morphology" source"morpha"gtladinlt/propertygt
ltproperty name"morphology" source"morpha"gtladin
lt/propertygtltleftgt5lt/leftgtltrightgt6lt/rightgtltpossgtltpo
s id"58" source"claws"gtltproperty
name"prob"gt0.845329lt/propertygtNN1lt/posgt ltpos
id"60" source"claws"gtltproperty
name"prob"gt0.153913lt/propertygtNP1lt/posgtltpos
id"62" source"claws"gtltproperty
name"prob"gt0.000758028lt/propertygtVV0lt/posgtlt/possgt
lttextgtLadinlt/textgtlt/tokengtlttoken
id"65"gtltproperty name"morphology"
source"morpha"gtdoedlt/propertygtltproperty
name"morphology" source"morpha"gtdoedlt/propertygt
ltproperty name"morphology" source"morpha"gtdoedlt
/propertygtltleftgt6lt/leftgtltrightgt7lt/rightgtltpossgtltpos
id"72" source"claws"gtltproperty name"prob"gt1
lt/propertygtVDDlt/posgtlt/possgtlttextgtdidlt/textgtlt/token
gtlttoken id"75"gtltleftgt7lt/leftgtltrightgt8lt/rightgtltpos
sgtltpos id"79" source"claws"gtltproperty
name"prob"gt2.28724e-308lt/propertygtLElt/posgtltpos
id"81" source"claws"gtltproperty name"prob"gt1
lt/propertygtXXlt/posgtlt/possgtlttextgtnotlt/textgtlt/tokengt
lttoken id"84"gtltleftgt8lt/leftgtltrightgt9lt/rightgtltposs
gtltpos id"88" source"claws"gtltproperty
name"prob"gt1lt/propertygtVV0lt/posgtlt/possgtlttextgtbeli
evelt/textgtlt/tokengtlttoken id"91"gtltleftgt9lt/leftgt
ltrightgt10lt/rightgtltpossgtltpos id"95"
source"claws"gtltproperty name"prob"gt0.0059709lt/pr
opertygtCSlt/posgtltpos id"97" source"claws"gtltproper
ty name"prob"gt0.987588lt/propertygtCSTlt/posgtltpos
id"99" source"claws"gtltproperty
name"prob"gt0.00634331 lt/propertygtDD1lt/posgtltpos
id"101" source"claws"gtltproperty
name"prob"gt2.83534e-05lt/propertygtREXlt/posgtltpos
id"103" source"claws"gtltproperty
name"prob"gt6.98057e-05lt/propertygtRRlt/posgtlt/possgtlt
textgtthatlt/textgtlt/tokengtlttoken id"106"gtltleftgt10
lt/leftgtltrightgt11lt/rightgtltpossgtltpos id"110"
source"claws"gtltproperty name"prob"gt1lt/propertygtP
PIS2lt/posgtlt/possgtlttextgtwelt/textgt lt/tokengtlttoken
id"113"gtltleftgt11lt/leftgtltrightgt12lt/rightgtltpossgtltpo
s id"117" source"claws"gtltproperty
name"prob"gt1lt/propertygt VMlt/posgtlt/possgtlttextgtwoul
dlt/textgtlt/tokengtlttoken id"120"gtltleftgt12lt/leftgtltri
ghtgt13lt/rightgtltpossgtltpos id"124" source"claws"gt
ltproperty name"prob"gt1lt/propertygtVV0lt/posgtlt/possgt
lttextgtinvadelt/textgtlt/tokengtlttoken
id"127"gtltleftgt13lt/leftgtltrightgt14lt/rightgt
ltpossgtltpos id"131" source"claws"gtltproperty
name"prob"gt0.99997lt/propertygtAPPlt/posgtltpos
id"133" source"claws"gtltproperty
name"prob"gt3.01524e-05lt/propertygtPPlt/posgtlt/possgt
lttextgthislt/textgtlt/tokengtlttoken id"136"gtltleftgt14lt/
leftgtltrightgt15lt/rightgt ltpossgtltpos id"140"
source"claws"gtltproperty name"prob"gt1lt/propertygtN
N1lt/posgtlt/possgtlttextgtsanctuarylt/textgtlt/tokengtlttoke
n id"143"gtltleftgt15lt/leftgtltrightgt16lt/rightgtltpossgtlt
pos id"147" source"claws"gtltproperty
name"prob"gt1lt/propertygt.lt/posgt
lt/possgtlttextgt.lt/textgtlt/tokengtltsyntax
id"150"gtltfunctions id"151"gtltfunction
id"152"gtltnamegtNMWElt/namegtlttoken id"22"/gtlttoken
id"6"/gtlt/function gtltfunction id"156"gtltnamegtSUBJlt
/namegtlttoken id"84"/gtlttoken id"22"/gtlt/functiongtlt
function id"160"gtltnamegtNMODlt/namegtlttoken
id"22"/gtlttoken id"51"/gtlt/functiongtltfunction
id"164"gtltnamegtNMWElt/namegtlttoken id"51"/gtlttoken
id"42"/gtlt/functiongtltfunction id"168"gtltnamegtAUXlt/
namegtlttoken id"84"/gtlttoken id"65"/gtlt/functiongtltf
unction id"172"gtltnamegtNEGlt/namegtlttoken
id"65"/gtlttoken id"75"/gtlt/functiongtltfunction
id"176"gtltnamegtCOMPLlt/namegtltheadgtlttoken
id"91"/gtlt/headgtlttoken id"84"/gtlttoken
id"120"/gtlt/functiongtltfunction id"182"gtltnamegtSUBJ
lt/namegtlttoken id"120"/gtlttoken id"106"/gtlt/functio
ngtltfunction id"186"gtltnamegtAUXlt/namegtlttoken
id"120"/gtlttoken id"113"/gtlt/functiongtltfunction
id"190"gtltnamegtOBJlt/namegtlttoken id"120"/gtlttoken
id"136"/gtlt/functiongtltfunction id"194"gtltnamegtDETlt
/namegtlttoken id"136"/gtlttoken id"127"/gtlt/function
gtlt/functionsgtlt/syntaxgtlt/tokensgtlt /sentencegtlt
/passagegtlt/textgt
13Analiza semantyczna
- Plytka
- reprezentacja glównie w oparciu o strukture
argumentów (ustalona liczba predykatów) - oraz specjalne predykaty dla kilku typów
pytan/konstrukcji (np. definicje, apozycje) - Unifikacja rozmyta
- oparta na mierze podobienstwa slów, np. murder
vs. kill
14Przyklady predykatów
predykat przyklad znaczenie
ROOT ROOT(x1,John) obiekt x1 ma rdzen John
SUBJECT SUBJECT(x2,x1) x1 jest podmiotem x2
EQUIV EQUIV(x1,x3) odpowiedniosc semantyczna apozycja John, a student of CMU równorzednosc obiektów John is a student of CMU
AND AND(x3,x1) AND(x3,x2) John and Mary laughed ROOT(x1,John) ROOT(x2,Mary) AND(x3,x1) AND(x3,x2)
ANS ANS(x0) odpowiedz
15Przyklady reprezentacji
- Who killed Jefferson?
- Na podstawie struktry argumentów ANS(x0)
ROOT(x1,x0) ROOT(x2,kill) ROOT(x3,Jefferson)
SUBJECT(x2,x1) OBJ(x2,x3) - What is the definition of hazmat?
- dedykowane gramtyki sprowadzaja takie pytania do
pytania What is hazmat?, i uzywane jest EQUIV
EQUIV(x1,x0) ANS(x0) ROOT(x1,hazmat) - What is the relationship between Jesse Ventura
and Target Stores? - trudne albo nalezy szukac wlasnosci/predykatów
wspólnych dla JV i TS, albo znalezc jeden
predykat, gdzie obaj sa argumentami - rozwiazanie oddzielna strategia dla pytan tego
typu
16Unifikacja rozmyta
- Laczy reprezentacje pytania (Q) z reprezentacja
fragmentu tekstu (P), aby znalezc odpowiedz (A) - Musi umozliwiac unifikacje podobnych (ale nie
identycznych) par (Q,P) - Q Who killed Jefferson? P Ben murdered
Jefferson - Zaleznosci miedzy predykatami w Q sa traktowane
jak ograniczenia z przypisana waga im wiecej
ograniczen spelnia P i im wieksze podobienstwo
odpowiednich slów, tym wyzsza wiarygodnosc
odpowiedzi A znalezionej w P
17Rozmyty przyklad
- Przypisanie wag (w) kazdej relacji w Q
- Q Who killed Jefferson? w(ANS(x0))1
w(ROOT(x1,x0))1 w(ROOT(x2,kill)).7
w(ROOT(x3,Jefferson)).9 w(SUBJECT(x2,x1)).9
w(OBJ(x2,x3)).9 - podobienstwo (srednia geometryczna) wszystkich
(n) glównych relacji w Q i P (P Ben murdered
Jefferson) - sim(Q,P) (simSUBJ(x2,x1),SUBJ(y2,y1)
simOBJ(x2,x3),OBJ(y2,y3))1/n - podobienstwo dla jednej glównej relacji
(np.SUBJ) z Q i P - (simx2,y2simx1,y1)1/2w(SUBJ(x2,x1))
- podobienstwo termów dla k relacji, w których
termy sa argumentami - (simROOT(x2,kill),ROOT(y2,murder)
simTENSE(x2,past),TENSE(y2,past))1/k - podobienstwo slów sim(kill,murder)w(ROOT(x2,kill
))
18Rozmyte podsumowanie
- Podobienstwo slów w oparciu o (miare odleglosci
w) WordNet, ale dowolna inna hierarchia
leksykalna moze byc uzyta - WN nie ma polaczen miedzy slowami nalezacymi do
róznych kategorii, np. kill i killer nie sa
powiazane - Wagi i próg podobienstwa przypisane ad hoc
- Oszacowanie wartosci wg danych z korpusu
- Niezalezne od reprezentacji semantycznej
- Wymagany zbiór tych samych relacji uzytych w
Q i P lepiej reprezentacja w oparciu o role
semantyczne
19Okreslanie koreferencji(podobienstwo slów
inaczej)
- Algorytm
- Analiza tekstu
- Przypisanie wartosci cech uzgodnienia
- Okreslenie mozliwych odniesien (NPs majace te
same cechy uzgodnienia co zaimek) - Redukcja rozwiazan na podstawie
- Zasad lingwistycznych,
- Heurystyk z Mitamura et al. (2002)
20Cechy uzgodnienia
- osoba standardowo 3, chyba ze zaimek 1 lub 2
osoby - liczba etykieta POS i WordNet hipernimy
group - zywotnosc
- Imiona/nazwiska (zywotne) i nazwy geograficzne
(niezywotne), - WordNet hipernimy animate thing, biological
group i - social group
- rodzaj
- heurystyki tytuly Mr, Mrs, itd.
- slowniki listy imion, nazwisk i nazw
geograficznych - akronimy ( 2 duze litery) nijaki
- WordNet hipernimy male/female person
- eksperyment pozyskanie nowych slów tego samego
rodzaju z korpusu
21Rodzje uzgodnien
- dokladne wszystkie cechy uzgodnienia zaimka i NP
musza byc identyczne - bez GENDER jesli wartosci PERSON, NUMBER i
ANIMATE sa identyczne, zgodnosc rodzaju zaimka i
NP nie musi wystapic (np. Jones vs. (s)he
doganimate,neuter vs. (s)he lub it) - bez NUMBER i ANIMATE jesli wartosci PERSON i
GENDER sa identyczne, NUMBER albo ANIMATE tez
musi sie zgadzac (np. police vs. it lub they)
22Zasady lingwistyczne
- Zaimki zwrotne argument tego samego czasownika
- William Patrick describes himself as
- Zaimki dzierzawcze wczesniejsza zgodna fraza NP
- President Clinton has signed an Executive Order
imposing financial and other commercial sanctions
on the Afghan Taliban for its support of Usama
bin Ladin and his terrorist network. - Zaimki osobowe fraza NP, która jest argumentem
innego czasownika - The last time Dr. Arnold Schecter tried to take
contaminated blood samples out of Vietnam, a
government agent was waiting for him at the
airport.
23Mitamura et al. (2002)
- Jesli zostalo wiecej niz jedno rozwiazanie,
stosowane sa heurystyki, które preferuja - zaimki
- rzeczowniki nie bedace nazwami wlasnymi
- Gdy sa 2 mozliwosci NP1 i NP2 majace postac NP1
of NP2, wybrane jest NP1, chyba ze NP2 okresla
miare (type, length, size...) - NP bedace podrzednikiem frazy o takim samym
rdzeniu jak fraza, której podrzednikiem jest
zaimek - NP bedace podrzednikiem takiej samej kategorii
skladniowej jak fraza, której podrzednikiem jest
zaimek - NP majace taka sama funkcje gramatyczna jak
zaimek - konkretne NP (z okreslnikiem, kwantyfikatorem,
fraza dzierzawcza) - NP z przedimkiem okreslonym
- ostatnie (najblizsze) NP
24Ocena
- 253 zdania zawierajace 361 zaimków
- Wzgledny odnosnik jesli NP jest zaimkiem, jego
odnosnik nie jest znajdowany - Bezwzgledny odnosnik jesli NP jest zaimkiem,
jego odnosnik tez jest znaleziony - Punkt odniesienia oceny (ang. baseline)
poprzednia fraza NP oraz bez uzycia WordNet do
nadawania cech uzgodnienia
25Wyniki
Test dokladnosc
Baseline podstawowy algorytm, bez WN Baseline podstawowy algorytm, bez WN
Wzgledny odnosnik 50.1
Bezwzgledny odnosnik 55.9
Pelen algorytm, bez WN Pelen algorytm, bez WN
Wzgledny odnosnik 67.3
Pelen algorytm, z WN Pelen algorytm, z WN
Wzgledny odnosnik 70.0
Bezwzgledny odnosnik 63.9
17.2
2.7
19.9 8.0
26Analiza bledówWordNet, wzgledny odnosnik
PROBLEM
slowniki 28 25.9
heurystyki 28 25.9
przetwarzanie 28 25.9
analiza dyskursu 9 8.3
wiedza o swiecie 9 8.3
odleglosc 6 6
Nierozpoznane nazwiska, imiona/nazwiska
rozpoznane jako miejscowosci lub odwrotnie
!
!!
Nierozpoznane zaimki ekspletywne, frazy
wspólrzedne, zle POS, niewlasciwe uzgodnienie
lub nadanie cech (6), analiza skl.
!!
!!!
Odniesienia w przód, cytaty, elipsy
rodzaj gram. zawodów lub narodowosci
!!!
!
27Co poprawic?
- dolaczyc modul do systemu ?
- Poprawic nadawanie cech uzgodnienia
ujednoznacznianie znaczen wyrazów pospolitych
(dotychczas brane najczestsze w WN) i nazw
wlasnych, np. London miejscowosc czy osoba?
(dotychczas preferowana miejscowosc ad hoc) - Poprawic algorytm znajdowania referencji
- Zmodyfikowac heurystyki
- Reguly uzyskane metodami uczenia maszynowego
- Rozszerzyc algorytm do okreslania bardziej
ogólnych odniesien, np. Saddam Hussein vs.
Hussein
28Podsumowanie
- Przedstawilam kilka technik NLP wykorzystanych w
systemie QA - Pokazalam w jaki sposób NLP pomaga QA
- Rozwiazania przyjete w Javelin
- Przetwarzanie tekstu
- Analiza semantyczna
- Okreslanie koreferencji
- albo jak moze pomóc, jesli jeszcze nie zawsze
dziala - poprawki do przedstawionych rozwiazan
29Podziekowania
- Uczestnicy projektu Javelin, w szczególnosci
- Przetwarzanie tekstu Curtis Huttenhower i
Benjamin Van Durme - Reprezentacja semantyczna Benjamin Van Durme i
Yifen Huang - Okreslanie koreferencji Teruko Mitamura
- Artykuly
- Javelin http//www.lti.cs.cmu.edu/Research/JAVELI
N/ - http//www.ipipan.waw.pl/aniak/papers.html
30PYTANIA?
DZIEKUJE ZA UWAGE