Title: Wielowymiarowa Przestrzen Semantyczna (HAL) jako narzedzie analizy korpus
1Wielowymiarowa Przestrzen Semantyczna (HAL)jako
narzedzie analizy korpusów jezyka polskiego
Joanna Raczaszek Leonardi Bartosz
Kruszynski Wydzial Psychologii UW
2Teorie znaczenia wyrazów jezyka naturalnego
- Jak ujac/reprezentowac znaczenie?
- Gdzie go szukac?
- W zewnetrznej rzeczywistosci?
- W umysle uzytkownika jezyka?
- W zwiazkach miedzy wyrazami?
Alan Cruse Meaning in Language (Oxford
Textbooks in Linguistics, 2004) The position
taken in this book is that in general meanings
are not finitely describable, so this task boils
down to finding the best way to approximate
meanings as closely as necessary for current
purposes...
3Charakterystyka znaczenia czestosc
wspólwystepowania z innymi wyrazami
- Teoria najmniej ciekawa dla psychologa...?
(pomija to, do czego wyraz sie odnosi, pomija
reprezentacje poznawcze, jakie towarzysza uzyciu
lub rozumieniu wyrazu). - Jednak zwiazki miedzy wyrazami (konteksty jez.)
daje sie obiektywnie opisac - Latwiej niz odniesienia, czy reprezentacje
umyslowe... - Wzorce wspólwystepowania wyrazów jesli nie
wyznaczaja (tak jak chcial np. Quine) tego, co
one znacza, to na pewno z tego znaczenia
wynikaja. Jakos wiec sa z innymi aspektami
znaczenia powiazane, odzwierciedlaja je.
4Metoda
- 1995 Kurt Burgess Konferencja CUNY Hyperspace
Analogue to Language - Korpus np. 160 mln wyrazów
- Macierz np. 10 000 x 10 000 elementy srednia
bliskosc danych dwóch wyrazów w tekscie (miara
wspólwystepowania dwóch wyrazów) - Wyraz reprezentowany przez wektor (o dlugosci 10
000 elementów) - Podobienstwo wektorów podobienstwo
(strukturalistycznie zdefiniowanego) znaczenia.
5CO UMIE HAL?
- Kategoryzacja
- Np. semantyczna rzeczowników (nazwy
geograficzne, zwierzeta, rosliny) - Kategorie gramatyczne
- Znajduje najblizsze semantycznie wyrazy
- Burgess korelacja bliskosci w przestrzeni HAL z
sila torowania (model pamieci semantycznej(?))
6Torowanie semantyczne
- Zalozenie slowa semantycznie zwiazane
uaktywniaja sie nawzajem (sieci semantyczne im
blizszy zwiazek, tym silniej) - Rozpoznanie slowa jest szybsze po wczesniejszej
prezentacji slowa semantycznie z nim zwiazanego
7SZPITAL
SZPITAL
KOLO
DRZEWO
LEKARZ
TRATWA
STONU
JAJKO
slowo
nie-slowo
8(No Transcript)
9Wstepna ocena HALa
- Bardzo prosty koncepcyjnie model moze byc
uzyteczny w badaniach reprezentacji znaczenia. - Czy nadaje sie do tych samych celów w przypadku
jezyka polskiego?
10HAL a jezyk polski
- Polski swobodniejszy (niz angielski) szyk
zdania czy HAL bedzie dzialal? - przyklad konstrukcja macierzy
- Dziala. Nawet na malym (np. 0,5 mln) korpusie
- Znajduje wyrazy bliskie znaczeniowo (intuicyjnie
np. Najblizej wyrazu absolwentów sa wyrazy
uczniów, ludzi, i, nauczycieli, szkól) - Klasyfikuje
- Przewiduje sile torowania efekt torowania
silniejszy dla wyrazów bliskich w przestrzeni HAL
niz dla dalekich (zwiazek miedzy
strukturalistycznym a psychologicznym opisem
znaczenia).
11HAL dziala
- Dla jezyków o róznej strukturze i szyku zdania
- Dla malych korpusów
- Dla form podstawowych jak i dla bezposrednio
wystepujacych w tekscie
12HAL jako narzedzie analizy tekstów
- Porównywanie bliskosci wyrazów w HALach
skonstruowanych dla róznych korpusów tekstów - Pochodzacych z róznych momentów czasowych
- Np. Analiza zmiany relatywnej bliskosci wektorów
w czasie - Pochodzacych z róznych kultur lub srodowisk
- Nasz Dziennik vs Gazeta Wyborcza
13Pierwsze (wstepne) analizy
- Porównanie otoczenia semantycznego wybranych slów
- Porównanie odleglosci miedzy wybranymi wyrazami
wewnatrz kazdego korpusu
14Ad. 1
GW
ND
15ND
GW
16Ad. 2. Porównanie relatywnych odleglosci wektorów
reprezentujacych wybrane pojecia
- Uporzadkowano wszystkie wyrazy (o f gt10) wedlug
odleglosci od wybranego wyrazu. - Czyli im wyzsza ranga, tym podobniejsze
wektory.
17Dyferencjal semantyczny w HALu
18Klopoty z HALem
- Odróznienie asocjacji (klisz jezykowych) od
prawdziwej bliskosci semantycznej - np. czerwony i kapturek moga miec podobne
wektory bliskosci do innych wyrazów bo czesto
wystepuja razem szczególnie w malych korpusach. - Odróznianie znaczen wyrazów wieloznacznych
- Czym jest HAL? Ponadjednostkowa, abstrakcyjna
reprezentacja znaczenia?
19(No Transcript)
20Bibliografia
- Burgess, C., Lund, K. (1997). Modeling parsing
constraints with high-dimensional context space.
Language and Cognitive Processes, 12, 177-210. - Burgess, C., Livesay, K. (1998). The effect of
corpus size in predicting reaction time in a
basic word recognition task Moving on from
Kucera and Francis. Behavior Research Methods,
Instruments, Computers, 30, 272-277. - Burgess, C. (1998). From simple associations to
the building blocks of language Modeling meaning
in memory with the HAL model. Behavior Research
Methods, Instruments, Computers, 30, 188-198. - Lund, K., Burgess, C. (1996). Producing
high-dimensional semantic spaces from lexical
co-occurrence. Behavior Research Methods,
Instrumentation, and Computers, 28, 203-208. - Marciszewski, W. (1985) Logika formalna,
Warszawa PWN. - Osgood, C. E. (1971) Exploration in semantic
space A personal diary. Journal of Social
Issues, 27, 5-64.
21Przyklad
- Obliczanie wartosci elementów macierzy dla
zdania - The horse raced past the barn fell.
- Okno o rozmiarze 5
22The horse
barn barn fell past raced horse the
barn
fell
past
raced
horse 5
the
23The horse raced
barn barn fell past raced horse the
barn
fell
past
raced 5 4
horse 5
the
24The horse raced past
barn barn fell past raced horse the
barn
fell
past 5 4 3
raced 5 4
horse 5
the
25The horse raced past the
barn barn fell past raced horse the
barn
fell
past 5 4 3
raced 5 4
horse 5
the 5 4 3 2
26The horse raced past the barn
barn barn fell past raced horse the
barn 4 3 2 6
fell
past 5 4 3
raced 5 4
horse 5
the 5 4 3 2
27The horse raced past the barn fell
barn barn fell past raced horse the
barn 4 3 2 6
fell 5 5 3 2 1 4
past 5 4 3
raced 5 4
horse 5
the 5 4 3 2