Title: N
1Några exjobbsförslag
- Leif Grönqvist (leifg_at_ling.gu.se)
- Datalogi Språkteknologi
- Växjö universitet, GU GSLT
2Upplägg
- Lite om vad jag gjort och gör
- Grundutbildning datalogi i Göteborg
- Konsult
- Doktorand inom GSLT (språkteknologi)
- Mina forskningsintressen
- Exjobbsförslag
- En datoriserad tesaurus
- Automatiskt sökindex för böcker
- Något inom information retrieval/extraction?
3Min bakgrund
- 1986-1989 4-årig teknisk (electrical
engineering) - 1989-1993 M.Sc. (official translation of
Filosofie Magister) in Computing Science,
Göteborg University - 1989-1993 62 points in mechanics, electronics,
etc. - 1994-2001 Work at the Linguistic department in
Göteborg - Various projects related to corpus linguistics
- Some teaching on statistical methods (Göteborg
and Uppsala), - and corpus linguistics in Göteborg, Sofia, and
Beijing - 1995 Consultant at Redwood Research, in
Sollentuna, working on information retrieval in
medical databases - 1995-1996 Work at the department of Informatics
in Göteborg (the Internet Project) - 2001-2006 PhD Student in Computer Science /
Language Technology
4Mina forskningsintressen
- Statistiska metoder i språkteknologi
- Dolda Markovmodeller
- Korpuslingvistik
- Maskininlärning
- Vektorrymdsmodeller för lagring av semantisk
information - Samförekomststatistik
- Latent Semantic Indexing (LSI)
- Användning av lingvistisk information vid träning
5Vad är LSI?
- LSI använder en slags vektormodell
- Klassisk IR använder en vektormodell som
grupperar dokument med många gemensamma termer - Men!
- Dokument kan ha samma innehåll men använda olika
vokabulär - Termerna i dokumentet är kanske inte de mest
representativa - LSI använder termernas fördelning i samtliga
dokument när man jämför två dokument!
6En traditionell vektormodell
- Börja med en term/dokument-matris, precis som för
LSI - Likhet mellan dokument kan beräknas med kosinus
för vinkeln mellan vektorerna - Relevanta termer för ett dokument de som finns
i dokumentet - Problem i exemplet på nästa sida
- Termen trees verkar relevant för m-dokumenten
men finns inte i m4 - cos(c1, c5)0 liksom cos(c1, m3)
7Litet exempel
8Hur funkar LSI?
- Idén är att hitta latent (underliggande)
information som - Ord1 och ord2 förekommer ofta tillsammans så
kanske dokument1 (som innehåller ord1) och
dokument2 (som innehåller ord2) är relaterade? - dokument3 och dokument4 har många gemensamma
termer, så kanske orden de inte har gemensamt är
relaterade?
9Hur funkar LSI? Forts.
- I den klassiska vektormodellen är en
dokumentvektor 12-domensionell och en termvektor
9-dimensionell för exemplet - Vi vill projicera dessa vektorer till ett
vektorrum med färre dimensioner - Ett sätt är att använda Singular Value
Decomposition (SVD) - Originalmatrisen räknas om till en ny
representation bestående av tre matriser
10Vad man får
XT0S0D0 X, T0, S0, D0 are matrices
11Att använda resultatet från SVD
- Med matriserna kan vi utföra projektioner av
term- eller dokumentvektorer till ett vektorrum
med det antal (m) dimensioner vi vill - Vi kan välja m genom att kapa matriserna T0, S0,
D0 till lagom storlek - Låt oss prova att sätta antalet dimensioner till 2
12X kan räknas om med m2
13Vad får vi av SVD?
- Susan Dumais 1995 The SVD program takes the ltc
transformed term-document matrix as input, and
calculates the best "reduced-dimension"
approximation to this matrix. - Michael W Berry 1992 This important result
indicates that Ak is the best - k-rank approximation (in at least
- squares sense) to the matrix A.
- Leif 2003 Vad Berry menar är att SVD ger den
bästa projektionen från n till k dimensioner,
d.v.s. den projektion som bäst bibehåller
avståndet mellan vektorer
14Några möjliga applikationer
- Automatisk generering av en domänspecifik
tesaurus - Nyckelordsextraktion från dokument i en
dokumentsamling - Hitta dokument som liknar varandra
- Hitta dokument som är relaterade till ett givet
dokument eller uppsättning termer
15Ett exempel baserat på 50000 tidningsartiklar
- stefan edberg
- edberg 0.918
- cincinnatis 0.887
- edbergs 0.883
- världsfemman 0.883
- stefans 0.883
- tennisspelarna 0.863
- stefan 0.861
- turneringsseger 0.859
- queensturneringen 0.858
- växjöspelaren 0.852
- grästurnering 0.847
bengt johansson johansson 0.852 johanssons 0.704
bengt 0.678 centerledare 0.674 miljöcentern 0
.667 landsbygdscentern 0.667 implikationer 0.645
ickesocialistisk 0.643 centerledaren 0.627 regerin
gsalternativet 0.620 vagare 0.616
16Efter lite trixande kan vi hitta
handbollspersoner istället för politik
- bengt-johansson 1.000
- förbundskapten-bengt-johansson 0.907
- förbundskaptenen-bengt-johansson 0.835
- jonas-johansson 0.816
- förbundskapten-johansson 0.799
- johanssons 0.795
- svenske-förbundskaptenen-bengt-johansson 0.792
- bengan 0.786
- carlen 0.777
- bengan-johansson 0.767
- johansson-andreas-dackell 0.765
- förlorat-matcherna 0.750
- ck-bure 0.748
- daniel-johansson 0.748
målvakten-mats-olsson 0.747 jörgen-jönsson-mikael
-johansson 0.744 kicki-johansson 0.744 mattias-j
ohansson-aik 0.741 thomas-johansson 0.739 handbo
llsnation 0.738 mikael-johansson 0.737 förbunds
kaptenen-bengt-johansson-valde 0.736 johansson-mat
s-olsson 0.736 sveriges-handbollslandslag 0.736 s
tällningen-33-matcher 0.736
17Dags för ett par konkreta förslag
- En datoriserad tesaurus
- Att utforma och bygga en datoriserad tesaurus
utifrån en inscannad tesaurus i bokform, samt
utveckla algoritmer för att konstruera nya
begreppskategorier (huvudord) Automatiskt
sökindex för böcker - Automatiskt sökindex för böcker
- När man läser ett längre dokument eller en bok är
det trevligt att ha ett index längst bak där man
kan slå upp viktiga begrepp. Både LaTeX och Word
stöder detta, men tyvärr måste författaren
manuellt ange vilka begrepp som skall finnas med.
Tänk om man hade ett program som fixade detta
automatiskt! - Något inom information retrieval/extraction?
- Har inget konkret förslag Men om något av det
jag pratat om och ni har en egen idé inom
IR/IE-området så
18Två tesaurusar
- Brings (svenska) tesaurus finns inscannad
- 1000 huvudort
- Totalt över 100 000 ordformer
- Substantiv, verb och adjektiv i olika grupper
- Rogets thesaurus (engelska) finns, fast i ett
annat format - Samma struktur som Bring
19Exempel
20Vinster med en datorisering
- Sökning i tesaurusarna i bokform är ibland lite
jobbig - Huvudord går fint
- Övriga ord finns i indexet men det blir mycket
bläddrande - Gränssnittet skulle kunna förenkla sökningen
avsevärt genom markering och klickbara ord - Bäst vore om alla ord var huvudord!
- Information för att åstadkomma detta finns
troligen i datafilerna - De mest relaterade orden står först
- Huvudord med flera betydelser har flera
undergrupper för varje ordklass
21Förkunskaper
- Att ha gått ca. tre år på programmet räcker som
förkunskap men bra att ha är - Goda kunskaper i programmering, förslagsvis
logikprogrammering. - Semantik, lexikologi (från kurserna på
programmet) - Programmeringsspråket Oz (och utvecklingsmiljön
Mozart) är väl lämpat att använda för den här
uppgiften
22Automatiskt sökindex för böcker
- Det kanske inte behöver påpekas, men att sitta
och markera alla ord och fraser man vill ha med i
ett index är extremt tidskrävande, jobbigt och
tråkigt. Risken att man missar viktiga begrepp är
överhängande - Tag alla ord som finns och gör ett index
- Inte bra
- Det blir för stort och svårläst
- Väldigt vanliga ord finns på nästan varje sida
- Fraser kommer inte med
23En uppgift för datalingvisten!
- Saker man skulle kunna ha nytta av är exempelvis
- Ordklasstaggning
- Noun phrase chunking
- Named entity recognition
- Keyword spotting
- Frekvensanalys för specifik/generell domän
- ...
24Förkunskaper
- Att ha gått ca. tre år på programmet räcker som
förkunskap men bra att ha är - Semantik, taggning
- Maskininlärning
- Logikprogrammering
- Korpuslingvistik (grundläggande)
- Ett exjobb för er som gillar att kombinera
tidigare kunskap och tänka själva - The µ-TBL system Ett flexibelt system för att
träna upp olika typer av uppmärkare
25Gör något spännande inom IR/IE
- Tänk ut något och fråga mig vad jag tror
- Exempel
- Kan man hitta synonymer i icke-annoterad text?
Hur? Hur bra? - Träna upp ett system baserat på LSI för att klara
TOEFL-tester (ordkunskap) så bra som möjligt
26Och nu då?
- De konkreta förslagen finns på min hemsida
- Även den här presentationen finns länkad under
Current teaching - Fundera lite och kom till mig och fråga
- Maila går också fint om jag inte är här
- Först till kvarn gäller!