Title: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro
1Automatische Erweiterung eines semantikbasierten
Lexikons durch Bootstrapping auf großen Korpora
Chris Biemann Universität Leipzig
Rainer Osswald FernUniversität Hagen
- 1. April 2005
- GLDV-05 Frühjahrstagung, Bonn
2Gliederung
- Motivation Lexikonerweiterung für semantisches
Parsen - Von Kookkurrenzen zu Adjektivprofilen von Nomen
- Verebungsmechanismus für semantische
Eigenschaften - Ergebnisse komplexe semantische Klassen
- Ergebnisse Kombination von binären
Einzelmerkmalen - Diskussion
3Motivation
- Semantisches Parsen versucht, eine semantische
Repräsentation für geparste Sätze zu finden - Notwendig hierzu sind semantische Eigenschaften
von Wörtern - Diese semantischen Eigenschaften werden manuell
in ein Lexikon codiert (zeitaufwändig und teuer) - Hypothese Gegeben ein manuell erstelltes Lexikon
mittlerer Größe sollte es möglich sein,
Klassifizierer zu trainieren, die neue Einträge
findne können.
4HaGenLex Semantisches Lexikon
Größe 22700 Lemmasdavon 11300 Nomen, 6700
Verben
WORT SEMANTISCHE KLASSE Aggressivität nonment-dyn
-abs-situation Agonie nonment-stat-abs-situation
Agrarprodukt nat-discrete Ägypter human-object Ah
n human-object Ahndung nonment-dyn-abs-situation
Ähnlichkeit relation Airbag nonax-mov-art-discr
ete Airbus mov-nonanimate-con-potag Airport art-
con-geogr Ajatollah human-object Akademiker huma
n-object Akademisierung nonment-dyn-abs-situation
Akkordeon nonax-mov-art-discrete Akkreditierung n
onment-dyn-abs-situation Akku ax-mov-art-discrete
Akquisition nonment-dyn-abs-situation Akrobat h
uman-object ... ...
5Semantische Klassen in HaGenLex
- Insgesamt 50 semantische Klassen für Nomen werden
gebildet aus erlaubten Kombinationen von - 16 semantischen Features (binär) HUMAN,
ARTIFICIAL- - 17 ontologischen Sorten, z.B. concrete,
abstract-situation...
Sorte (Hierarchie)
semantische Features
semantische Klassen
6Anwendung WOCADI-Parser
- Welche Bücher von Peter Jackson über
Expertensysteme wurden bei Addison-Wesley seit
1985 veröffentlicht?
7Annahmen
- Harris 1968 Distributional HypothesisSemantische
Ähnlichkeit ist eine Funktion über globale
Kontexte von Wörtern. Je ähnlicher die Kontexte,
desto ähnlicher die Wörter - Dies projiziert auf Nomen und Adjektive Nomen
mit denselben semantischen Klassen werden
typischerweise von denselben Adjektiven
modifiziert - Die Nachbarschaftskookkurrenzbeziehung zwischen
Adjektiven (links) und Nomen (rechts)
approximiert typische Head-Modifier-Strukturen
8Nachbarschaftskookkurrenzen und -profile
- Signifikante Kookkurrenzen spiegeln Relationen
zwischen Wörtern wieder. Um zu ermitteln, welche
Kookkurrenzen (gemeinsame Auftreten) signifikant
sind, wird ein Signifikanzmaß benötigt (hier
log-likelihood) - Im Folgenden werden Adjektive, die signifikant
häufig (sprich typischerweise) links von Nomen
auftreten, sowie Nomen, die signifikant rechts
von Adjektiven auftreten - Die Menge on Adjektiven, die signifikant häufig
links von Nomen beobachtet werden, heisst
Adjektivprofil des Nomens (Analog Nomenprofil
für Adjektive) - Für Experimente benutzen wir den Deutschen Korpus
Version 2003 des Projekt Deutscher Wortschatz,
500 Millionen Tokens
9Beispiel Nachbarschaftsprofile ... von ganz
erlegten Käsebüchern
- Datenbasis grundformreduzierte
Nachbarschaftskookkurrenzen. - Umfang 125000 Substantive, 25000 Adjektive
10Vererbungsmechanismus
Welche Klasse bekommt S4 im nächsten Schritt?
- Algorithmus
- Initialisieren der Adjektiv- und
Substantivprofile - Initialisieren der Startmenge
- Solange noch neue Substantive klassifiziert
werden - Berechnung der Klassenwahrscheinlichkeiten der
Adjektive - Für alle noch unklassifizierten Substantive s
- Multipliziere die
Klassenwahrscheinlichkeit für jede Klasse - Weise die Klasse mit der höchsten
Wahrscheinlichkeit s zu -
-
- Klassenwahrscheinlichkeiten pro Adjektiv
- Zähle Klassenanzahlen
- Normiere auf Anteil der Klasse in
bekannten Substantiven - Normiere auf 1
11Beispiel Topf
- Klassenanzahlen für Adjektive
- angebrannt nat-substance1, art-substance1,
ax-mov-art-discrete1 - Suppe art_substance
- Zigarette ax-mov-art-discrete
- Milch nat-substance
- zerbeult nonmov-art-discrete1,
mov-nonanimate-con-potag2, nonax-mov-art-discrete
1, ax-mov-art-discrete3 - Wagen, Auto mov-nonanimate-con-potag
- Fahrzeug, Mountainbike, Posaune
ax-mov-art-discrete - Mantel nonax-mov-art-discrete
- Dach nonmov-art-discrete
- irden art-con-geogr1, nonax-mov-art-discrete1,
ax-mov-art-discrete9 - Schal nonax-mov-art-discrete
- Hafen art-con-geogr
- Teller, Flasche, Schüssel, Becher, Geschirr,
Vase, Krug, Gefäß, Napf ax-mov-art-discrete - tönern ax-mov-art-discrete1, prot-discrete1
- Fuß prot-discrete
- Gefäß ax-mov-art-discrete
- übervoll nonmov-art-discrete3,
art-con-geogr1, nonment-dyn-abbs-situation1,
nonax-mov-art-discrete1 - Zimmer, Saal, Lager nonmov-art-discrete
12Parameter
- Mindestanzahl Adjektive minAdjEin Substantiv
wird erst dann klassifiziert, wenn mindestens
minAdj klassifizierende Adjektive vorhanden
sindVermeidung von statistischem Rauschen und
Häufigkeitsschwelle. - Maximalanzahl Klassen für Adjektive maxClassEin
Adjektiv wird nur dann zum Klassifizieren
verwendet, wenn es für höchstens maxClass
verschiedene Klassen sprichtunspezifische
Adjektive können Ergebnis nicht verzerren
13Datenbasis Experimente
Davon erfüllen 4726 Substantive minAdj5, d.h.
maximaler Recall78,2
14Ergebnisse globaler Klassifikator
- Klassifiziert wurde direkt nach semantischer
Klasse - Verschiedene Messpunkte entsprechen
Parameterbelegungen minAdj in 5,10,15,20,
maxClass in 2, 5, 50 - Ergebnisse zu schlecht
15Einzelklassifikatoren
- Architektur Binäre Klassifikatoren für
Einzelmerkmale, dann zusammenführen. Parameter
minAdj5, maxClass2
ANIMAL /-
ANIMATE /-
Auswahl Kompatible semantische Klassen, die
minimal bzgl. Hierarchie sind, sowie eindeutig.
ARTIF /-
AXIAL /-
Ergebnisklasse oder Verweigern
... (16 Stück)
ab /-
abs /-
ad /-
as /-
... (17 Stück)
16Evaluation semantische Features
- Für Bias gt0,05 gute bis sehr gute Precision
- Precision gesamt 93,8 (86,8 für Eigenschaft )
- Recall gesamt 70,7 (69,2 für Eigenschaft )
17Evaluation ontologische Sorten
- Für Bias gt0,10 gute bis sehr gute Precision
- Precision gesamt 94,1 (89,5 für Eigenschaft )
- Recall gesamt 73,6 (69,6 für Eigenschaft )
18Eval. komplexe sem. Klassen
- Aussage für Bias schwierig
- Precision gesamt 80,2
- Recall gesamt 34,2, es wurden 6649 neue
Substantive klassifiziert
19Einige Fehler
- Pflanze animal-object anstatt plant-object
- zart, fleischfressend, fressend, verändert,
genmanipuliert, transgen, exotisch, selten,
giftig, stinkend, wachsend... - Nachwuchs human-object anstatt animal-object
- wissenschaftlich, qualifiziert, akademisch,
eigen, talentiert, weiblich, hoffnungsvoll,
geeignet, begabt, journalistisch... - Café art-con-geogr anstatt nonmov-art-discrete
(vgl. Restaurant) - Wiener, klein, türkisch, kurdisch, romanisch,
cyber, philosophisch, besucht, traditionsreich,
schnieke, gutbesucht, ... - Neger animal-object anstatt human-object
- weiß, dreckig, gefangen, faul, alt, schwarz,
nackt, lieb, gut, brav - aber
- Skinhead human-object (richtig)
- 16,17,18,19,20,21,22,23,30ährig, gleichaltrig,
zusammengeprügelt, rechtsradikal, brutal - Wegen zu weniger Adjektive zurückgewiesen
- Leberkäse human-object
- bayerisch, warm
20Ausblicke
- Schwierigste semantische Klasse
nonoper-attributez.B. Anfälligkeit,
Angemessenheit, Ängstlichkeit, Beiläufigkeit, da
typische Adjektive zu unspezifischerhöht,
besonders, gering, hoch, extrem, größer,
notorisch, gewisse, übertrieben, völlig, stärker,
übergroß, scheinbar, bedingt ...., jedoch enden
die meisten auf kheit.... - Andere syntaktische Beziehungen ausnutzen
- Polyseme Wörter behandeln- Disambiguierung
Mehrere Adjektivprofile pro Substantiv-
Vereinigung von Substantivnachbarn
eigenschaftsspezifischer Adjektive können
Hinweise auf mehrere Klassen liefern
21Fragen?
- Danke für die Aufmerksamkeit!