Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro - PowerPoint PPT Presentation

1 / 21

About This Presentation

Title:

Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro

Description:

Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro en Korpora Chris Biemann Universit t Leipzig Rainer Osswald – PowerPoint PPT presentation

Number of Views:217

Avg rating:3.0/5.0

Slides: 22

Provided by: ich8

Category:

more less

Transcript and Presenter's Notes

Title: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro

1
Automatische Erweiterung eines semantikbasierten
Lexikons durch Bootstrapping auf großen Korpora
Chris Biemann Universität Leipzig
Rainer Osswald FernUniversität Hagen

1. April 2005
GLDV-05 Frühjahrstagung, Bonn

2
Gliederung

Motivation Lexikonerweiterung für semantisches
Parsen
Von Kookkurrenzen zu Adjektivprofilen von Nomen
Verebungsmechanismus für semantische
Eigenschaften
Ergebnisse komplexe semantische Klassen
Ergebnisse Kombination von binären
Einzelmerkmalen
Diskussion

3
Motivation

Semantisches Parsen versucht, eine semantische
Repräsentation für geparste Sätze zu finden
Notwendig hierzu sind semantische Eigenschaften
von Wörtern
Diese semantischen Eigenschaften werden manuell
in ein Lexikon codiert (zeitaufwändig und teuer)
Hypothese Gegeben ein manuell erstelltes Lexikon
mittlerer Größe sollte es möglich sein,
Klassifizierer zu trainieren, die neue Einträge
findne können.

4
HaGenLex Semantisches Lexikon
Größe 22700 Lemmasdavon 11300 Nomen, 6700
Verben
WORT SEMANTISCHE KLASSE Aggressivität nonment-dyn
-abs-situation Agonie nonment-stat-abs-situation
Agrarprodukt nat-discrete Ägypter human-object Ah
n human-object Ahndung nonment-dyn-abs-situation
Ähnlichkeit relation Airbag nonax-mov-art-discr
ete Airbus mov-nonanimate-con-potag Airport art-
con-geogr Ajatollah human-object Akademiker huma
n-object Akademisierung nonment-dyn-abs-situation
Akkordeon nonax-mov-art-discrete Akkreditierung n
onment-dyn-abs-situation Akku ax-mov-art-discrete
Akquisition nonment-dyn-abs-situation Akrobat h
uman-object ... ...

semantic class

5
Semantische Klassen in HaGenLex

Insgesamt 50 semantische Klassen für Nomen werden
gebildet aus erlaubten Kombinationen von
16 semantischen Features (binär) HUMAN,
ARTIFICIAL-
17 ontologischen Sorten, z.B. concrete,
abstract-situation...

Sorte (Hierarchie)
semantische Features
semantische Klassen
6
Anwendung WOCADI-Parser

Welche Bücher von Peter Jackson über
Expertensysteme wurden bei Addison-Wesley seit
1985 veröffentlicht?

7
Annahmen

Harris 1968 Distributional HypothesisSemantische
Ähnlichkeit ist eine Funktion über globale
Kontexte von Wörtern. Je ähnlicher die Kontexte,
desto ähnlicher die Wörter
Dies projiziert auf Nomen und Adjektive Nomen
mit denselben semantischen Klassen werden
typischerweise von denselben Adjektiven
modifiziert
Die Nachbarschaftskookkurrenzbeziehung zwischen
Adjektiven (links) und Nomen (rechts)
approximiert typische Head-Modifier-Strukturen

8
Nachbarschaftskookkurrenzen und -profile

Signifikante Kookkurrenzen spiegeln Relationen
zwischen Wörtern wieder. Um zu ermitteln, welche
Kookkurrenzen (gemeinsame Auftreten) signifikant
sind, wird ein Signifikanzmaß benötigt (hier
log-likelihood)
Im Folgenden werden Adjektive, die signifikant
häufig (sprich typischerweise) links von Nomen
auftreten, sowie Nomen, die signifikant rechts
von Adjektiven auftreten
Die Menge on Adjektiven, die signifikant häufig
links von Nomen beobachtet werden, heisst
Adjektivprofil des Nomens (Analog Nomenprofil
für Adjektive)
Für Experimente benutzen wir den Deutschen Korpus
Version 2003 des Projekt Deutscher Wortschatz,
500 Millionen Tokens

9
Beispiel Nachbarschaftsprofile ... von ganz
erlegten Käsebüchern

Datenbasis grundformreduzierte
Nachbarschaftskookkurrenzen.
Umfang 125000 Substantive, 25000 Adjektive

10
Vererbungsmechanismus
Welche Klasse bekommt S4 im nächsten Schritt?

Algorithmus
Initialisieren der Adjektiv- und
Substantivprofile
Initialisieren der Startmenge
Solange noch neue Substantive klassifiziert
werden
Berechnung der Klassenwahrscheinlichkeiten der
Adjektive
Für alle noch unklassifizierten Substantive s
Multipliziere die
Klassenwahrscheinlichkeit für jede Klasse
Weise die Klasse mit der höchsten
Wahrscheinlichkeit s zu

Klassenwahrscheinlichkeiten pro Adjektiv
Zähle Klassenanzahlen
Normiere auf Anteil der Klasse in
bekannten Substantiven
Normiere auf 1

11
Beispiel Topf

Klassenanzahlen für Adjektive
angebrannt nat-substance1, art-substance1,
ax-mov-art-discrete1
Suppe art_substance
Zigarette ax-mov-art-discrete
Milch nat-substance
zerbeult nonmov-art-discrete1,
mov-nonanimate-con-potag2, nonax-mov-art-discrete
1, ax-mov-art-discrete3
Wagen, Auto mov-nonanimate-con-potag
Fahrzeug, Mountainbike, Posaune
ax-mov-art-discrete
Mantel nonax-mov-art-discrete
Dach nonmov-art-discrete
irden art-con-geogr1, nonax-mov-art-discrete1,
ax-mov-art-discrete9
Schal nonax-mov-art-discrete
Hafen art-con-geogr
Teller, Flasche, Schüssel, Becher, Geschirr,
Vase, Krug, Gefäß, Napf ax-mov-art-discrete
tönern ax-mov-art-discrete1, prot-discrete1
Fuß prot-discrete
Gefäß ax-mov-art-discrete
übervoll nonmov-art-discrete3,
art-con-geogr1, nonment-dyn-abbs-situation1,
nonax-mov-art-discrete1
Zimmer, Saal, Lager nonmov-art-discrete

12
Parameter

Mindestanzahl Adjektive minAdjEin Substantiv
wird erst dann klassifiziert, wenn mindestens
minAdj klassifizierende Adjektive vorhanden
sindVermeidung von statistischem Rauschen und
Häufigkeitsschwelle.
Maximalanzahl Klassen für Adjektive maxClassEin
Adjektiv wird nur dann zum Klassifizieren
verwendet, wenn es für höchstens maxClass
verschiedene Klassen sprichtunspezifische
Adjektive können Ergebnis nicht verzerren

13
Datenbasis Experimente
Davon erfüllen 4726 Substantive minAdj5, d.h.
maximaler Recall78,2
14
Ergebnisse globaler Klassifikator

Klassifiziert wurde direkt nach semantischer
Klasse
Verschiedene Messpunkte entsprechen
Parameterbelegungen minAdj in 5,10,15,20,
maxClass in 2, 5, 50
Ergebnisse zu schlecht

15
Einzelklassifikatoren

Architektur Binäre Klassifikatoren für
Einzelmerkmale, dann zusammenführen. Parameter
minAdj5, maxClass2

ANIMAL /-
ANIMATE /-
Auswahl Kompatible semantische Klassen, die
minimal bzgl. Hierarchie sind, sowie eindeutig.
ARTIF /-
AXIAL /-
Ergebnisklasse oder Verweigern
... (16 Stück)
ab /-
abs /-
ad /-
as /-
... (17 Stück)
16
Evaluation semantische Features

Für Bias gt0,05 gute bis sehr gute Precision
Precision gesamt 93,8 (86,8 für Eigenschaft )
Recall gesamt 70,7 (69,2 für Eigenschaft )

17
Evaluation ontologische Sorten

Für Bias gt0,10 gute bis sehr gute Precision
Precision gesamt 94,1 (89,5 für Eigenschaft )
Recall gesamt 73,6 (69,6 für Eigenschaft )

18
Eval. komplexe sem. Klassen

Aussage für Bias schwierig
Precision gesamt 80,2
Recall gesamt 34,2, es wurden 6649 neue
Substantive klassifiziert

19
Einige Fehler

Pflanze animal-object anstatt plant-object
zart, fleischfressend, fressend, verändert,
genmanipuliert, transgen, exotisch, selten,
giftig, stinkend, wachsend...
Nachwuchs human-object anstatt animal-object
wissenschaftlich, qualifiziert, akademisch,
eigen, talentiert, weiblich, hoffnungsvoll,
geeignet, begabt, journalistisch...
Café art-con-geogr anstatt nonmov-art-discrete
(vgl. Restaurant)
Wiener, klein, türkisch, kurdisch, romanisch,
cyber, philosophisch, besucht, traditionsreich,
schnieke, gutbesucht, ...
Neger animal-object anstatt human-object
weiß, dreckig, gefangen, faul, alt, schwarz,
nackt, lieb, gut, brav
aber
Skinhead human-object (richtig)
16,17,18,19,20,21,22,23,30ährig, gleichaltrig,
zusammengeprügelt, rechtsradikal, brutal
Wegen zu weniger Adjektive zurückgewiesen
Leberkäse human-object
bayerisch, warm

20
Ausblicke

Schwierigste semantische Klasse
nonoper-attributez.B. Anfälligkeit,
Angemessenheit, Ängstlichkeit, Beiläufigkeit, da
typische Adjektive zu unspezifischerhöht,
besonders, gering, hoch, extrem, größer,
notorisch, gewisse, übertrieben, völlig, stärker,
übergroß, scheinbar, bedingt ...., jedoch enden
die meisten auf kheit....
Andere syntaktische Beziehungen ausnutzen
Polyseme Wörter behandeln- Disambiguierung
Mehrere Adjektivprofile pro Substantiv-
Vereinigung von Substantivnachbarn
eigenschaftsspezifischer Adjektive können
Hinweise auf mehrere Klassen liefern

21
Fragen?