Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro

Description:

Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro en Korpora Chris Biemann Universit t Leipzig Rainer Osswald – PowerPoint PPT presentation

Number of Views:216
Avg rating:3.0/5.0
Slides: 22
Provided by: ich8
Category:

less

Transcript and Presenter's Notes

Title: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf gro


1
Automatische Erweiterung eines semantikbasierten
Lexikons durch Bootstrapping auf großen Korpora
Chris Biemann Universität Leipzig
Rainer Osswald FernUniversität Hagen
  • 1. April 2005
  • GLDV-05 Frühjahrstagung, Bonn

2
Gliederung
  • Motivation Lexikonerweiterung für semantisches
    Parsen
  • Von Kookkurrenzen zu Adjektivprofilen von Nomen
  • Verebungsmechanismus für semantische
    Eigenschaften
  • Ergebnisse komplexe semantische Klassen
  • Ergebnisse Kombination von binären
    Einzelmerkmalen
  • Diskussion

3
Motivation
  • Semantisches Parsen versucht, eine semantische
    Repräsentation für geparste Sätze zu finden
  • Notwendig hierzu sind semantische Eigenschaften
    von Wörtern
  • Diese semantischen Eigenschaften werden manuell
    in ein Lexikon codiert (zeitaufwändig und teuer)
  • Hypothese Gegeben ein manuell erstelltes Lexikon
    mittlerer Größe sollte es möglich sein,
    Klassifizierer zu trainieren, die neue Einträge
    findne können.

4
HaGenLex Semantisches Lexikon
Größe 22700 Lemmasdavon 11300 Nomen, 6700
Verben
WORT SEMANTISCHE KLASSE Aggressivität nonment-dyn
-abs-situation Agonie nonment-stat-abs-situation
Agrarprodukt nat-discrete Ägypter human-object Ah
n human-object Ahndung nonment-dyn-abs-situation
Ähnlichkeit relation Airbag nonax-mov-art-discr
ete Airbus mov-nonanimate-con-potag Airport art-
con-geogr Ajatollah human-object Akademiker huma
n-object Akademisierung nonment-dyn-abs-situation
Akkordeon nonax-mov-art-discrete Akkreditierung n
onment-dyn-abs-situation Akku ax-mov-art-discrete
Akquisition nonment-dyn-abs-situation Akrobat h
uman-object ... ...
  • semantic class

5
Semantische Klassen in HaGenLex
  • Insgesamt 50 semantische Klassen für Nomen werden
    gebildet aus erlaubten Kombinationen von
  • 16 semantischen Features (binär) HUMAN,
    ARTIFICIAL-
  • 17 ontologischen Sorten, z.B. concrete,
    abstract-situation...

Sorte (Hierarchie)
semantische Features
semantische Klassen
6
Anwendung WOCADI-Parser
  • Welche Bücher von Peter Jackson über
    Expertensysteme wurden bei Addison-Wesley seit
    1985 veröffentlicht?

7
Annahmen
  • Harris 1968 Distributional HypothesisSemantische
    Ähnlichkeit ist eine Funktion über globale
    Kontexte von Wörtern. Je ähnlicher die Kontexte,
    desto ähnlicher die Wörter
  • Dies projiziert auf Nomen und Adjektive Nomen
    mit denselben semantischen Klassen werden
    typischerweise von denselben Adjektiven
    modifiziert
  • Die Nachbarschaftskookkurrenzbeziehung zwischen
    Adjektiven (links) und Nomen (rechts)
    approximiert typische Head-Modifier-Strukturen

8
Nachbarschaftskookkurrenzen und -profile
  • Signifikante Kookkurrenzen spiegeln Relationen
    zwischen Wörtern wieder. Um zu ermitteln, welche
    Kookkurrenzen (gemeinsame Auftreten) signifikant
    sind, wird ein Signifikanzmaß benötigt (hier
    log-likelihood)
  • Im Folgenden werden Adjektive, die signifikant
    häufig (sprich typischerweise) links von Nomen
    auftreten, sowie Nomen, die signifikant rechts
    von Adjektiven auftreten
  • Die Menge on Adjektiven, die signifikant häufig
    links von Nomen beobachtet werden, heisst
    Adjektivprofil des Nomens (Analog Nomenprofil
    für Adjektive)
  • Für Experimente benutzen wir den Deutschen Korpus
    Version 2003 des Projekt Deutscher Wortschatz,
    500 Millionen Tokens

9
Beispiel Nachbarschaftsprofile ... von ganz
erlegten Käsebüchern
  • Datenbasis grundformreduzierte
    Nachbarschaftskookkurrenzen.
  • Umfang 125000 Substantive, 25000 Adjektive

10
Vererbungsmechanismus
Welche Klasse bekommt S4 im nächsten Schritt?
  • Algorithmus
  • Initialisieren der Adjektiv- und
    Substantivprofile
  • Initialisieren der Startmenge
  • Solange noch neue Substantive klassifiziert
    werden
  • Berechnung der Klassenwahrscheinlichkeiten der
    Adjektive
  • Für alle noch unklassifizierten Substantive s
  • Multipliziere die
    Klassenwahrscheinlichkeit für jede Klasse
  • Weise die Klasse mit der höchsten
    Wahrscheinlichkeit s zu
  • Klassenwahrscheinlichkeiten pro Adjektiv
  • Zähle Klassenanzahlen
  • Normiere auf Anteil der Klasse in
    bekannten Substantiven
  • Normiere auf 1

11
Beispiel Topf
  • Klassenanzahlen für Adjektive
  • angebrannt nat-substance1, art-substance1,
    ax-mov-art-discrete1
  • Suppe art_substance
  • Zigarette ax-mov-art-discrete
  • Milch nat-substance
  • zerbeult nonmov-art-discrete1,
    mov-nonanimate-con-potag2, nonax-mov-art-discrete
    1, ax-mov-art-discrete3
  • Wagen, Auto mov-nonanimate-con-potag
  • Fahrzeug, Mountainbike, Posaune
    ax-mov-art-discrete
  • Mantel nonax-mov-art-discrete
  • Dach nonmov-art-discrete
  • irden art-con-geogr1, nonax-mov-art-discrete1,
    ax-mov-art-discrete9
  • Schal nonax-mov-art-discrete
  • Hafen art-con-geogr
  • Teller, Flasche, Schüssel, Becher, Geschirr,
    Vase, Krug, Gefäß, Napf ax-mov-art-discrete
  • tönern ax-mov-art-discrete1, prot-discrete1
  • Fuß prot-discrete
  • Gefäß ax-mov-art-discrete
  • übervoll nonmov-art-discrete3,
    art-con-geogr1, nonment-dyn-abbs-situation1,
    nonax-mov-art-discrete1
  • Zimmer, Saal, Lager nonmov-art-discrete

12
Parameter
  • Mindestanzahl Adjektive minAdjEin Substantiv
    wird erst dann klassifiziert, wenn mindestens
    minAdj klassifizierende Adjektive vorhanden
    sindVermeidung von statistischem Rauschen und
    Häufigkeitsschwelle.
  • Maximalanzahl Klassen für Adjektive maxClassEin
    Adjektiv wird nur dann zum Klassifizieren
    verwendet, wenn es für höchstens maxClass
    verschiedene Klassen sprichtunspezifische
    Adjektive können Ergebnis nicht verzerren

13
Datenbasis Experimente
Davon erfüllen 4726 Substantive minAdj5, d.h.
maximaler Recall78,2
14
Ergebnisse globaler Klassifikator
  • Klassifiziert wurde direkt nach semantischer
    Klasse
  • Verschiedene Messpunkte entsprechen
    Parameterbelegungen minAdj in 5,10,15,20,
    maxClass in 2, 5, 50
  • Ergebnisse zu schlecht

15
Einzelklassifikatoren
  • Architektur Binäre Klassifikatoren für
    Einzelmerkmale, dann zusammenführen. Parameter
    minAdj5, maxClass2

ANIMAL /-
ANIMATE /-
Auswahl Kompatible semantische Klassen, die
minimal bzgl. Hierarchie sind, sowie eindeutig.
ARTIF /-
AXIAL /-
Ergebnisklasse oder Verweigern
... (16 Stück)
ab /-
abs /-
ad /-
as /-
... (17 Stück)
16
Evaluation semantische Features
  • Für Bias gt0,05 gute bis sehr gute Precision
  • Precision gesamt 93,8 (86,8 für Eigenschaft )
  • Recall gesamt 70,7 (69,2 für Eigenschaft )

17
Evaluation ontologische Sorten
  • Für Bias gt0,10 gute bis sehr gute Precision
  • Precision gesamt 94,1 (89,5 für Eigenschaft )
  • Recall gesamt 73,6 (69,6 für Eigenschaft )

18
Eval. komplexe sem. Klassen
  • Aussage für Bias schwierig
  • Precision gesamt 80,2
  • Recall gesamt 34,2, es wurden 6649 neue
    Substantive klassifiziert

19
Einige Fehler
  • Pflanze animal-object anstatt plant-object
  • zart, fleischfressend, fressend, verändert,
    genmanipuliert, transgen, exotisch, selten,
    giftig, stinkend, wachsend...
  • Nachwuchs human-object anstatt animal-object
  • wissenschaftlich, qualifiziert, akademisch,
    eigen, talentiert, weiblich, hoffnungsvoll,
    geeignet, begabt, journalistisch...
  • Café art-con-geogr anstatt nonmov-art-discrete
    (vgl. Restaurant)
  • Wiener, klein, türkisch, kurdisch, romanisch,
    cyber, philosophisch, besucht, traditionsreich,
    schnieke, gutbesucht, ...
  • Neger animal-object anstatt human-object
  • weiß, dreckig, gefangen, faul, alt, schwarz,
    nackt, lieb, gut, brav
  • aber
  • Skinhead human-object (richtig)
  • 16,17,18,19,20,21,22,23,30ährig, gleichaltrig,
    zusammengeprügelt, rechtsradikal, brutal
  • Wegen zu weniger Adjektive zurückgewiesen
  • Leberkäse human-object
  • bayerisch, warm

20
Ausblicke
  • Schwierigste semantische Klasse
    nonoper-attributez.B. Anfälligkeit,
    Angemessenheit, Ängstlichkeit, Beiläufigkeit, da
    typische Adjektive zu unspezifischerhöht,
    besonders, gering, hoch, extrem, größer,
    notorisch, gewisse, übertrieben, völlig, stärker,
    übergroß, scheinbar, bedingt ...., jedoch enden
    die meisten auf kheit....
  • Andere syntaktische Beziehungen ausnutzen
  • Polyseme Wörter behandeln- Disambiguierung
    Mehrere Adjektivprofile pro Substantiv-
    Vereinigung von Substantivnachbarn
    eigenschaftsspezifischer Adjektive können
    Hinweise auf mehrere Klassen liefern

21
Fragen?
  • Danke für die Aufmerksamkeit!
Write a Comment
User Comments (0)
About PowerShow.com