Bestimmung der richtigen Wortbedeutung - PowerPoint PPT Presentation

About This Presentation
Title:

Bestimmung der richtigen Wortbedeutung

Description:

Bestimmung der richtigen Wortbedeutung Einfache Vorstellung Einige W rter haben mehr als eine Bedeutung (z.B. Bank, Hahn, Schloss, Titel, Kopf, ...) – PowerPoint PPT presentation

Number of Views:64
Avg rating:3.0/5.0
Slides: 23
Provided by: big149
Category:

less

Transcript and Presenter's Notes

Title: Bestimmung der richtigen Wortbedeutung


1
Bestimmung der richtigen Wortbedeutung
2
Einfache Vorstellung
  • Einige Wörter haben mehr als eine Bedeutung (z.B.
    Bank, Hahn, Schloss, Titel, Kopf, ...)
  • Ein Wort hat endlich viele, diskrete Bedeutungen,
    die in einem Wörterbuch, Thesaurus oder anderen
    Referenzquellen verankert sind
  • Die Bestimmung der Bedeutung geschieht mit Hilfe
    des Kontexts

3
Das Problem ist komplizierter
  • Ein Wort hat selten eindeutige, klar abgetrennte
    Bedeutungen (wie Bank)
  • Oft besteht ein Zusammenhang zwischen den
    Bedeutungen, sie sind nicht klar trennbar
  • Beispiel title
  • - Name/heading of a book, work of art or music
  • - Material at the start of the film
  • - The right of legal ownership of land
  • - The document that is evidence of this right
  • - An appellation of respect attached to a
    persons name

4
Definition der Wortbedeutung
  • VarianteBereits vorhandene Definitionen aus
    einem Lexikon/Wörterbuch übernehmen
  • Kein einheitlicher Standard, Unterschiede in
    Anzahl und Art der Bedeutungen
  • Teilweise sind Zuordnungen von Bedeutungen in
    einem Wörterbuch nicht konsistent
  • Beispiel This work doesnt have a title

5
Bedeutungsbestimmung vs. Tagging
  • Andere Art von Mehrdeutigkeit ist syntaktischer
    Natur
  • z.B. butter Substantiv, Verb
  • (you should butter your toast)
  • Starker Unterschied zw. Gebrauch als Verb und
    Gebrauch als Substantiv gt Tagging ein
    Teilproblem?
  • Bestimmung von Bedeutungen Vergabe von
    semantischen Tags gt Kann mit Tagging erledigt
    werden

6
Tagging als separates Problem
  • Trennung, da unterschiedliche Natur der Probleme
  • Unterschiedliche Methoden
  • Deskriptoren für syntaktische Methoden relevant
  • Wörter mit einer relativ großen Entfernung im
    Satz wichtig für Bestimmung der Wortbedeutung

7
Bayesische Klassifikation
  • Betrachtung eines großen Kontextfensters um das
    zu klärende Wort
  • Annahme Jedes Wort trägt zur Bedeutungsklärung
    bei
  • Keine speziellen Merkmale werden ausgewählt.
    Stattdessen Kombination der Hinweise auf eine
    Bedeutung berücksichtigt

8
Bayesische Entscheidungsregel
  • Bestimme die Wortbedeutung als b, wenn P(bc) gt
    P(bkc) für b ! bk
  • Optimal, da Fehlerwahrscheinlichkeit minimiert
    wird
  • Wenn P(bkc) nicht bekannt ist, Berechnung mit
    Bayes-Formel
  • P(bk) ist a priori-Wahrscheinlichkeit der
    Wortbedeutung bk

9
Naiver Bayesischer Klassifikator
  • Annahme Kontextattribute sind unabhängig
  • Vernachlässigung der Struktur und Reihenfolge des
    Kontextes
  • Vereinfachung ermöglicht Nutzung des effizienten
    Modells bedingter Wahrscheinlichkeiten
  • Ungeeignet, wenn starke Zusammenhänge zwischen
    den Kontextattributen bestehen

10
Entscheidungsregel für naiven Klassifikator
  • Wähle Bedeutung b, wenn
  • maximal ist

11
Trainingsalgorithmus
  • Für alle Bedeutungen bk des Worts w
  • für alle Wörter vj des Wörterbuchs
  • end
  • end
  • Für alle Bedeutungen bk des Worts w
  • End
  • Für alle Bedeutungen bk des Worts w
  • score(bk)logP(bk)
  • für alle Wörter vj im Kontextfenster
  • score(bk)score(bk)logP(vjbk)
  • end
  • end
  • Wähle bk mit dem größtem score(bk)

12
Hinweise auf eine Bedeutung
  • Betrachte das Wort drug

Bedeutung Hinweise
Medication Prices, prescription, patent, consumer, Pharmaceutical
Illegal substance Abuse, dealer, alcohol, cocaine,illict
13
Informationstheoretische Methode
  • Bayesischer Klassifikator vernachlässigt
    Wortabhängigkeiten im Kontext
  • Wortbedeutung kann mittels eines Indikators
    (eines typischen Worts im Kontext) ermittelt
    werden
  • Folgender Algorithmus ordnet einer Bedeutung eine
    Menge von Indikatoren zu.
  • Seien b1,...,bm unterschiedliche Bedeutungen
    und i1,..., in die Menge der Indikatoren

14
Flip-Flop Trainingsalgorithmus
  • Finde eine zufällige Partition PP1,P2 von
    b1,...,bm
  • while (improving) do
  • finde Partition QQ1, Q2 von i1,...,in,
  • so dass I(P,Q) maximal ist
  • finde Partition P P1,P2 von b1,...,bm, so
    dass I(P,Q) maximal ist
  • end

15
Was bedeutet Hahn?
  • b1,...,bm Vogel, Absperrvorrichtung, Teil
    des Waffenschlosses
  • i1,...,in krähen, reparieren, installieren,
    schlafen,ersetzen
  • Sei Partition P P1,P2 mit P1Vogel,
  • P2Absperrvorrichtung, Schlossteil
  • Für welche Partition Q ist die Entropie I(P,Q)
    maximal?

16
Beispiel
  • Partition Q1 krähen, schlafen,
  • Q2 installieren, reparieren, ersetzen
  • gibt uns den größten Informationsgewinn im
    Hinblick auf Unterscheidung von P1 und P2
  • Brute-force Suche nach der besten Partition hat
    exponentielle Laufzeit
  • Flip-Flop ist linear in der Laufzeit

17
Anwendung
  • Algorithmus für alle mögliche Positionen des
    Indikators im Kontext laufen lassen
  • Indikatorposition mit dem größtem
    Informationsgewinn für beide Bedeutungen wählen
  • Den Wert des Indikators ij an dieser Position
    bestimmen
  • Wenn ij ist in Q1, ordne dem Wort die Bedeutung 1
    zu, wenn in Q2 Bedeutung 2.

18
Merkmale des IT-Algorithmus
  • Überwachtes Lernen, da die Trainingstexte
    gekennzeichnet sein müssen
  • Oft in Übersetzungssystemen verwendet
  • Anstatt Wortbedeutungen werden ihre Übersetzungen
    betrachtet
  • 20 Verbesserung

19
Nutzung eines Wörterbuchs
  • Idee Wortdefinitionen sind oft gute Indikatoren
    für die definierte Bedeutung
  • c-Kontext,
  • Dk Menge aller Wörter in Def. von bk, Ev
    Menge aller Wörter in den Def. von allen
    Bedeutungen von v
  • Für alle Bedeutungen bk des Worts w
  • score(bk)overlap(Dk, Uv in c Ev)
  • end

20
Verbesserungsmöglichkeiten
  • overlap Mächtigkeit der Schnittmenge oder
    geeignete Metrik
  • Mehrere Iterationen des Algorithmus
  • Ev umfasst nicht alle, sondern in vorigen
    Iteration als relevant gefundene Bedeutungen
  • Erweiterung jedes Worts im Kontext durch die
    Liste seiner Synonyme

21
Thesaurus-basierte Verfahren
  • Nutzung der semantischen Kategorien
  • Idee Die Wortbedeutung wird durch die Kategorie
    bestimmt, die dem Kontext zugeordnet wird

22
Unsupervised disambiguation
  • Zuordnung von Bedeutungen nicht möglich
  • Allerdings Bestimmung unterschiedlicher
    semantischer Gruppen realisierbar
  • Clustering und Identifizierung unterschiedlicher
    Wortbedeutungen sind möglich
Write a Comment
User Comments (0)
About PowerShow.com