Title: Methoden%20der%20Sprachverarbeitung
1Methoden der Sprachverarbeitung
- H. Schweppe, FUB mit Zara Kanaeva
- WS 02/02
2Ein Text
- Deutschland ist nach wie vor schwach, heißt es
im Herbstgutachten, das die Forscher am Dienstag
veröffentlichten. Die Institute rechnen im
kommenden Jahr mit einem Wirtschaftswachstum von
1,4 Prozent nach plus 0,4 Prozent in diesem Jahr.
Die Institute erwarten darüber hinaus im
kommenden Jahr einen deutlichen Abbau beim
öffentlichen Defizit. Mit plus 3,2 Prozent werde
in diesem Jahr die drei-Prozent- Marke des
Europäischen Stabilitätspaktes überschreiten,
heißt es im Herbstgutachten, das die Institute am
Dienstag vorstellten. Im Jahr 2003 werde der
Defizitanteil am Bruttoinlandsprodukt aber wegen
der drastischen Haushaltskürzungen auf 1,9
Prozent zurückgehen. - Die ostdeutsche Wirtschaft soll im kommenden Jahr
erstmals seit 1997 wieder stärker wachsen als die
Westdeutsche. Die mit 2,3 Prozent deutliche
höhere Ost-Wachstumsrate sei allerdings auf einen
Sondereffekt durch die Beseitigung der
Flutschäden in den neuen Ländern zurückzuführen.
Von einer konjunkturellen Belebung könne keine
Rede sein. (tso/dpa)
3Verschiedene Ziele
In dieser Veranstaltung nur geschriebene, keine
gesprochene Sprache!
- Sprachwissenschaft
- Verstehen wie Sprache
- entsteht
- verwendet wird
- welche Eigenschaften
- .......
- Erkenntnis über natürliche Sprache gewinnen
- Computerlinguistik / Informatik
- Automatisierung von
- Sprachverstehen
- Übersetzung....
- Automatisierung von Kommunikationsprozessen in
NL - Große Überschneidungen der Ziele
4Anwendungen der Sprachverarbeitung
- Textanalyse (statistisch)
- Stil keine große praktische Bedeutung
- Grammatik wichtige Methode
- einfache Werkzeuge (Häufigkeiten....)
- kein "Sprachverstehen"
- Sprachübersetzung
- schwer relativ gute Ergebnisse (u.a. "Systran")
Problem meist Nachbearbeitung nötig - Automatische Zusammenfassungen ("abstracts")
- Sprachverstehen
- Was ist das überhaupt??
5Sprachverstehen
- Arbeitsdefinition "Textverstehen" "Ein
technisches System versteht einen
natürlichsprachlichen Text, wenn es alle Fragen
zu diesem Text beantworten kann, die ein
(durchschnittlich intelligenter) Mensch
beantworten kann. "Vergleiche Turing Test
6Anwendungen...
- Information Retrieval (?)
- natürlichsprachliche Texte
- relativ gute Ergebnisse
- Beispiel
- kein Sprachverstehen im Sinne der Definition
- Dokument als Antwort
- Einfaches statistisches Sprachmodell
7Anwendungen...
- Informations Extraktion (IE), Faktenextraktion
(Fex) - Beispiel Text am Anfang "Die Institute rechnen
im kommenden Jahr mit einem Wirtschaftswachstum
von 1,4 Prozent nach plus 0,4 Prozent in diesem
Jahr. " - Datenbank mit Wirtschaftsdaten
- ButtoSProd ( Jahr, Wert), ......,
- WachstumProg (Inst, Datum, fürJahr, Wert)
- ( NULL , date, 2003, 1.4 )
- ( NULL , date, 2002, 0.4 )
- Nur gewisse, vorab zu definierende Sachverhalte
extrahieren - Überführung in abfragbaren Datenbestand (DB,
nicht semantischeTiefenstruktur - Annahme Es werden nicht beliebig viele
sprachliche Formen für eine Aussage verwendet.
8Ziel der Veranstaltung
- Verstehen von Methoden der Sprachverarbeitung
- (Wortbasierte Techniken, Parsing,
statistische Verfahren,...) - Fokus Methoden, die für IE / FEx nützlich sind
- Zusammenhang IR und Fex bzw. Sprachverarbeitung
- Experimente zur Faktenextraktion
- Annahme
- Natürlichsprachliche Texte sind die wichtigsten
Träger elektronisch kodierter Information - Information Retrieval ist hilfreich, aber nicht
ausreichend für Frage / Antwort Prozesse - Pragmatische Verfahren machen IE / FEx
praxistauglich
9(Sehr) Kleine Historie...
- ... der Computerlinguistik
- Am Anfang war das Wort.... (Turing)
- Syntax Noam Chomsky 1955
- Semantik Intensive Forschung in den USA ab
1965 Ziele - Computermodelle, die
Spracherwerb und -nutzung
erklären können - Maschinelle
Übersetzung - "Question Answering"
(ohne praktische Bedeutung) - Ende der 70er Natürlichsprachlicher
Systemzugang - Text,
nicht gesprochene Sprache - Mitte der 80er Euphoriephase der KI
- "Problem in 15 Jahren gelöst!" - Gute Fortschritte in der Sprachübersetzung, ...
aber sonst... - 90er Jahre Verarbeitung gesprochener Sprache
setzt sich durch. Problem
bleibt Semantik der
natürlichsprachlichen Äußerung
10Was macht Sprachverarbeitung schwierig?
11 Analog "Our problem is training workers"
12 S
NP
VP
Our company
V
VP
is
AdjP
NP
Analog "Those are training devices"
workers
training
Angeblich 455 verschiedene Parse-Bäume für den
Satz "List the sales of the products produced
in 1973 with the products produced in 1972"
13Was macht Sprachverarbeitung schwierig?
- Fehlendes Weltwissen zur Desambiguierung
- "Deutschland ist nach wie vor schwach", heißt es
im Herbstgutachten, das die Forscher am Dienstag
veröffentlichten. - CycThe knowledge base is built upon a core of
over 1,000,000 hand-entered assertions (or
"rules") designed to capture a large portion of
what we normally consider consensus knowledge
about the world. For example, Cyc knows that
trees are usually outdoors, that once people die
they stop buying things, and that glasses of
liquid should be carried rightside-up. - Seit 1984 systematische Sammlung von Common
Sense - Weltwissen
14Was macht Sprachverarbeitung schwierig?
- Weitere linguistische Phänomene
- Kollokationen
- disk drive, ham and eggs, international best
practice - 8-Bit Technologie, Magisterstudiengang
Informatik,...
- Morphologie Flexionsformen, Zeiten,...
- sit, sits, sat -gt ins Wörterbuch
- Komposita im Deutschen?
- Koreferenzen
- "Microsoft kündigte gestern an, ihre gesamte
Software zu verschenken. Der Marktführer aus
Redmond kommt damit einem Beschluss des Obersten
Bundesgericht zur Auflösung der Firma zuvor."
15 - Elementar, aber wichtig
- Eigennamen erkennen " PixelPark", "I3V", ...
- Zahlen erkennen "Auf dem ersten
Platz..." "Auf dem vorletzten Platz aller
europäischen Staaten.."
16Zwei Ansätze
- Strukturalistisch
- Grammatik per Hand konstruiert
- Weltwissen explizit aufgebaut
- Semantische Analyse, Desamiguierung, .... als
Teil eines "Knowledge Engineering" -
Prozesses - Empirisch
- Statistische Eigenschaften von Sprachgebrauch
untersuchen und nutzen - Automatisches Trainieren
- Lernverfahren
17Statistische Spracheigenschaften Gesetz von Zipf
- "Prinzip des geringsten Aufwandes"
- Sprache Zusammenhang zwischen der Häufigkeit f
des Vorkommens eines Worts zum Rang r in der
Häufigkeitstabelle - fr const
- f r fr
- he 877 10 8770
- but 410 20 8400
- begin 9 900 8100
- family 8 1000 8000
- G.K. Zipf "Human Behaviour and the Pronciple of
Least Effort", 1949
Beispiel aus Tom Sawyer, nach C. Manning,
(Auschnitt, tatsächlich größere Abweichungen)
18Statistische Sprachanalyse einfache Beispiele
- Frequenz von Kollokationen
- Wort-Bigramme
- Experiment mit 3 Monaten Text der "NewYork
Times" -
- Häufigkeit 1. Wort 2. Wort
- 1. 80871 of the
- 2. 58841 in the
- 3. 26430 to the
- ....
- 15 11429 New York
- 16 10007 he said
19Statistische Sprachanalyse einfache Beispiele
- Mehrschrittige Verfahren
- z.B.
- - Wortkategorien zuweisen (Nomen, Adj, Verb,..)
"Part of Speech Tagging, POST" - - Bigramme bilden
- - Filtern nach vorgegebenen POS Mustern (z.B. N
N, AN)
20Statistische Sprachanalyse einfache Beispiele
- Konkordanzen"In welchen syntaktischen
Zusammenhängen taucht ein Verb auf?" - KWIC Index ("keyword in context")
1 could find a target. He showed the vacany
and went 2 n various ways, and then showed his
aversion to what w .... 9 own. The glimmering
light showed where it lay, peaceful .... KWIC
für "showed" in Tom Sawyer (nach C. Manning)
21Statistische Sprachanalyse einfache Beispiele
- Konkordanzen (2)
- KWIC und POST
- Ermittlung des syntaktischen Kontext, in dem
ein Verb vorkommt
NP agent showed (NP recipient) NP content
(...) NP agent showed CP where content NP
agent showed NPaversion PP to Insgesamt 8
syntaktische Muster für "showed" in Tom Sawyer
22Bewertung
- "Wie gut ist das System?"
- Für Faktenextraktion Bewertungstechniken des
Information Retrievals - Wieviel Fakten sollten gefunden werden (n) ?
- Wieviele wurden tatsächlich gefunden (m) gt
recall m / n - Wieviele Fakten wurden insgesamt extrahiert (k)
gt precision m/ k
23Übersicht
- Zeitplan
- 1. Einführung, EinführungIE (HS)
- 2. Einführung IE (2) (HS)
- 3. Vortrag Inf. Extraction and IR (Artikel von
Gaizaukas) - Vortrag Fastus
- Vorstellung des Annie-Systems
- 4. Gate Technische Einführung
- Experiment zur Extraktion vorbereiten
- 5. Experiment und Auswertung
24Überblick
- 6. Statistische Techniken der Textanalyse
Prakatische Arbeit Statistische
Charakterisierung von Texten
(Worthäufigkeiten, n-Gramme, ...) -
- 7. Dictionaries WordNet (Vortrag zu WordNet)
- 8. Weitere Wortbasierte Methoden Eigennamen,
Zahlen erkennen. (Vortrag) - 9. 12 Satz- /Textorientierte Techniken
Parsing