FASTUS - PowerPoint PPT Presentation

About This Presentation
Title:

FASTUS

Description:

FASTUS Ein System zur Informations- und Faktenextraktion Entstehung Message Understanding conference (MUC) Austragung der Wettbewerbe in IE Untersuchung einer gro en ... – PowerPoint PPT presentation

Number of Views:36
Avg rating:3.0/5.0
Slides: 22
Provided by: bigb6
Category:
Tags: fastus | bombing | church

less

Transcript and Presenter's Notes

Title: FASTUS


1
FASTUS
  • Ein System zur Informations- und Faktenextraktion

2
Entstehung
  • Message Understanding conference (MUC)
  • Austragung der Wettbewerbe in IE
  • Untersuchung einer großen Anzahl von Texten auf
    bestimmte Inhalte
  • Anschließende Speicherung in vordefinierter
    Templates oder DB
  • FASTUS ab MUC-3 (1991) dabei (integriert in
    TACITUS)

3
Texte und Templates
  • Incident Date - 19 Apr 89
  • Incident Location El Salvador San Salvador
    (CITY)
  • Incident Type Bombing
  • Perpetrator Individual ID "urban guerrillas
  • Perpetrator Organization ID "FMLN
  • Perpetrator Organization Suspected or
  • Accused by Authorities "FMLN
  • Confidence Physical Target Description "vehicle"
  • Physical Target Effect Some Damage "vehicle"
  • Human Target Name "Roberto Garcia Alvarado"
  • Human Target Description "attorney general"
    "Roberto Garcia Alvarado" "driver" "bodyguards"
  • Human Target Effect Death "Roberto Garcia
    Alvarado" No Injury "driver"
  • Injury "bodyguards"

San Salvador, 19 Apr 89 (ACAN-EFE) -- TEXT
Salvadoran President-elect Alfredo Cristiani
condemned the terrorist killing of Attorney
General Roberto Garcia Alvarado and accused the
Farabundo Marti National Liberation Front (FMLN)
of the crime. ... Garcia Alvarado, 56, was
killed when a bomb placed by urban guerrillas on
his vehicle exploded as it came to a halt at an
intersection in downtown San Salvador. ... Vice
President-elect Francisco Merino said that when
the attorney general's car stopped at a light on
a street in downtown San Salvador, an individual
placed a bomb on the roof of the armored vehicle.
... According to the police and Garcia
Alvarado's driver, who escaped unscathed, the
attorney general was traveling with two
bodyguards. One of them was injured.
4
NEA-Modell ausreichend für IE?
  • Natürliche Sprachen (Englisch, Deutsch) bis auf
    wenige Konstrukte mit kontextfreien Grammatiken
    beschreibbar
  • Durch die Verwendung von NEA nur reguläre
    Ausdrücke erkennbar
  • Church (1980) Endliche Automaten sind adäquate
    Approximationen des Modells der menschlichen
    Sprache
  • Systematische Annäherungen von kontextfreien
    durch reguläre Grammatiken

5
Konzeptionelles Design
  • Kette von NEA
  • Jedes Glied für eine Stufe der Satzanalyse
    verantwortlich
  • Am Anfang Analyse einfacher sprachlicher
    Elemente und Konstrukte
  • Nutzung des linguistischen Wissens und daher
    anwendungsübergreifend
  • Später Analyse der gefundenen Sprach-und
    Satzformen
  • Suche nach anwendungsinternen Mustern

6
Einzelne Stufen der Verarbeitung
  1. Erkennung von Eigennamen und zusammengesetzten
    Wörtern
  2. Gliederung der Sätze in noun groups, verb groups
    und andere Einheiten
  3. Komplexe noun groups und verb groups
  4. Untersuchung von Sequenzen gefundener
    syntaktischer Formen auf relevante Patterns und
    Bildung der entsprechenden Strukturen
  5. Zusammenführung von Strukturen (Templates), die
    das gleiche Ereignis oder Objekt beschreiben

7
Erkennung von Eigennamen und zusammengesetzten
Wörtern
  • Auffinden von Namen der Menschen, Ortschaften,
    Firmennamen, Daten, Zeiten etc.
  • Mehrdeutige Eigennamen werden jedoch erst im 2.
    Schritt erkannt
  • XYZs sales
  • Erkennung von festen Wortverbindungen und
    Kollokationen
  • set up, joint venture, new Taiwan dollars

8
Kategorisierung der Nominalformen
9
Syntaktische Grundformen
  • Problem der syntaktischen Mehrdeutigkeit ist
    KI-vollständig
  • Noun phrases sind nicht eindeutig erkennbar,
    dafür noun groups - Substantive mit
    beschreibenden Adjektiven und Adverbien
    (Deskriptoren)
  • Verb groups Verben mit ihren Hilfsverben und
    charakterisierenden Adverbien
  • Präpositionen, Konjunktionen, Relativpronomen,
    Wörter ago und that
  • Wenn eine Form ein Teil einer anderen ist, wird
    die größere berücksichtigt

10
Reguläre Grammatiken als Werkzeug für das
syntaktische Parsing
  • Erkennung von noun groups mit Hilfe einer
    regulären Grammatik
  • Zahlen, numerische Deskriptoren, Partizipien in
    Adjektivrolle, Komparative und Superlative
    Adjektivformen, Adjektive in Substantivrolle
  • Grammatik für Verbgruppen kennzeichnet sie als
    Active, Passive, Gerund und Infinitive
  • Unbekannte oder nicht zugeordnete Wörter werden
    im Weiteren ignoriert

11
Vollständige syntaktische Gliederung
12
Schritt 3 Komplexe syntaktische Formen
  • Anfügen von Artikeln
  • the formerly established joint venture
  • Phrasen, die Quantität beschreiben
  • 20000 iron wheels, several hundred cows
  • Anfügen präpositionaler Formen von of und
    for production of 20000 iron wheels
  • Konjunktion der noun groups
  • a local concern and a Japanese trading house

13
Schritt 3 Bildung von Templates
  • Während der Schritte 2 und 3 können relevante
    Ereignisse und Entitäten gefunden werden
  • The joint venture, Bridgestone Sports Taiwan
    Co.,...
  • Relationship TIE-UP
  • Entities --
  • Joint Venture Company Bridgestone Sports Taiwan
    Co.
  • Activity --
  • Amount --

14
Schritt 3 Bewältigung der Sprachvielfalt
  • GM formed a joint venture with Toyota.
  • GM announced it was forming a joint venture with
    Toyota.
  • GM signed an agreement forming a joint venture
    with Toyota.
  • GM announced it was signing an agreement to form
    a joint venture with Toyota.
  • Unterschiedliche Ausdrucksformen werden auf
    standardisierte Normalform gebracht, indem
    entsprechende komplexe verb groups gefunden und
    aufgelöst werden

15
Schritt 3 Beispiel
16
Erkennung von Fakten und Ereignissen
  • Spezifizierung durch Patterns
  • Reguläre Ausdrücke, Erkennung mit NEA
  • Zustandsübergänge durch Paare von Anfangswörtern
    (Terminalsymbolen) und Typen der komplexen Formen
    ausgelöst
  • company-NounGroup
  • formed-PassiveVerbGroup
  • bargaining-PresentParticipleVerbGroup'

17
Erkennung von Fakten und Ereignissen
Matching von syntaktisch gegliedertem Text mit
anwendungsinternen Patterns
Company/ies Set-up Joint-Venture with
Company/ies Company Capitalized at
Currency
18
Syntaktische Verfeinerungen
  • Patterns ermöglichen genaue Fokussierung auf
    relevante syntaktische Konstrukte
  • Vermeidung unnötiger Verarbeitung

Subject Preposition NounGroup VerbGroup
Subject Relpro NounGroup Other VerbGroup
NounGroup Other VerbGroup
19
Zusammenführung von Templates
  • Erste 4 Schritte verarbeiten einen Satz, dieser
    - ganzen Text
  • Auffindung und Zusammenfügung sämtlicher
    Informationen über ein Ereignis
  • 3 Kriterien für die Entscheidung über die
    Zusammenschmelzung zweier Entitäten
  • - interne Struktur der enthaltenen noun groups
  • - Nähe gemäß einer definierten Metrik
  • - Kompatibilität zweier Strukturen

20
Zusammensetzen der Teile eines Fakts
21
Anwendungen von FASTUS
  • Analyse von Wirtschaftsnachrichten (Fusionen,
    Arbeitgeberverhandlungen)
  • Globale politische Nachrichten (Terroranschläge)
  • Militärnachrichten
  • Integration in OCR-Systeme
Write a Comment
User Comments (0)
About PowerShow.com