Title: FASTUS
1FASTUS
- Ein System zur Informations- und Faktenextraktion
2Entstehung
- Message Understanding conference (MUC)
- Austragung der Wettbewerbe in IE
- Untersuchung einer großen Anzahl von Texten auf
bestimmte Inhalte - Anschließende Speicherung in vordefinierter
Templates oder DB - FASTUS ab MUC-3 (1991) dabei (integriert in
TACITUS)
3Texte und Templates
- Incident Date - 19 Apr 89
- Incident Location El Salvador San Salvador
(CITY) - Incident Type Bombing
- Perpetrator Individual ID "urban guerrillas
- Perpetrator Organization ID "FMLN
- Perpetrator Organization Suspected or
- Accused by Authorities "FMLN
- Confidence Physical Target Description "vehicle"
- Physical Target Effect Some Damage "vehicle"
- Human Target Name "Roberto Garcia Alvarado"
- Human Target Description "attorney general"
"Roberto Garcia Alvarado" "driver" "bodyguards" - Human Target Effect Death "Roberto Garcia
Alvarado" No Injury "driver" - Injury "bodyguards"
San Salvador, 19 Apr 89 (ACAN-EFE) -- TEXT
Salvadoran President-elect Alfredo Cristiani
condemned the terrorist killing of Attorney
General Roberto Garcia Alvarado and accused the
Farabundo Marti National Liberation Front (FMLN)
of the crime. ... Garcia Alvarado, 56, was
killed when a bomb placed by urban guerrillas on
his vehicle exploded as it came to a halt at an
intersection in downtown San Salvador. ... Vice
President-elect Francisco Merino said that when
the attorney general's car stopped at a light on
a street in downtown San Salvador, an individual
placed a bomb on the roof of the armored vehicle.
... According to the police and Garcia
Alvarado's driver, who escaped unscathed, the
attorney general was traveling with two
bodyguards. One of them was injured.
4NEA-Modell ausreichend für IE?
- Natürliche Sprachen (Englisch, Deutsch) bis auf
wenige Konstrukte mit kontextfreien Grammatiken
beschreibbar - Durch die Verwendung von NEA nur reguläre
Ausdrücke erkennbar - Church (1980) Endliche Automaten sind adäquate
Approximationen des Modells der menschlichen
Sprache - Systematische Annäherungen von kontextfreien
durch reguläre Grammatiken
5Konzeptionelles Design
- Kette von NEA
- Jedes Glied für eine Stufe der Satzanalyse
verantwortlich - Am Anfang Analyse einfacher sprachlicher
Elemente und Konstrukte - Nutzung des linguistischen Wissens und daher
anwendungsübergreifend - Später Analyse der gefundenen Sprach-und
Satzformen - Suche nach anwendungsinternen Mustern
6Einzelne Stufen der Verarbeitung
- Erkennung von Eigennamen und zusammengesetzten
Wörtern - Gliederung der Sätze in noun groups, verb groups
und andere Einheiten - Komplexe noun groups und verb groups
- Untersuchung von Sequenzen gefundener
syntaktischer Formen auf relevante Patterns und
Bildung der entsprechenden Strukturen - Zusammenführung von Strukturen (Templates), die
das gleiche Ereignis oder Objekt beschreiben
7Erkennung von Eigennamen und zusammengesetzten
Wörtern
- Auffinden von Namen der Menschen, Ortschaften,
Firmennamen, Daten, Zeiten etc. - Mehrdeutige Eigennamen werden jedoch erst im 2.
Schritt erkannt - XYZs sales
- Erkennung von festen Wortverbindungen und
Kollokationen - set up, joint venture, new Taiwan dollars
8Kategorisierung der Nominalformen
9Syntaktische Grundformen
- Problem der syntaktischen Mehrdeutigkeit ist
KI-vollständig - Noun phrases sind nicht eindeutig erkennbar,
dafür noun groups - Substantive mit
beschreibenden Adjektiven und Adverbien
(Deskriptoren) - Verb groups Verben mit ihren Hilfsverben und
charakterisierenden Adverbien - Präpositionen, Konjunktionen, Relativpronomen,
Wörter ago und that - Wenn eine Form ein Teil einer anderen ist, wird
die größere berücksichtigt
10Reguläre Grammatiken als Werkzeug für das
syntaktische Parsing
- Erkennung von noun groups mit Hilfe einer
regulären Grammatik - Zahlen, numerische Deskriptoren, Partizipien in
Adjektivrolle, Komparative und Superlative
Adjektivformen, Adjektive in Substantivrolle - Grammatik für Verbgruppen kennzeichnet sie als
Active, Passive, Gerund und Infinitive - Unbekannte oder nicht zugeordnete Wörter werden
im Weiteren ignoriert
11Vollständige syntaktische Gliederung
12Schritt 3 Komplexe syntaktische Formen
- Anfügen von Artikeln
- the formerly established joint venture
- Phrasen, die Quantität beschreiben
- 20000 iron wheels, several hundred cows
- Anfügen präpositionaler Formen von of und
for production of 20000 iron wheels - Konjunktion der noun groups
- a local concern and a Japanese trading house
13Schritt 3 Bildung von Templates
- Während der Schritte 2 und 3 können relevante
Ereignisse und Entitäten gefunden werden - The joint venture, Bridgestone Sports Taiwan
Co.,... - Relationship TIE-UP
- Entities --
- Joint Venture Company Bridgestone Sports Taiwan
Co. - Activity --
- Amount --
14Schritt 3 Bewältigung der Sprachvielfalt
- GM formed a joint venture with Toyota.
- GM announced it was forming a joint venture with
Toyota. - GM signed an agreement forming a joint venture
with Toyota. - GM announced it was signing an agreement to form
a joint venture with Toyota. - Unterschiedliche Ausdrucksformen werden auf
standardisierte Normalform gebracht, indem
entsprechende komplexe verb groups gefunden und
aufgelöst werden
15Schritt 3 Beispiel
16Erkennung von Fakten und Ereignissen
- Spezifizierung durch Patterns
- Reguläre Ausdrücke, Erkennung mit NEA
- Zustandsübergänge durch Paare von Anfangswörtern
(Terminalsymbolen) und Typen der komplexen Formen
ausgelöst - company-NounGroup
- formed-PassiveVerbGroup
- bargaining-PresentParticipleVerbGroup'
17Erkennung von Fakten und Ereignissen
Matching von syntaktisch gegliedertem Text mit
anwendungsinternen Patterns
Company/ies Set-up Joint-Venture with
Company/ies Company Capitalized at
Currency
18Syntaktische Verfeinerungen
- Patterns ermöglichen genaue Fokussierung auf
relevante syntaktische Konstrukte - Vermeidung unnötiger Verarbeitung
Subject Preposition NounGroup VerbGroup
Subject Relpro NounGroup Other VerbGroup
NounGroup Other VerbGroup
19Zusammenführung von Templates
- Erste 4 Schritte verarbeiten einen Satz, dieser
- ganzen Text - Auffindung und Zusammenfügung sämtlicher
Informationen über ein Ereignis - 3 Kriterien für die Entscheidung über die
Zusammenschmelzung zweier Entitäten - - interne Struktur der enthaltenen noun groups
- - Nähe gemäß einer definierten Metrik
- - Kompatibilität zweier Strukturen
20Zusammensetzen der Teile eines Fakts
21Anwendungen von FASTUS
- Analyse von Wirtschaftsnachrichten (Fusionen,
Arbeitgeberverhandlungen) - Globale politische Nachrichten (Terroranschläge)
- Militärnachrichten
- Integration in OCR-Systeme