Title: Distributed Language Translation
1Distributed Language Translation
- Referat im Kurs Übersetzung durch Mensch und
Maschine an der Universität Bremen - Referentin Carolin Hinz
- 15. Januar 2003
2Gliederung
- Allgemeines
- Entwicklungsgeschichte
- linguistische Grundlagen
- Übersetzungsprozess
- Zusammenfassung
- Literatur
3Allgemeines
- Entwickelt von der Softwarefirma BSO (Buro voor
Systemontwikkeling) in Utrecht/Holland - Interlinguasystem
- linguistische Grundlagen Dependenzgrammatik und
Esperanto als Interlingua - Software wurde in Prolog entwickelt
- System lief auf Sun-Rechnern unter dem
Betriebssystem Unix - modulares System
- Übersetzungsprozess ist auf mehrere Terminal
verteilt distributed
4Entwicklungsgeschichte
1979 Beginn erster Untersuchungen durch A.P.M.
(Toon) Witkam 1983 Veröffentlichung einer Studie
zur Durchführbarkeit 1985 6-Jahresvertrag mit
dem niederländischen Finanzministerium
Ziel Erstellung eines Prototyps bis 1987 und
einer marktfähigen Version bis 1993 1987
Vorstellung des ersten PrototypsÜbersetzung von
einer vereinfachter Form des Englischen
(Simplified English) in Französisch 1991 Trotz
langfristiger Planungen plötzliches Einstellen
des Projektes
5Linguistische Grundlagen 1 Dependenzgrammatik
Dependenz Abhängigkeitsverhältnis zwischen
fakultativen und obligatorischen Bestandteilen
eines Satzes Kopf obligatorischer Bestandteil
einer Konstituente Dependens fakultativer oder
abhängiger Bestandteil Verbzentrierung Man nimmt
an, dass alle Satzglieder vom finiten Verb
desselben Satzes unmittelbar oder mittelbar
abhängen
6Linguistische Grundlagen I Dependenzgrammatik
Wenn ein Kopf festlegt, welche Wortform sein
Dependens haben darf, dann ist dies ein Indiz
dafür, dass der Kopf das Dependens regiert. Diese
Wirkung nennt man Rektion. Das regierende Element
wird oft als Regens, das regierte als Rectum
bezeichnet. Metataxis kontrastive Syntaxregeln,
um einen Dependenzbaum einer Sprache in einen
equivalenten Baum in einer anderen Sprache zu
transformieren
7Linguistische Grundlagen II Esperanto
Plansprache, die zum Einsatz als internationale
Verkehrssprache von Ludovic Lazar Zamenhof 1887
konstruiert wurde Esperantobewegung ? große
Sprachgemeinschaft durch verbreiteten Gebrauch
über längere Zeit ? sprachliche Entwicklung und
Innovation Vokabular stammt aus europäischen
Sprachen ? Vorwurf des Eurozentrismus
8Linguistische Grundlagen II Esperanto
Esperanto gilt als eine leicht zu erlernende
Sprache. Dies folgt vor allem aus der
vollständigen Regelhaftigkeit der Sprache.
Grammatische Regeln haben keine Ausnahmen und die
agglutinierende morphologische Struktur
erleichtert den Wortschatzerwerb gegenüber
anderen Sprachen.
9Linguistische Grundlagen II Esperanto
1. Morphologie Esperanto ist eine agglutinierende
Sprache, d. h. jedes grammatische Merkmal wird
durch ein Morphem dargestellt, das an einen Stamm
angehängt wird. Jedes Morphem ist unveränderlich.
Es gibt keine Allomorphie Jedes Morphem hat
genau eine bestimmte Bedeutung. Komposita sind
hinsichtlich ihrer Bedeutung transparent, da sich
diese aus der Bedeutung der einzelnen
Bestandteile ergibt. Die Wörter des Esperanto
werden aus Wurzeln und Affixen zusammengesetzt.
Es gibt auch Komposita, die aus zusammengefügten
Wörtern oder zusammengefügten Wurzeln bestehen.
10Linguistische Grundlagen II Esperanto
2. Wortarten Man unterscheidet vier lexikalische
Hauptkategorien Nomina, Adjektive, Adverbien und
Verben. Jede dieser Wortarten wird durch Anhängen
des entsprechenden Suffixes an eine Wurzel
gebildet. Bsp. Wurzel telefon- telefon -o
sonor -as "Telefon-" -Subst. "Klang-"
-Präs. ein Telefon klingelt
11Linguistische Grundlagen II Esperanto
mi telefon -as 1.Sg. "Telefon-"
-Präs. ich telefoniere telefon -a -j -n
mesagx -o -j
-n "Telefon-" -Adj. -Pl. -dir.Obj.
"Nachricht" -Subst. -Pl. -dir.Obj. telefonische
Nachrichten la instru -ist -o
parol -os telefon -e kun
sxi Def"Lehr-"Tätigkeit-Subst."Sprach-"Fut.
"Telefon-" -Adv. mit 3.Sg.Fem. der Lehrer wird
telefonisch mit ihr sprechen
12Linguistische Grundlagen II Esperanto
3. Wortstellung Die normale Wortstellung des
Esperanto ist SVO. Determinatoren und Adjektive
stehen gewöhnlich vor dem Nomen. Des Weiteren ist
die Sprache präpositional. D.h. Adpositionen
stehen vor dem Kopf. Beispiel La instruistino
parolas telefone kun li.
13Linguistische Grundlagen II Esperanto
S
VP
NP
Det
N
V
AdvP
PP
Adv
P
NP
Pron
La instruistino parolas
telefone kun li. Die
Lehrerin spricht telefonisch mit
ihm.
14Übersetzungsprozess
Ausgangssatz He watches the girl with the
telescope.
Schritt 1 Syntaktische Analyse der SL (Source
Language) durch einen Parser (in DLT ATN
Augmented Transition Network) Zugriff auf
SL-Syntaxregeln und SL-Wörterbuch Ergebnis
Baumstruktur bei syntaktischen Ambiguitäten ?
Generierung von zwei oder mehr Bäumen
15Übersetzungsprozess
erster Baum
watch ltpastgt E-Subj
E-Obj E-Circ
he
girl
with
E-Det
E-Parg
the
telescope
E-Det
the
16Übersetzungsprozess
zweiter Baum
watchltpastgt
E-Subj E-Obj he
girl
E-Det
E-Atr2
the
with
E-Parg
telescope
E-Det
the
17Übersetzungsprozess
Legende der Dependenzlabel Subj Subjekt Obj
Objekt Circ Circumstantial Atr2 Postnominal
Attribute Det Determiner Parg Prepositional
Argument E Englisch
18Übersetzungsprozess
Schritt 2 SL-IL(Intermediate Language)-Metataxis
? Wort-für-Wort-Übersetzung Ersetzen der
Englischen Dependenzlabel durch äquivalente in
Esperanto Zugriff auf Metataxisregeln und
zweisprachiges Wörterbuch (SL-IL) Ergebnis
mehrere IL-Bäume in unserem Beispiel
strukturelle Ambiguitäten lexikalische würden an
einem Baum dargestellt werden
19Übersetzungsprozess
erster Baum Li observis la knabinon per la
telescopo.
observis
Subj Obj
Circ li
knabinon per
Det Parg
la
telescopo
Det
la
20Übersetzungsprozess
zweiter Baum Li observis la knabinon kun la
telescopo.
observis
Subj
Obj li
knabinon
Det
Atr2
la
kun
Parg
telescopo
Det
la
21Übersetzungsprozess
Schritt 3 Semantische Wortwahl durch SWESIL
SWESIL separates Modul (Semantic Word Expert
System in the Intermediate Language) Macht
gewissermaßen Gebrauch von Weltwissen bezieht
dieses aus Lexical Knowledge Bank (LKB) LKB
Sammlung von Wortpaaren mit jeweils einem
syntakt. Bezugspunkt in IL Content word
relator Wortpaar Bildung aller möglichen
Kombinationen aus Baum ? SWESIL sucht in LKB
nach identischen oder ähnlichen Paaren ?
Bewertung mit Zahlen ? höchster Wert am
wahrscheinlichsten ? wird in Übersetzung
übernommen
22Übersetzungsprozess
Schritt 4 Interaktiver Dialog Wenn Ambiguitäten
durch Schritt 3 nicht aufgelöst werden konnten,
wird ein Dialog initiiert. Computer gibt mehrere
Auswahlmöglichkeiten in SL ? Nutzer wählt beste
aus Zugriff auf Nutzerkenntnisse (oft Nutzer
Autor des Textes) Beispiel with the telescope
goes with 1. the girl
2. watched Nutzer entschließt sich für die
zweite Variante
23Übersetzungsprozess
Ergebnis nur noch ein IL-Baum
observis
Subj Obj
Circ li
knabinon
per
Det
Parg
la
telescopo
Det
la
24Übersetzungsprozess
Schritt 5 IL-Linearisierung Durch Zugriff auf
Linearisierungsregeln wird der Ausgangssatz in
der korrekten Wortstellung im Esperanto
repräsentiert Li observis la knabinon per la
telescopo. Schritt 6 Alle Sätze, die in den
vorhergehenden Schritten produziert wurden,
werden noch einmal durch einen Parser auf ihre
Wohlgeformtheit überprüft. Der akzeptierte
Esperantotext wird an den Zielterminal geschickt.
25Übersetzungsprozess
Schritt 7 und folgende Bei der Übersetzung
IL-TL(Target Language) werden äquivalent alle
Schritte wie bei SL-IL durchlaufen. Das Ergebnis
ist ein linearisierter zielsprachiger Text bzw.
Satz. Beispiel Il regarde la fille avec le
telescope.
26Übersetzungsprozess
Terminal 1 SL-Analyse ? SL-Il-Metataxis ?
Semantische Wortwahl durch SWESIL ? Interaktiver
Dialog? IL-Linearisierung ? Überprüfung der
Korrektheit
Übertragung an den Zielterminal
Terminal 2 IL-Analyse ? IL-TL-Metataxis ?
Semantische Wortwahl durch SWESIL ?
TL-Linerarisierung (kein Dialog kein
Post-Editing vorgesehen)
27Zusammenfassung
Das Ziel des DLT-Projektes war die Entwicklung
eines multilingualen qualitativ hochwertigem
Übersetzungsprozess mit Esperanto als
Interlingua. Während der Arbeit an dem Projekt
wurde jedoch die Erfahrung gemacht, dass
Esperanto (mittlerweile) genauso lexikalisch und
strukturell ambig ist wie andere natürliche
Sprachen. Eine qualitativ hochwertige Übersetzung
hätte dadurch viel Zeit beansprucht ebenso die
Weiterentwicklung dieses Projektes. Doch fanden
sich dafür keine Interessenten und vor allem
keine Geldgeber. Dies waren laut Toon Witkam die
Gründe für das Scheitern In our information
society these days, speed is often considered
more important than quality.
28Literatur
- Maxwell, Dan Distributed Language Translation A
Multilingual Project. Utrecht BSO Research.
Reproduced by The Indiana University Linguistics
Club. Bloomington. 1990. - Schubert, Klaus Metataxis Contrastive
dependency syntax for machine translation.
Dordrecht Foris. 1987. - Hutchins, W. John Harold L. Somers An
introduction to Machine Translation. Academic
Press London. 1992. S. 197-311. - Witkam, Toon Why the DLT project had to be
abandonned. (unveröffentlicht persönlich per
E-Mail erhalten) - weitere Literatur stand zur Verfügung, wurde
jedoch (noch) nicht berücksichtigt (Präsentation
wird möglicherweise noch einmal überarbeitet)