Title: Syntactic mismatches in machine translation Igor Mel
1Syntactic mismatches in machine translation Igor
Melcuk, Leo Wanner
- Referentin Hasti Feshangchi
- LMU München - CIS
- Proseminar Paraphrasenbegriff
- WS 2007/08
2- Syntactic mismtaches Ein zentrales Problem,
das in der maschiniellen Übersetzung whärend der
Übertragung von syntaktischen Struktur eines
Satzes in der Ausgangssprache zu einer
äquivalente Struktur in der Zielsprache
auftaucht. -
- Dieser Beitrag wird syntactic mismaches auf
der Übertragungsebene(Tiefenstrukturebene)
während der sentance to sentance maschiniellen
Übersetzung im Rahmen eines paradigmatischen
Transfer betrachten.
3- Die Übertragung(Transfer) auf syntaktischen
Ebene hat mit der Übertragung 3 grossen Arten der
linguistischen Informationen zu tun - Lexikal units( lexical transfer)
- Grammemic transfer( inflectional meanings)
- Syntactic constructions( syntactic transfer)
-
4Problem der syntactic mismaches
- Interlinguistische und intralinguistische Natur
der syntactic mismaches. - Relevante Aspekte von theoretical framework The
Meaning-Text Theory(MTT).
5Arten der mismaches( translation divergences)
Dorr(1993,1994)
- 1. Themtic divergence mismatches
aufgrund der syntaktischen actant-permutation
oder conversion. - I like this picture.
- Mne navritsja èta kartina.
- Das englische syntaktische Subjekt I
entspricht semantisch dem indirektem Objekt Mne
im Russischen. -
6- 2. demotional/promotional divergence
mismatches aufgrund der dependency Inversion oder
head switsching. - I just learnd that.
- Je viens de laapprendre.
- ( I COME FROM THAT TO-LEARN)
- Ich schwimme gern.
- I like swimming.
- Die adverbialbestimmung Modifikator in dem
ersten Satz jedes Paares entspricht semantisch
dem finiten Verb des zweiten Satzes.
7- 3. lexical conflational divergence mismatches
aufgrund lexeme-phrase substitution oder lexical
fission/fussion. - I stabbed John.
- Yo le di a John una puñalada.
- ( I TO-HIM GAVE TO JOHN A STAB)
- I like Mary.
- Ich habe Mary gern.
- Die verbale lexeme im ersten Satz vom jeden
Paar entspricht einer verbalen Ausdruck im
zweiten Satz.
8- 4. categorial divergence Mismatches aufgrund
part-of-speech Änderungen. - I am hungry.
- Jai faim.
- (I HAVE HUNGER)
- Die gleiche Bedeutung wird durch ein
Adjektiv im Englischen und ein Substantiv im
Französischen zum Ausdruck gebracht.
9- 5.structural divergence Mismatches aufgrund
function-word introduction/elimination - Je lirai.
- (I READ fut1stperson)
- I will read.
- He entered the room.
- Er trat in das Zimmer ein.
- (HE STEPPED IN THE ROOM IN)
- Die gleiche Bedeutung wird durch ein Aufix
im Französischen und ein Auxiliary im Englischen,
oder durch ein Verb ohne Präposition im
Englischen und ein Verb mit Präposition, im
Deutschen zum Ausdruck gebracht.
10- Dorr's Typologie diente als Ausgangspunkt für
eine Reihe von Untersuchungen über das Problem
der syntactic mismatches im MT. - Mit Hilfe dieser Typologie versucht man einen
universellen Kalkül der syntactic mismatches
zwischen den Sprachen zu entwickeln und eine
Methode für seine Abgabe in einer einheitlichen
Art und Weise vorzuschlagen.
11Die intra und inter-linguistische Natur der
syntactic mismaches
- Das Phänomen der syntaktischen mismatches ist so
viel interlinguistik wie intralinguistik. In
anderen Worten, äquivalente Strukturen innerhalb
einer Sprache(Paraphrasen), zeigen mismaches von
der gleichen Art wie die Art zwischen äquivalent
syntaktische Strukturen zwischen zwei
verschiedenen Sprachen.
12Intralinguistische Beispiele
- 1. Actant conversion mismatch
- Ich mag das Bild.- Mir gefällt das Bild.
- 2. Head-switching mismatch
- Ich mag schwimmen.- Ich schwimme gern.
- 3. lexical fission/fusion mismatch
- Ich schuss auf john.- Ich gab auf john einen
Schuss ab.
13- 4. Part-of-Speech mismatch
- Ich bin hungrig.-Ich hab Hunger.
- 5. Functional word introduction/elimination
mismatch. - a. Er las.- Er hat gelesen.
- b. Er betrat das Zimmer.- Er trat in das Zimmer
ein. - c. Ja budu sobiratsja zavtra.- Ja soberus
zavtra.
14- Deshalb können wir schließen, dass strukturelle
mismatches zwischen semantisch äquivalenten
Ausdrücken verschiedener Sprachen, einen
bestimmten Fall von einem allgemeinen Phänomen
repräsentieren - Die Gründung der Entsprechungen zwischen
semantisch äquivalente aber strukturell (
syntaktisch) divergierende Ausdrücke ist nichts
als paraphrasieren. - Daher kann das Problem der structural
mismaches im MT gelöst werden, indem einen
allgemeinen Mechanismus zu paraphrasieren -
sowohl intra- als auch interlinguistisch benutzt
wird.
15MTT
- MTT bietet eine allgemeine intralinguistic
paraphrasingsystem(Žolkovskij 1967 Melcuk 1974,
pp 149, 1988b, 1992 Milicevic 2003). Diese
paraphrasingsystem ist früher, unter anderen
Systemen, von Sanromán vilas ua. (1999) und
Apresjan ua. (Im Druck), intralinguistisch an der
Quell-Sprache Seite benutzt worden, um die
Quellsprache-Strukturen zu den Zielsprache-Struktu
ren anzupassen. Wir nehmen dieses System in
unserem Konzept für die interlinguistische
Auflösung von Quell- und Zielsprache
Structure-mismaches.
16Die theoretischen Rahmen(theoretical framework)
- Angesichts der Komplexität der Aufgabe in MT,
muss die Übertragungsphase so viel wie möglich
verkürzt werden, und die intralinguistische
Phenomene müssen an der Quell-Seite(während der
Analyse), oder an der Ziel-Seite(während der
Synthese) behandelt werden. - Die Ebene, auf der die Übertragung erfolg ist,
ist in MTT die Tifensyntaktischen Struktur. - Die TSyntS(DSyntS) ist abstrakt genug, um alle
Arten von lexikalischen und syntaktischen
divergences zu verhindern.
17General Schema der Übertragung
18 Der Vorschlag Transfer als paraphrasieren
- Unser Ziel ist in diesem Beitrag ein zweifaches
- (i) eine Beschreibung aller logisch möglichen
Arten von syntactic missmaches - (ii) zu definieren und zu zeigen, dass die
Struktur der Universal-Transfer(paraphrasieren)-Re
geln notwendig und ausreichend für die Zuordnung
zwischen zwei beliebigen tief syntaktischen
Strukturen sind, in denen mindestens ein
mismatches zu finden ist .
19The syntactic transfer engine(STE)
- Die Natur dieser Regeln setzt eine besondere
Architektur des Übertragung-Motors voraus, die in
der Lage ist, mit syntactic mismatches zwischen
den TsyntS-en umgehen zu können.(der syntaktische
Transfer Engine, STE).
20STE muss die folgenden drei Hauptkomponenten
haben
- 1. Formalisierte einsprachige "erklärende
kombinatorische Wörterbücher"(ECDs) für die
Sprachen. Diese Lexika sind unabhängig von dem
Paar-Sprachen und neutraler, in dem Sinne, dass
jeder kann entweder als eine Quell- oder eine
Zielsprache lexikon benutzt werden. Sie
beinhalten unter anderem die lexikalische
co-occurrence Informationen der Sprache, die in
Bezug auf die lexikalischen Funktionen sind.
(LFs) (vgl. Ziff. 3.1.1 und Mel'fuk 1996 für eine
detaillierte Einführung in die LFs).
21- 2. Eine Reihe von lexikalischen zweisprachigen
Korrespondenz Indizes für die Sprachpaare. Eine
zweisprachige lexikalische Index (BLI), die für
jedes Paar von Sprachen spezifisch ist und eine
neutrale Liste von Paaren der translationale
equivalent-LUs von LS und LT darstellt. - 3. Eine Reihe von Transfer-Paraphrasing-Regeln,
die die Zuordnung zwischen equivalent-syntaktische
n Strukturen von LS und LT durchführen.
22Bilingual lexikalische Index
- BLI ist grundsätzlich auf tiefe LUs der
Sprach-Paare beteiligt. So, in der englischen
Teil eines englischen BLI ist PAY nicht als in
pay attention, sondern nur so beteiligt - ATTENTIONPay ist eines der Elemente des Wertes
LF Oper1 von ATTENTION. - Weder enthält er LAUNCH noch ATTACKN wie in
launch an attack, sondern nur ATTACKV ATTACKN
ist ein Element des Wertes LF S0 auf ATTACKV. Und
es ist weder HEAVY noch RAINN wie in heavy rain,
aber nur RAINV.
23regular u. irregular Äquivalenze
- Lexikalische Äquivalenzen in einer BLI lassen
sich in zwei großen Klassen aufteilen
"regular"Äquivalenze, die keine structural
mismatches zeigen und können in Form von LU-Paare
zum Ausdruck kommen, und "irregular"Äquivalenzen,
die zu einer structural mismatches zeigen und
eine spezifische Umwandlung erforderlich ist, um
diese mismatches aufzulösen.
24regulär Äquivalenzen
- Mit Bezug auf die regulär lexikalische
Äquivalenzen, sind wieder zwei Fälle zu
unterscheiden - 1. LS hat mindestens eine semantisch voll
passende Übersetzung, die LT entspricht. In
diesem Fall erhält LS nur diese LT als seine
Übersetzungsäquivalent und alle exakte und mehr
spezielle Synonyme von LT sind nicht in der BLI,
sondern in der Monolingual LT ECD zu finden, und
werden bei der Synthese ausgesucht. - Beispiel (DEEP, PROFOND)
- (CHAIR1, CHAISE)
- (CHAIR2, CHAIRE)
25- 2. LS verfügt nicht über eine voll passende
Übersetzungsäquivalent, aber ein oder mehrere
semantisch nicht genau passende
Übersetzungsäquivalente, die kreuzende Synonyme
von einander sind. In diesem Fall, LS erhält alle
diese Synonyme als seine Übersetzungsäquivalente. - Beispiele
- (ANSPRACHE, OBRAŠCENIE,
- PRIZYV,
- VOZZVANIE)
26irregulär Äquivalenzen
- Was als irregulär lexikalische Äquivalenzen
betroffen sind, jede Übersetzungsäquivalenz ist
von der Form (LS, LT, ?), wo ? ein LF ist. ?(LS)
LT - Auf diese Weise, bestimmt ? eindeutig die
Art des mismaches, die durch die Übersetzung LS
zu LT auftaucht und auch ihre Resolution. (Anti,
Conv21 und //Adv1 sind LFs, deren Werte sich in
der entsprechenden einsprachige ECDs befinden.) - Beispiela. (SHALLOW, PROFOND, Anti)
- b. (LIKE, PLAIRE, Conv21) c. (SOLER,
HABITUELLEMENT , //AdV1) Julie likes Paul.
Paul plait à Julie. Maria suele leer. Maria
lit habituellement. "Maria usually reads."
27Transfer- paraphrasierungsregeln
- Drei verschiedene Arten von Transfer-
paraphrasierungsregeln sind zu unterscheiden - 1. Eine Reihe von elementaren lexikalischen
Äquivalenzen ausgedrückt in der LFs. Sie sind
universall. - 2. Eine Reihe von elementaren syntaktischen
Operationen, die den tief syntaktischen Baum in
Zielsprache "durch die Anwendung einer
lexikalischen Äquivalent darstellen. Die sind
notwendig, um sicherzustellen, dass der Baum
wohlgeformt und semantisch äquivalent zu dem tief
syntaktischen Baum in Ausgangsprache ist. - 3. Eine Reihe von syntaktischen
Anpassungsoperationen, die sich um den Kontext
kümmern.
28Definition von TsynS
- Ld , Gsem und Rdsynt sind drei disjunkten
Alphabeten der TsyntS, wo Ld die Menge der
tiefenlexikalischen Einheiten (LU), Gsem die
Menge der semantischen grammemes und Rdsynt die
Menge der tiefensyntaktischen Beziehungen ist. - TsyntS ist eine Tupel über Ld U Gsem U Rdsynt.
29Ld Deep lexical units (tiefenlexikalischen
Einheiten)
- Die Menge der tiefen LUs von L enthält alle LUs (
Lexeme und Idiome) von L mit folgenden
Ergänzungen und Eliminierungen. - Ergänzungen
- (i) LF Sombole, (ii) fiktive lexeme
- Eliminierungen
- (i) strukturelle Wörter, (ii) Personalpronomen,
(iii) Wert der LF - -Eine analytische Form have been paid
- PAYind, pass, pres, perf, non-progr.
- -Alle propositionen und konjunktionen werden
weggelassen - Insists on departure INSIST-?? ? DEPARTURE
- Quarrel between friends QUARREL-? ? FRIENDS
- Know that she is sleeping
- KNOW- ?? ? SLEEPind, act, pres, non-perf,
progr-? ?SHE
30- -All Personalpronomen(3rd person) werden durch
ihre References ersetzt - a. Taking the book, John put it on the table.
- b. Taking the book, John put THE BOOK on the
table. - -Ein Idiom wird als eine Knote repräsentiert
- a. John got his second wind JOHN ? ? - GET-
ONES- SECOND- WIND - b. John barks up the wrong tree JOHN ? ?
-BARK- UP- THE- WRONG- TREE -
31LF
- LF lassen sich in zwei Arten aufteilen
Paradigmatische LF und syntagmatische LF - Paradigmatische LF vertreten lexikosemantische
Ableitungen( wie der Namen der Aktion, Prozess,
etc.) - Adverbial noun (S0)
- The name of the actant of an action, State,
process, etc. (Si) - The name of the characteristic property of the
ith actant of an action, state, process, etc.
(Ai) - The name of a conversiv of L (Convij)
- Syntagmatische LF Magn, Operi, Reali, Son
32(No Transcript)
33(No Transcript)
34- Der Wert eines syntagmatischen LF ist in den
meisten Fällen zusammen mit L als einen
syntaktischen Abhängigen oder gouvernor von L
zum Ausdruck gebracht. Aber in einigen Fällen,
ein Element der Wert von f(L) drückt den Sinn des
LF f zusammen mit der Bedeutung von L. Ein
solches Element wird als fused bezeichnet - Heavy Magn(RAIN)
- Downpour //Magn(RAIN)
- SpreadPreparReal1 (BUTTER)
- Butter //PreparLabreal12 (BUTTER)
35- In paradigmatischen LFs kann ein Lexem L1, der
ein Element der Wert einer paradigmatischen LF f
von dem Schlüsselwort L2 ist, in TsyntS durch die
funktionale Notation ersetzt werden, nur wenn die
drei folgenden Bedingungen gleichzeitig erfüllt
sind - - f steht nicht für eine Synonym, eine Antonym
oder ein konversiv. - - Die Bedeutung von L1 ist die genaue
zusammensetzung der Bedeutung von L2 und f. - - Die Bedeutung von L1 und L2 ist gleich und L2
ist semantisch die Grundlage(Basis) von L1 - V0(ATTACKN) erscheint nicht in der TsyntS. Der
Nomen Attack ist nicht semantisch der Basis von
den Verb attack aber die umgekehrte Form ist
schon richtig S0(ATTACKV)
36- Gsem deep grammemes( tief-grammemes)
- Geschlecht, case, verbal Person und Numerus sind
syntaktische grammemes und erscheinen nicht in
OsyntS und TsyntS. - RTsynt deep- syntactic relation
(tiefensyntaktischen Beziehungen) - Die sechs actantial DsyntRels( ?, ??, ...,V?)
- Attributive TsyntRel(ATTR)
- Coordinative TsyntRel(COORD)
- Appenditive TsyntRel(APPEND)
37Vier lexikalischen Elemente der TsyntS, die nicht
in der OsyntS erscheinen
- Zero LUs (unpersönliche Pronomen)
38- - LF Symbole
- - Elidierte Lus
- DuermoI sleep erscheint in TsyntS als
- YO??-DORMIRind,pres,non-perf,non-progr
- - Fiktive LUs, die Bedeutungen durch
syntaktischen Konstruktionen repräsentieren
39Andere Tranfer-Repräsentationen
- Jackendoffs(1990) Lexical Conceptual
Structures(LCSs) - LFGs f-structure (Bresnan 1982)
- Discourse Representation Theory (DRT)( Kamp und
Reyle 1993 Reyle 1993) - Situation Semantics(Barwise und Perry 1983)
40Beispiel von TsyntS
41(No Transcript)
42Pseudo-mismatches
- Pseudo mismatches aufgrund oberflächensyntaktische
n Phänomene - Hilfsverben aller Art
- LIREfut - ? ?MOI READfut- ? ??
- (French) le loup THE WOLF ?(Romanian) lupul
WOLF-def the wolf - (English) more beautiful ? (German) schöner
BEAUTIFUL-comp
43- Präpositionen und Konjunktionen
44- Die Idiome(teilweise)
- Syntaktische Idiosyncrasies
45- 2- Pseudo mismatches aufgrund eingeschränkten
lexikalischen co-accurrence