Title: Analyse multilingualer Korpora f
1Analyse multilingualer Korpora für
übersetzungswissenschaftliche FragestellungenEl
ke TeichFR 4.6, Angewandte Sprachwissenschaft,
UdSKolloquium Exploitation of natural
language corpora 12/7/02
2Hintergrund I
- Gegenstand Spezifische, möglicherweise
universelle Eigenschaften von Übersetzungen/
Verdolmetschungen - Hermeneutik law of interference, law of growing
standardization (Toury 95) - Übersetzungswissenschaft normalization,
sanitization, simplification, explicitation,
levelling out (Baker 95, 96 Kenny 95) - Linguistik Informationsdichte/Informationsverteil
ung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) - Psycholinguistik Verarbeitungsprozesse
(Krings 86, Lörscher 91)
3Hintergrund II
- Gegenstand Interaktion Intonation und Grammatik
- Korrelationen bestimmter Tonhöhenverläufe mit
bestimmten grammatischen Konstruktionen (z.B.
continuation tone) - Verhältnis stress und Informationsfokus
- Prosodiephänomene in Verdolmetschungen (z.B.
Segmentierung im Dolmetschprodukt, Implikationen
für die Sprachverarbeitung) - Datenbanken gesprochener Sprache
- Einzelsätze ToBI, SFG EMU
- Dialoge SFG (Dialogstruktur, Grammatik,
Prosodie) EMU
4Ziele des Vortrags
- Methodologie zur Untersuchung der spezifischen
Eigenschaften von Übersetzungen - Techniken der Korpusanreicherung und
Extraktion/Query Probleme Abfragbarkeit des
annotierten Korpus
5Korpusbasierte Übersetzungswissenschaft
- Beobachtungen Hypothesen Übersetzungen
- sind länger (Anzahl der tokens/Wörter) als ihre
QS-Texte ? explicitation - haben kürzere Sätze (Anzahl der tokens/Wörter pro
Satz) als vergleichbare
ZS-Originaltexte - haben mehr Sätze als vergleichbare
ZS-Originaltexte - haben eine niedrigere type-token ratio als
vergleich- bare ZS-Originaltexte - haben eine geringere lexikalische Dichte als
vergleich- bare ZS-Originaltexte - sind normaler als vergleichbare
ZS-Originaltexte ? normalization,
standardization - lassen QS durchscheinen ? interference,
shining-through - Korpusdesign comparable corpus, z.B. englische
Übersetzungen und englische Originaltexte
? simplification
6Beispiel Übersetzungen D-E, E-D
G-ORI E-TL E-ORI
sentence length 11.55 12.54 15.36
number of sentences 544 588 366
type-token ratio 49.24 38.66 39.61
? ? ?
max min
E-ORI G-TL G-ORI
sentence length 15.36 13.26 11.55
number of sentences 366 411 544
type-token ratio 39.61 47.24 49.24
? ? ?
-
- Effekte zielsprachenspezifisch?
quellsprachenabhängig?
7Beispiel Übersetzung E-D
BEDS come in all sizes Single or
double, Cot-size or cradle, King-size or
trundle. Most Beds are Beds For sleeping or
resting, But the best Beds are much More
interesting!
BETTEN gibts in allen Größen Einzel oder
Doppel Feldbett oder Wiege Riesig oder
rollend. Meist sind Betten Betten Für den
Schlaf und für die Ruh Die besten Betten aber
sind Viel interessanter hör mal zu!
(Silvia Plath, Das Bett-Buch Übersetzung Eva
Demski)
- ? Übersetzung ist länger (E 30 W/42 S, D 36
W/55 S) - Interpretation? Erklärung?
Sprachtypologie
Genre (Register)
8Kritikpunkte, Schlußfolgerungen
- andere ZS Beobachtungen teilweise nicht
bestätigt - Ebene der Beobachtungen bei Baker et al. sehr
shallow Interpretation? Erklärungen? - Alternativer Ansatz Basis Kontrastive Linguistik
- Ebenen der Beobachtungen Lexikogrammatik,
Semantik, Text - Theorie Sprachtypologie, Kontrastive
Registertheorie, (Verarbeitungsprozesse) - Methoden Korpusdesign
- multilingual vergleichbares Korpus von
- Originaltexten
- Parallelkorpus
- Techniken automatische und halbautomatische
Korpusanreicherung und Extraktion/Query
9Methode Korpus
English original texts
German translations
English translations
German original texts
10Beispiel Korpusuntersuchung
- Übersetzungen von populärwissenschaftlichen
Texten E-D, D-E - Scientific American/Spektrum der Wissenschaft
(Doherty-Korpus) und populärwissenschaftliche
Buchpublikationen - ein Register verschiedene fields, tenor Experte
Laie ? Vergleichbarkeit - gute Übersetzungen
- pro Subkorpus 10 samples à 1000 Wörter (ca.
10 000 Wörter) expositorisch - Hypothesen ihre Herleitung Beispiel
normalization, shining through Wie normal
definieren? - Resultate Interpretation
- Techniken der Analyse
11Theorie Sprachtypologie, Registertheorie
- Sprachtypologie (cf. Hawkins 84, Doherty 91),
z.B. -
- E-ORI Clinical experiments have also compared
the mixture of interferons produced by white
blood cells with single interferons produced by
bacteria. - G-TL1 Klinische Versuche haben auch das
Interferongemisch der weißen Blutkörperchen mit
den einzelnen bakteriellen Interferonarten
verglichen. - G-TL2 In klinischen Versuchen wurde auch das
Interferongemisch der weißen Blutkörperchen mit
den einzelnen bakteriellen Interferonarten
verglichen. - Kontrastive Registertheorie, z.B. Biber 95
Halliday 85, 88, 98 Fluck 90 - relative Häufigkeit bestimmter lexikogrammatischer
Merkmale (signifikant) - z.B. in (populär)wissenschaftlichen Texten
PassivPassivalternativen, komplexe
Nominalgruppen, einfache Satzstruktur
(relationale Prädikate)
12Beispiel Passiv/Passivalternativen
E-ORI
G-ORI
389
active
278
79
165
passive
?2 45.5 Signifikanz 0.001 (1 df gt 10.83)
E-ORI
G-ORI
passive 79 165 passive
146 64 alternatives
?2 62.1 Signifikanz 0.001 (1 df gt 10.83)
13Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
- Hypothesenformulierung E-ORIG-TL
- In Übersetzungen vom Englischen ins Deutsche
liegt shining-through im Passivbereich vor, wenn
in G-TL signifikant mehr Passive auftreten
als in vergleichbaren deutschen Texten (G-ORI) - In Übersetzungen vom Deutschen ins Englische
liegt normalization im Passivbereich vor, wenn in
G-TL signifikant mehr Passivalternativen
auftreten als in vergleichbaren deutschen Texten
(G-ORI)
14Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
- Hypothesenformulierung G-ORIE-TL
- In Übersetzungen vom Deutschen ins Englische
liegt shining-through im Passivbereich vor, wenn
in E-TL signifikant mehr Passivalternativen
auftreten als in vergleichbaren englischen Texten
(E-ORI) - In Übersetzungen vom Deutschen ins Englische
liegt normalization im Passivbereich vor, wenn in
E-TL signifikant mehr Passive auftreten als in
vergleichbaren englischen Texten (E-ORI)
15Resultate Interpretation
E-ORI
G-ORI
G-TL
278
389
357
active
165
79
100
passive
G-ORI G-TL ?2 3.6 Signifikanz 0.10 (1 df
gt 2.71)
- ? schwaches shining-through (Passiv) in G-TL
E-ORI
G-ORI
G-TL
64
146
163
passive alternatives
165
79
100
passive
G-ORI G-TL ?2 0.0 nicht signifikant
? kein normalization-Effekt (Passivalternativen)
in G-TL
16Resultate Interpretation
G-ORI
E-ORI
E-TL
389
278
218
active
79
165
186
passive
E-ORI E-TL ?2 7.9 Signifikanz 0.01 (1 df
gt 6.64)
- ? normalization (Passiv) in E-TL
G-ORI
E-ORI
E-TL
146
64
62
passive alternatives
79
165
186
passive
E-ORI E-TL ?2 0.1 nicht signifikant
? kein shining-through-Effekt (Passivalternativen)
in E-TL
17Resultate Interpretation
E-TL G-TL
1) passive vs. active normalization shining through
2) passive vs. passive alternatives --- ---
3) material vs. relational (other factor) (other factor)
4) attributive vs. predicative normalization normalization
5) premod vs. postmod shining through shining through
6) full relative vs. dense postmod --- normalization
7) full relative vs. dense mod --- (other factor)
8) effective vs. middle --- (other factor)
9) unmarked vs. marked theme normalization shining through
- mehr Effekte in G-TL mehr shining through in
G-TL - weniger Effekte in E-TL mehr normalization in
E-TL - Effekte komplementär (1, 9), bidirektional (4,
5), unidirektional (6) - Effekte, die nicht auf normalization/shining
through zurückzuführen - sind (3, 7, 8)
18Techniken Basis
German original texts
English translations
19Techniken Korpusannotation I
- PoS-tagging TnT (Brants 2000) Englisch
(Susanne Sampson 95), Deutsch (STTS Hinrichs et
al. 95) - TnT output (TSV)
-
- If CS
- however RR
- a AT1
- rapid JJ
- , YC
- preferably RR
- instant JJ
- , YC
- effect NN1
- is VBZ
- desired VVN
- , YC
- strophanthin PN1
- will VM
- be VB0
- needed VVN
20Techniken Korpusquerying
- Extraktion von Instanzen der ausgewählten
lexiko-grammatischen Merkmale CQP/ XKWIC (Christ
94) - Query-Syntax reguläre Ausdrücke
21Techniken Korpusannotation II
- Abstraktere Merkmale, z.B. funktional-grammatische
Prädikatstypen (SFG process types) - Special/general-purpose tools wie TATOE (Alexa
Rostek 99), Coder (ODonnell 95)
ltcodingsgt ltheadergt ltscheme
file"D/Elke/Coder3.4.1/Schemes/transitivity-g.sc
heme"gtlt/schemegt lt/headergt ltbodygt ltsegment
features"clause relational circumstantial
attributive" gtWo sind eigentlich die Organismen
geblieben? lt/segmentgt ltsegment features"clause
material middle-nonranged doing creative
nonbenefactive" gtIn den letzten Jahren hat sich
in der Biologie etwas sehr Sonderbares und
Interessantes ereignet lt/segmentgt ltsegment
features"clause relational circumstantial
attributive" gtDie Organismen als Grundeinheiten
des Lebens sind auf der Strecke
geblieben. lt/segmentgt ltsegment
features"clause material effective-nonranged
doing dispositive nonbenefactive" gtSie wurden
von den Genen abgelöst, lt/segmentgt ltsegment
features"clause material effective-nonranged
doing creative nonbenefactive" gtdie sämtliche
Grundmerkmale annahmen, lt/segmentgt ... lt/bodygt
22Techniken Korpusquerying
23Probleme
- Verschiedene Annotationen nicht gemeinsam
querybar heterogene Informationsquellen - verschiedene Formate
- verschiedene Datenstrukturen
- Integrierte Repräsentation, z.B. XML
- Aber Problem Query
24Beispiel Our-XML
lt?xml version"1.0" encoding"UTF-16"?gt ltwordsgt
ltword pos"NN2" start"1" end"10"gtTextbookslt/word
gt ltword pos"VV0" start"12" end"16"gtwritelt/wor
dgt ltword pos"DD1" start"18"
end"21"gtthislt/wordgt ltword pos"NN1" start"23"
end"29"gtprocesslt/wordgt ltword pos"II"
start"31" end"32"gtaslt/wordgt ltword pos"NP1"
start"34" end"45"gtHCl H Cl-lt/wordgt ltword
pos"YC" start"46" end"46"gt.lt/wordgt lt/wordsgt lt?
xml version"1.0" encoding"UTF-16"?gt ltclause
semfeat"verbal"gt ltphrase synform"NP"
synfunc"SB" start"1" end"10"gt
Textbookslt/phrasegt ltphrase synform"VP"
synfunc"HD" start"12" end"16"gt
writelt/phrasegt ltphrase synform"NP"
synfunc"OA" start"18" end"29"gt this
processlt/phrasegt ltphrase synform"PP"
synfunc"MO" start"31" end"45"gt as HCl H
Cl-lt/phrasegt lttext start"46"
end"46"gt.lt/textgt lt/clausegt
(Teich et al. 2001)
25Probleme
- Integrierte Repräsentation verschiedener
Annotationen (cf. multi-layer Problematik)
Skripts z.B. XML, Ags aber query? - CQP (Christ 94)
- TigerSearch (König Lezius 2002)
- GSearch (Corley et al., 2001)
- Mate (Heid Mengel, 99 McKelvie et al., 2001),
aber skaliert nicht (Stand 2001)
Nachfolgeprojekt Nite (Bernsen et
al., 2002)? - Relationale DBMS, z.B. EMU (Cassidy Harrington
2001) SQL - Semistrukturierte Daten XSLT, XQuery
- Intersecting hierarchies ok aber overlapping
segments? - annotation graphs (Bird Liberman 2001)
- Mate, stand-off markup (Thompson McKelvie97),
Our-XML - aber Query? AGs ? (Scott Bird 2001) XML
XQuery?
26Zusammenfassung und Ausblick
- Annotierte Korpora als linguistische Datenbanken
- Linguistik
- Welche Arten von Beziehungen? Dominanz, lineare
Abfolge, binding, Kohäsion, semantische
Relationen... - Verschiedene Perspektiven auf ein Korpus
- Abfragen auf mehreren Annotierungsschichten
- Vergleich verschiedener Annotierungen desselben
Korpus - Informatische Techniken
- superimposed information
- Querysprachen
- Tool kit
- Skripts externe tools (TSV, Baum, AG, your-XML)
our-XML - Definition von Querytypen (XQuery XSLT)
- zusätzliche layers mehr Daten