Title: Computergest
1Computergestützte Analyse multilingualer
KorporaElke Teich3. Februar 2003
2- Wozu Korpora?
- empirische Grundlage bei linguistischen
Fragestellungen - Grundlage für computerlinguistische Modellierung
Trainieren statistischer Verfahren, machine
learning (z.B. Parser, Grammatiken) - Was will man an multilingualen Korpora
untersuchen? Beispiele - Sprachunterschiede unter Berücksichtigung von
Gebrauchsbedingungen (Sprachtypologie,
Texttypologie) - L2-Lehr/Lernmaterialien (kontrastive Linguistik)
- Maße für Übersetzungsqualität (Übersetzungswissens
chaft) - translation memories (Maschinelle Übersetzung)
- Wie geht man dabei vor?
- viele Daten (gt zig tausend Wörter)
computergestützte Analyse
3Übersetzungen
- Was ist daran interessant? Textsorte,
- an der wir Multilingualität (z.B.
Sprachtypologie, - kontrastive Linguistik) in action sehen
können - die wir im Alltag ständig antreffen
- Übersetzungen haben etwas Spezielles, das sie
von - Texten unterscheidet, die keine Übersetzungen
sind. - Wie kann man dieses Spezielle
herausarbeiten? - Beobachtungen formulieren,
- an multilingualem Korpus überprüfen,
- computerlinguistische Techniken einsetzen.
4The secret strength of hydrogen Übersetzung Alta
Vista (Systran)
Aller chemischen Elemente ist Wasserstoff in der
Struktur und zuerst in der Verschiedenartigkei
t seines chemischen Verhaltens das
einfachste. Das Element selbst besteht als das
Molekül H2, das als das hellste aller Gase
weithin bekannt ist. Obgleich Industrie dieses
Gas auf einer großen Skala benutzt, wird sie
selten im täglichen Leben aus- genommen
angetroffen, um Ballone zu füllen. Gleichwohl in
25 Jahren Zeit festsetzen sie, kann dieses das
Gas sein, das in unsere Häuser zu den
Kraftstoffdampfkesseln und -kochern geleitet wird
einmal haben wir herauf Versorgungsmaterialien
des natürlichen Methangases verwendet, CH4.
Wasserstoff brennt, um Wasser zu bilden, und ist
folglich sauberer als die Gase, die Carbon
enthalten.
5The secret strength of hydrogen Original
Scientific American
Of all the chemical elements, hydrogen is the
simplest in structure, and first in the
diversity of its chemical behaviour. The element
Itself exists as the molecule H2 which is well
known as the lightest of all gases. Although
industry uses this gas on a large scale it is
rarely encountered in everyday life except to
fill balloons. However in 25 years time this may
be the gas which is piped into our homes to fuel
boilers and cookers - once we have used up
supplies of natural methane gas, CH4. Hydrogen
burns to form water, and hence is cleaner than
gases containing carbon.
Handout
6Die geheime Kraft des Wasserstoffs Übersetzung
Spektrum der Wissenschaft
Wasserstoff ist seinem Aufbau nach das
einfachste, aber seinem Verhalten nach das
vielseitigste von allen chemischen Elementen. Es
existiert als Molekül H2, das als das leichteste
aller Gase allgemein bekannt ist. Obwohl es
industriell in großem Umfang genutzt wird, kommt
es im täglichen Leben außer beim Füllen von
Ballons kaum vor. Doch könnte gerade dieses Gas
in einem Vierteljahrhundert, wenn die Vorräte an
natürlichem Methangas, CH4, aufgebraucht sind,
in den Gasgeräten unserer Haushalte Verwendung
finden. Wasserstoff verbrennt zu Wasser und ist
Somit weniger umweltbelastend als Gase, die
Kohlenstoff enthalten.
Handout
7Art Spiegelman, Maus I Übersetzung Christine
Brinck, Josef Joffe
8Übersetzungen ihre spezifischen Eigenschaften
- (Auch gute) Übersetzungen haben spezifische
Eigenschaften, die sie von Texten in derselben
Sprache wie der Zielsprache (ZS) unterscheiden
(vgl. Baker 95, 96 Toury 95, Teich 01) - Spezifischen Produktionsbedingungen von
Übersetzungen induziert durch quellsprachlichen
Text, zielsprachenorientiert Hypothesen - Übersetzungen lassen die Quellsprache (QS)
durchscheinen ? shining through - Übersetzungen gehorchen der ZS-Norm mehr als
vergleichbare ZS-Originaltexte ? normalization - andere explicitation, simplification,
levelling-out - Was ist denn normal? Was kann übertrieben
normal gemacht werden? Was kann durchscheinen?
9Scientific American/Systran/ Spektrum der
Wissenschaft (Original Englisch)
Hydrogen burns to form water, and hence is
cleaner than gases containing carbon. Wasserstof
f brennt, um Wasser zu bilden, und ist folglich
sauberer als die Gase, die Carbon
enthalten. Wasserstoff verbrennt zu Wasser und
ist somit weniger umweltbelastend als Gase, die
Kohlenstoff enthalten.
(vgl. Doherty 93 Hawkins 84)
? Sprachtypologie (System)
10CAD/CAM User Manual AutoCad (Original Englisch)
Englisch To draw a polyline. Deutsch
So zeichnen Sie eine Polylinie.
(Eine Polylinie zeichnen.) Russisch Chtoby
narisovatj poliliniju.
IN-ORDER-TO DRAW POLYLINE Bulgarisch
Chertane na polilinija. DRAWING OF
POLYLINE
to-Infinitiv
finiter Satz, deklarativ
um zu Infinitiv
Nominalisierung
(vgl. Copernicus Project AGILE)
? Texttypologie (Register)
11Hypothesen ihre Herleitung
- Sprachenpaar Englisch-Deutsch, Register
populärwissenschaftlicher Texte - Sprachtypologie (System) Prä/Postmodifikation
der NP (E Postmodifikation, D
Prämodifikation), Themaoptionen (E grammatical
word order, D pragmatic word
order), Transitivität (D transitiv E ergativ) - Texttypologie (registerspezifisch) Passiv,
Nomina, komplexe Nominalgruppen, einfache
Satzstruktur (relationale Prädikate)
12Beispiele Sprachtypologie
- Transitivität
- (1) E A material known as ionophore, which
binds to membranes... - (2) D Eine Substanz, die als Ionophor
wirkt. Sie setzt sich an der - Membran fest.
- (3) E Thus in water the hydrogen atoms
exchange billions of times per second. - (4) D In Wasser etwa werden die
Wasserstoffatome Milliardenmale pro Sekunde
ausgetauscht. - Prä/Postmodifikation
- (5) E The voltages that would be expected to
be produced in the cytoplasm of Fucus embryos,
only 0.1 mm in length, would unfortunately be too
close to the limits of microelectrode sensitivity
to be measurable. - (6) D Die zu erwartenden Spannungen im
Zellplasma würden bei - den 0.1 mm lange Fucusembryonen leider schon
unterhalb der für Mikroelektroden messbaren
Grenze liegen. -
13Beispiele Texttypologie
- Einfache Satzstruktur, komplexe Nominalgruppen
- (1) E So in Fucus, one of the events that
translates asymmetry in the environment into
asymmetry in the embryo is a polarised pumping of
electric current, in the form of Ca ions. - (2) D Beim Fucus ist damit einer der
Prozesse, der eine Asymmetrie aus der Umgebung in
eine Asymmetrie des Embryos umsetzt, ein
polarisierter elektrischer Strom von Ca-Ionen. - Nicht agentivische Darstellung (z.B. Passiv)
- (3) E The behavior of acids is generally
observed in water. - (4) D Gewöhnlich untersucht man das
Verhalten von Säuren in Wasser. - (5) D Somit lassen sich auch bei diesen
Spielen verschiedene Strategien in einer
Auszahlungsmatrix gegenüberstellen und bewerten. - (6) D Dabei ist eine sehr bemerkenswerte
Verlagerung zu verzeichnen. - (7) D In Lehrbüchern wird dieser Prozess
oft durch die Gleichung HCl H Cl- dargestellt. - (8) E Text books often write this process
as HCl H Cl-. - (9) E Thus in water the hydrogen atoms
exchange billions of times per second.
14Beispiel Passiv/Passivalternativen
- Passiv typischer
- für E als für D
- Passivalternativen
- typischer für D als für E
15Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
- Hypothesenformulierung E-ORIG-TL
- In Übersetzungen vom Englischen ins Deutsche
liegt shining-through im Passivbereich vor, wenn
in G-TL signifikant mehr Passive auftreten
als in vergleichbaren deutschen Texten (G-ORI) - In Übersetzungen vom Englischen ins Deutsche
liegt normalization im Passivbereich vor, wenn in
G-TL signifikant mehr Passivalternativen
auftreten als in vergleichbaren deutschen Texten
(G-ORI)
16Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
- Hypothesenformulierung G-ORIE-TL
- In Übersetzungen vom Deutschen ins Englische
liegt shining-through im Passivbereich vor, wenn
in E-TL signifikant mehr Passivalternativen
auftreten als in vergleichbaren englischen Texten
(E-ORI) - In Übersetzungen vom Deutschen ins Englische
liegt normalization im Passivbereich vor, wenn in
E-TL signifikant mehr Passive auftreten als in
vergleichbaren englischen Texten (E-ORI)
17Korpus
English original texts
German translations
English translations
German original texts
(Register populärwissenschaftliche Prosa ca. 10
000 Wörter pro Subkorpus)
18Analysetechniken Methoden
- Korpusanreicherung PoS (Part-of-Speech) tagging
- Korpusquery reguläre Ausdrücke
- Resultate und Interpretation
- Paare von Merkmalen, Chi-Quadrat
- Bewertung im Sinne von shining through,
normalization
19Techniken Korpusanreicherung
- PoS-tagging TnT (Brants 2000) Englisch
(Susanne Sampson 95), Deutsch (STTS Hinrichs et
al. 95) - TnT output
-
CS RR AT1 JJ YC RR JJ YC NN1 VBZ VVN YC PN1 VM VB
0 VVN YF
If however a rapid , preferably instant , ef
fect is desired , strophanthin will be needed .
20Techniken Korpusquery
- Extraktion von Instanzen der ausgewählten
lexiko-grammatischen Merkmale CQP/ XKWIC (Christ
94) - Query-Syntax reguläre Ausdrücke
21Resultate Interpretation
E-ORI
G-ORI
G-TL
278
389
357
active
165
79
100
passive
G-ORI G-TL ?2 3.6 Signifikanz 0.10 (1 df
gt 2.71)
- ? schwaches shining-through (Passiv) in G-TL
E-ORI
G-ORI
G-TL
64
146
163
passive alternatives
165
79
100
passive
G-ORI G-TL ?2 0.0 nicht signifikant
? kein normalization-Effekt (Passivalternativen)
in G-TL
22Resultate Interpretation
G-ORI
E-ORI
E-TL
389
278
218
active
79
165
186
passive
E-ORI E-TL ?2 7.9 Signifikanz 0.01 (1 df
gt 6.64)
- ? normalization (Passiv) in E-TL
G-ORI
E-ORI
E-TL
146
64
62
passive alternatives
79
165
186
passive
E-ORI E-TL ?2 0.1 nicht signifikant
? kein shining-through-Effekt (Passivalternativen)
in E-TL
23Resultate Interpretation
E-TL G-TL
1) passive vs. active normalization shining through
2) passive vs. passive alternatives --- ---
3) material vs. relational (other factor) (other factor)
4) attributive vs. predicative normalization normalization
5) premod vs. postmod shining through shining through
6) full relative vs. dense postmod --- normalization
7) full relative vs. dense mod --- (other factor)
8) effective vs. middle --- (other factor)
9) unmarked vs. marked theme normalization shining through
- Effekte komplementär (1, 9), bidirektional (4,
5), unidirektional (6) - mehr Effekte in G-TL mehr shining through in
G-TL, mehr - normalization in E-TL
- Effekte, die nicht auf normalization/shining
through zurückzuführen - sind (3, 7, 8)
24Resultate Interpretation
- E-TL normalisiert mehr, G-TL lässt mehr
durchscheinen - (1) E-ORI Thus, in water the hydrogen atoms
exchange billions of times per second. - G-TL In Wasser etwa werden die
Wasserstoffatome Milliardenmale pro Sekunde
ausgetauscht. - (2) E-ORI ... this choice minimizes the risk of
errors during translation - G-TL ...und damit die Gefahr von
Übermittlungsfehlern verringert wird. - (3) G-ORI Für den praktischen Gebrauch benötigt
man große Zahlen. - E-TL ...for practical application large
numbers are needed. - (4) G-ORI Die Übermittlung einer Nachricht mit
öffentlichen und geheimen Schlüsseln lässt sich
auch in der Kryptologie verwircklichen. - E-TL Transmission of a signal with public
and secret keys can be realized also in
cryptology. - ? habituelle Übersetzung
- TL kann Durchscheinen aus typologischen Gründen
verkraften (TL-System macht spezifischere
Unterscheidungen) - TL muss aus typologischen Gründen kompensieren
(geringere Spezifik des TL-Systems)
Normalisierung
25Zusammenfassung und Ausblick
- Übersetzungen zwischen den Stühlen lassen QS
durchscheinen, versuchen gleichzeitig ganz
normal für die ZS zu sein - Anwendungen Übersetzerische Intuitionen
beschreiben ? differenzierte Maße für
Übersetzungsqualität, Einfluß von Übersetzungen
im Sprachwandel - Theorie, z.B. Was ist normal? Registertheorie
(Systemic Functional Linguistics Halliday 85)
wichtig für Hypothesen Interpretation! - Methoden/Techniken Sprachtypologie,
Texttypologie, Computerlinguistik,
Korpuslinguistik
26Zusammenfassung und Ausblick
- Methodologie zum Korpusvergleich Beispiele
- Abgrenzung verschiedener Register/Fachsprachen
- Entwicklung von Maßen für Textqualität in
Abhängigkeit von Register/Genre - multi-layer annotierte Korpora längerfristiges
Potenzial für Forschung und Lehre - Linguistik Theorie und Deskription auf Grundlage
großer Datenmengen - Informatik Linguistische Datenbanken
Repräsentation und Abfrage - Computerlinguistik Training statistischer
Verfahren auf Basis von annotierten
Referenzkorpora (tree banks) - Interdisziplinär Anwendungen an der
Schnittstelle Linguistik/Computerlinguistik/Inform
atik (content syndication, z.B.
Informationsextraktion)
27Grammatik
Text
Übersetzungen, ML Texte
Methoden multi-layer annotierte Korpora,
computerlinguistische Techniken
28Thank you for your attention!
29Literatur
(Baker 95) M. Baker, Corpora in translation
studies An overview and some suggestions for
future research, Target 7(2)223-245. (Baker 96)
M. Baker, Corpus-based translation studies the
challenges that lie ahead. In H. Somers (ed.),
Terminology, LSP and Translation Studies in
Language Engineering in Honour of Juan C. Sager,
Benjamins, Amsterdam, pp. 175-186. (Brants 00)
T. Brants, TnT A statistical part-of-speech
tagger, Proceedings of the 6th Applied Natural
Language Processing Conference (ANLP) 2000,
Seattle, WA. (Christ 94) O. Christ, The IMS
Corpus Workbench Technical Manual, Technical
report, Institut für maschinelle
Sprachverarbeitung, Universität
Stuttgart. (Doherty 93) M. Doherty,
Parametrisierte Perspektive, Zeitschrift für
Sprach- wissenschaft 12(1)3-38. (Halliday 85)
MAK Halliday, An Introduction to Functional
Grammar. Edward Arnold, London. (Hawkins 84)
J.A. Hawkins, A comparative typology of English
and German. Croom Helm, London and Sydney.
Handout
30Literatur
(Hinrichs et al 95) E. Hinrichs, Feldweg, H.,
Boyle-Hinrichs, M. and Hauser, R.
Abschlußbericht ELWIS. Korpusunterstützte
Entwicklung lexikalischer Wissens- basen für die
Computerlinguistik, Technical report,
Universität Tübingen. (Sampson 95) G. Sampson,
English for the Computer. Oxford University
Press, Oxford. (Teich 01) E. Teich, Contrast
and commonality between English and German in
system and text. A methodology for the
investigation of cross-linguistic variation in
translations and multilingually comparable texts.
Habilitationsschrift, Universität des
Saarlandes, Saarbrücken. (Toury 95) G. Toury,
Descriptive translation studies and beyond.
Benjamins, Amsterdam.
Handout
31German original texts
A n z a h l T o k e n s
English translations
T y p e T o k e n R a t i o
Handout
32Korpusvergleich
G-ORI E-TL E-ORI
sentence length 11.55 12.54 15.36
number of sentences 544 588 366
text length 10442 11051 10460
type-token ratio 49.24 38.66 39.61
? ? ? ?
max min
E-ORI G-TL G-ORI
sentence length 15.36 13.26 11.55
number of sentences 366 411 544
text length 10460 9927 10442
type-token ratio 39.61 47.24 49.24
? ? ? ?
-
- E-TL länger, geringere Vokabularvariation
- G-TL dazwischen
Handout
33Resultate Interpretation
- Andere Effekte explicitation, z.B. bei dense
modification vs. full relative clauses - E-ORI At the heart of Rivests asymmetric
cypher is a one-way function based on the sort of
modular functions described earlier... - G-TL Kern der asymmetrischen
Verschlüsselung von Rivest ist eine
Einwegfunktion, die auf oben beschriebenen
Modulfunktionen beruht. - G-TL Kern der asymmetrischen
Verschlüsselung von Rivest ist eine auf den oben
beschriebenen Modulfunktionen beruhende
Einwegfunktion. - Effekte, die nur in Übersetzungen auftreten
(nicht in G-ORI E-ORI) - E-ORI Thus, the history of bioelectricity
produced a discontinuity in scientific history. - G-TL So kam es, dass die Wissenschaftsgeschi
chte der Bioelektrizität diskontinuierlich
verlaufen ist. - G-TL So produzierte die Geschichte der
Bioelektrizität eine Diskontinuität in der
Wissenschaftsgeschichte. (ungewollte
Personifizierung!) - bidirektionale Effekte Kandidaten für
universelle Merkmale? Übersetzungsprozessbedingte
Erklärungen? -