Analyse multilingualer Korpora f - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

Analyse multilingualer Korpora f

Description:

Analyse multilingualer Korpora f r bersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium Exploitation of ... – PowerPoint PPT presentation

Number of Views:82
Avg rating:3.0/5.0
Slides: 27
Provided by: ElkeT8
Category:

less

Transcript and Presenter's Notes

Title: Analyse multilingualer Korpora f


1
Analyse multilingualer Korpora für
übersetzungswissenschaftliche FragestellungenEl
ke TeichFR 4.6, Angewandte Sprachwissenschaft,
UdSKolloquium Exploitation of natural
language corpora 12/7/02
2
Hintergrund I
  • Gegenstand Spezifische, möglicherweise
    universelle Eigenschaften von Übersetzungen/
    Verdolmetschungen
  • Hermeneutik law of interference, law of growing
    standardization (Toury 95)
  • Übersetzungswissenschaft normalization,
    sanitization, simplification, explicitation,
    levelling out (Baker 95, 96 Kenny 95)
  • Linguistik Informationsdichte/Informationsverteil
    ung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99)
  • Psycholinguistik Verarbeitungsprozesse
    (Krings 86, Lörscher 91)

3
Hintergrund II
  • Gegenstand Interaktion Intonation und Grammatik
  • Korrelationen bestimmter Tonhöhenverläufe mit
    bestimmten grammatischen Konstruktionen (z.B.
    continuation tone)
  • Verhältnis stress und Informationsfokus
  • Prosodiephänomene in Verdolmetschungen (z.B.
    Segmentierung im Dolmetschprodukt, Implikationen
    für die Sprachverarbeitung)
  • Datenbanken gesprochener Sprache
  • Einzelsätze ToBI, SFG EMU
  • Dialoge SFG (Dialogstruktur, Grammatik,
    Prosodie) EMU

4
Ziele des Vortrags
  • Methodologie zur Untersuchung der spezifischen
    Eigenschaften von Übersetzungen
  • Techniken der Korpusanreicherung und
    Extraktion/Query Probleme Abfragbarkeit des
    annotierten Korpus

5
Korpusbasierte Übersetzungswissenschaft
  • Beobachtungen Hypothesen Übersetzungen
  • sind länger (Anzahl der tokens/Wörter) als ihre
    QS-Texte ? explicitation
  • haben kürzere Sätze (Anzahl der tokens/Wörter pro
    Satz) als vergleichbare
    ZS-Originaltexte
  • haben mehr Sätze als vergleichbare
    ZS-Originaltexte
  • haben eine niedrigere type-token ratio als
    vergleich- bare ZS-Originaltexte
  • haben eine geringere lexikalische Dichte als
    vergleich- bare ZS-Originaltexte
  • sind normaler als vergleichbare
    ZS-Originaltexte ? normalization,
    standardization
  • lassen QS durchscheinen ? interference,
    shining-through
  • Korpusdesign comparable corpus, z.B. englische
    Übersetzungen und englische Originaltexte

? simplification
6
Beispiel Übersetzungen D-E, E-D
G-ORI E-TL E-ORI
sentence length 11.55 12.54 15.36
number of sentences 544 588 366
type-token ratio 49.24 38.66 39.61
? ? ?
max min
E-ORI G-TL G-ORI
sentence length 15.36 13.26 11.55
number of sentences 366 411 544
type-token ratio 39.61 47.24 49.24
? ? ?
  • Effekte zielsprachenspezifisch?
    quellsprachenabhängig?

7
Beispiel Übersetzung E-D
BEDS come in all sizes Single or
double, Cot-size or cradle, King-size or
trundle. Most Beds are Beds For sleeping or
resting, But the best Beds are much More
interesting!
BETTEN gibts in allen Größen Einzel oder
Doppel Feldbett oder Wiege Riesig oder
rollend. Meist sind Betten Betten Für den
Schlaf und für die Ruh Die besten Betten aber
sind Viel interessanter hör mal zu!
(Silvia Plath, Das Bett-Buch Übersetzung Eva
Demski)
  • ? Übersetzung ist länger (E 30 W/42 S, D 36
    W/55 S)
  • Interpretation? Erklärung?

Sprachtypologie
Genre (Register)
8
Kritikpunkte, Schlußfolgerungen
  • andere ZS Beobachtungen teilweise nicht
    bestätigt
  • Ebene der Beobachtungen bei Baker et al. sehr
    shallow Interpretation? Erklärungen?
  • Alternativer Ansatz Basis Kontrastive Linguistik
  • Ebenen der Beobachtungen Lexikogrammatik,
    Semantik, Text
  • Theorie Sprachtypologie, Kontrastive
    Registertheorie, (Verarbeitungsprozesse)
  • Methoden Korpusdesign
  • multilingual vergleichbares Korpus von
  • Originaltexten
  • Parallelkorpus
  • Techniken automatische und halbautomatische
    Korpusanreicherung und Extraktion/Query

9
Methode Korpus
English original texts
German translations
English translations
German original texts
10
Beispiel Korpusuntersuchung
  • Übersetzungen von populärwissenschaftlichen
    Texten E-D, D-E
  • Scientific American/Spektrum der Wissenschaft
    (Doherty-Korpus) und populärwissenschaftliche
    Buchpublikationen
  • ein Register verschiedene fields, tenor Experte
    Laie ? Vergleichbarkeit
  • gute Übersetzungen
  • pro Subkorpus 10 samples à 1000 Wörter (ca.
    10 000 Wörter) expositorisch
  • Hypothesen ihre Herleitung Beispiel
    normalization, shining through Wie normal
    definieren?
  • Resultate Interpretation
  • Techniken der Analyse

11
Theorie Sprachtypologie, Registertheorie
  • Sprachtypologie (cf. Hawkins 84, Doherty 91),
    z.B.
  • E-ORI Clinical experiments have also compared
    the mixture of interferons produced by white
    blood cells with single interferons produced by
    bacteria.
  • G-TL1 Klinische Versuche haben auch das
    Interferongemisch der weißen Blutkörperchen mit
    den einzelnen bakteriellen Interferonarten
    verglichen.
  • G-TL2 In klinischen Versuchen wurde auch das
    Interferongemisch der weißen Blutkörperchen mit
    den einzelnen bakteriellen Interferonarten
    verglichen.
  • Kontrastive Registertheorie, z.B. Biber 95
    Halliday 85, 88, 98 Fluck 90
  • relative Häufigkeit bestimmter lexikogrammatischer
    Merkmale (signifikant)
  • z.B. in (populär)wissenschaftlichen Texten
    PassivPassivalternativen, komplexe
    Nominalgruppen, einfache Satzstruktur
    (relationale Prädikate)

12
Beispiel Passiv/Passivalternativen
  • G-ORI E-ORI Subkorpus

E-ORI
G-ORI
389
active
278
79
165
passive
?2 45.5 Signifikanz 0.001 (1 df gt 10.83)
E-ORI
G-ORI
passive 79 165 passive
146 64 alternatives
?2 62.1 Signifikanz 0.001 (1 df gt 10.83)
13
Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
  • Hypothesenformulierung E-ORIG-TL
  • In Übersetzungen vom Englischen ins Deutsche
    liegt shining-through im Passivbereich vor, wenn
    in G-TL signifikant mehr Passive auftreten
    als in vergleichbaren deutschen Texten (G-ORI)
  • In Übersetzungen vom Deutschen ins Englische
    liegt normalization im Passivbereich vor, wenn in
    G-TL signifikant mehr Passivalternativen
    auftreten als in vergleichbaren deutschen Texten
    (G-ORI)


14
Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
  • Hypothesenformulierung G-ORIE-TL
  • In Übersetzungen vom Deutschen ins Englische
    liegt shining-through im Passivbereich vor, wenn
    in E-TL signifikant mehr Passivalternativen
    auftreten als in vergleichbaren englischen Texten
    (E-ORI)
  • In Übersetzungen vom Deutschen ins Englische
    liegt normalization im Passivbereich vor, wenn in
    E-TL signifikant mehr Passive auftreten als in
    vergleichbaren englischen Texten (E-ORI)



15
Resultate Interpretation
E-ORI
G-ORI
G-TL
278
389
357
active
165
79
100
passive
G-ORI G-TL ?2 3.6 Signifikanz 0.10 (1 df
gt 2.71)
  • ? schwaches shining-through (Passiv) in G-TL

E-ORI
G-ORI
G-TL
64
146
163
passive alternatives
165
79
100
passive
G-ORI G-TL ?2 0.0 nicht signifikant
? kein normalization-Effekt (Passivalternativen)
in G-TL
16
Resultate Interpretation
G-ORI
E-ORI
E-TL
389
278
218
active
79
165
186
passive
E-ORI E-TL ?2 7.9 Signifikanz 0.01 (1 df
gt 6.64)
  • ? normalization (Passiv) in E-TL

G-ORI
E-ORI
E-TL
146
64
62
passive alternatives
79
165
186
passive
E-ORI E-TL ?2 0.1 nicht signifikant
? kein shining-through-Effekt (Passivalternativen)
in E-TL
17
Resultate Interpretation
E-TL G-TL
1) passive vs. active normalization shining through
2) passive vs. passive alternatives --- ---
3) material vs. relational (other factor) (other factor)
4) attributive vs. predicative normalization normalization
5) premod vs. postmod shining through shining through
6) full relative vs. dense postmod --- normalization
7) full relative vs. dense mod --- (other factor)
8) effective vs. middle --- (other factor)
9) unmarked vs. marked theme normalization shining through
  • mehr Effekte in G-TL mehr shining through in
    G-TL
  • weniger Effekte in E-TL mehr normalization in
    E-TL
  • Effekte komplementär (1, 9), bidirektional (4,
    5), unidirektional (6)
  • Effekte, die nicht auf normalization/shining
    through zurückzuführen
  • sind (3, 7, 8)

18
Techniken Basis
German original texts
English translations
19
Techniken Korpusannotation I
  • PoS-tagging TnT (Brants 2000) Englisch
    (Susanne Sampson 95), Deutsch (STTS Hinrichs et
    al. 95)
  • TnT output (TSV)
  • If CS
  • however RR
  • a AT1
  • rapid JJ
  • , YC
  • preferably RR
  • instant JJ
  • , YC
  • effect NN1
  • is VBZ
  • desired VVN
  • , YC
  • strophanthin PN1
  • will VM
  • be VB0
  • needed VVN

20
Techniken Korpusquerying
  • Extraktion von Instanzen der ausgewählten
    lexiko-grammatischen Merkmale CQP/ XKWIC (Christ
    94)
  • Query-Syntax reguläre Ausdrücke

21
Techniken Korpusannotation II
  • Abstraktere Merkmale, z.B. funktional-grammatische
    Prädikatstypen (SFG process types)
  • Special/general-purpose tools wie TATOE (Alexa
    Rostek 99), Coder (ODonnell 95)

ltcodingsgt ltheadergt ltscheme
file"D/Elke/Coder3.4.1/Schemes/transitivity-g.sc
heme"gtlt/schemegt lt/headergt ltbodygt ltsegment
features"clause relational circumstantial
attributive" gtWo sind eigentlich die Organismen
geblieben? lt/segmentgt ltsegment features"clause
material middle-nonranged doing creative
nonbenefactive" gtIn den letzten Jahren hat sich
in der Biologie etwas sehr Sonderbares und
Interessantes ereignet lt/segmentgt ltsegment
features"clause relational circumstantial
attributive" gtDie Organismen als Grundeinheiten
des Lebens sind auf der Strecke
geblieben. lt/segmentgt ltsegment
features"clause material effective-nonranged
doing dispositive nonbenefactive" gtSie wurden
von den Genen abgelöst, lt/segmentgt ltsegment
features"clause material effective-nonranged
doing creative nonbenefactive" gtdie sämtliche
Grundmerkmale annahmen, lt/segmentgt ... lt/bodygt
22
Techniken Korpusquerying
23
Probleme
  • Verschiedene Annotationen nicht gemeinsam
    querybar heterogene Informationsquellen
  • verschiedene Formate
  • verschiedene Datenstrukturen
  • Integrierte Repräsentation, z.B. XML
  • Aber Problem Query

24
Beispiel Our-XML
lt?xml version"1.0" encoding"UTF-16"?gt ltwordsgt
ltword pos"NN2" start"1" end"10"gtTextbookslt/word
gt ltword pos"VV0" start"12" end"16"gtwritelt/wor
dgt ltword pos"DD1" start"18"
end"21"gtthislt/wordgt ltword pos"NN1" start"23"
end"29"gtprocesslt/wordgt ltword pos"II"
start"31" end"32"gtaslt/wordgt ltword pos"NP1"
start"34" end"45"gtHCl H Cl-lt/wordgt ltword
pos"YC" start"46" end"46"gt.lt/wordgt lt/wordsgt lt?
xml version"1.0" encoding"UTF-16"?gt ltclause
semfeat"verbal"gt ltphrase synform"NP"
synfunc"SB" start"1" end"10"gt
Textbookslt/phrasegt ltphrase synform"VP"
synfunc"HD" start"12" end"16"gt
writelt/phrasegt ltphrase synform"NP"
synfunc"OA" start"18" end"29"gt this
processlt/phrasegt ltphrase synform"PP"
synfunc"MO" start"31" end"45"gt as HCl H
Cl-lt/phrasegt lttext start"46"
end"46"gt.lt/textgt lt/clausegt
(Teich et al. 2001)
25
Probleme
  • Integrierte Repräsentation verschiedener
    Annotationen (cf. multi-layer Problematik)
    Skripts z.B. XML, Ags aber query?
  • CQP (Christ 94)
  • TigerSearch (König Lezius 2002)
  • GSearch (Corley et al., 2001)
  • Mate (Heid Mengel, 99 McKelvie et al., 2001),
    aber skaliert nicht (Stand 2001)
    Nachfolgeprojekt Nite (Bernsen et
    al., 2002)?
  • Relationale DBMS, z.B. EMU (Cassidy Harrington
    2001) SQL
  • Semistrukturierte Daten XSLT, XQuery
  • Intersecting hierarchies ok aber overlapping
    segments?
  • annotation graphs (Bird Liberman 2001)
  • Mate, stand-off markup (Thompson McKelvie97),
    Our-XML
  • aber Query? AGs ? (Scott Bird 2001) XML
    XQuery?

26
Zusammenfassung und Ausblick
  • Annotierte Korpora als linguistische Datenbanken
  • Linguistik
  • Welche Arten von Beziehungen? Dominanz, lineare
    Abfolge, binding, Kohäsion, semantische
    Relationen...
  • Verschiedene Perspektiven auf ein Korpus
  • Abfragen auf mehreren Annotierungsschichten
  • Vergleich verschiedener Annotierungen desselben
    Korpus
  • Informatische Techniken
  • superimposed information
  • Querysprachen
  • Tool kit
  • Skripts externe tools (TSV, Baum, AG, your-XML)
    our-XML
  • Definition von Querytypen (XQuery XSLT)
  • zusätzliche layers mehr Daten
Write a Comment
User Comments (0)
About PowerShow.com