Title: Inwiefern unterscheiden sich
1Inwiefern unterscheiden sich Voiceprints und
Fingerabdrücke bezüglich der Zuverlässigkeit der
Sprecheridentifikation? Wie zuverlässig ist eine
visuelle, spektrographische Analyse im Vergleich
zu einer auditiven Analyse für die Identifikation
der Sprecheridentität?
2- 1. Fingerabdrücke
- Die ersten bekannten Fingerabdrücke gehen auf die
neolithische Zeit zurück - 1686 bemerkte der italienische Anatom Marcello
Malpighi, dass sich die menschlichen
Fingerabdrücke von einander unterscheiden. - Erst 1823 hat J.E. Purkinje den ersten Traktat
publiziert, in dem er die Papillarleisten
(papillary ridges) in 19 Arten klassifiziert
hatte (die Purkinje Muster). - Herschel sammelte Fingerabdrücke innerhalb von 30
Jahren und ist zum Schluss gekommen, dass die
papilläre Falten (papillary folds) sehr beständig
sind. - Die erste wissenschaftliche Studie zu den
Fingerabdrücken stammt vom berühmten britischen
Genetiker und Anthropologen Francis Galton (1888)
3- Die Haut, die aus Erhöhungen (ridges)
besteht, beinhaltet Schweißdrüsen, durch die
Schweiß vermischt mit dem Talg an die Oberfläche
kommt. Beim Kontakt mit der glatten Oberfläche
hinterlässt diese Flüssigkeit bemerkbare Spuren.
Eindeutig bestimmbar im Alter von 4 Monaten,
gewinnbar von den Leichen (und Mumien),
unveränderlich und unbeweglich machen
Fingerabdrücke wahre individuelle Eigenschaft
aus.
4- 2. Genetische Fingerabdrücke
- Kontinuität der spezifischen Eigenschaften alles
Lebenden ist durch die Informationen
gewährleistet, die während der Zellteilung
weitergeleitet werden. - Das in jeder Zelle vorhandene genetische Material
setzt sich aus der im Zellnukleus enthaltenen DNS
und der in den Mitochondrien enthaltenen DNS. - Die molekulare Struktur der DNS war 1953 von
Watson und Crick entdeckt die aus zwei
verflochtenen Ketten gebildete und aus fest
zusammengebundenen Nukleotiden zusammengesetzte
Doppelhelix.
5- Nur ein Teil der DNS funktioniert wie ein Kode,
der jeder Zelle Synthese der für sie nötiger
Moleküle erlaubt. Diese Bereiche, genannt
Mini-Satelliten, bestehen aus sich wiederholenden
Abfolgen der Nukleotiden (20 bis 70), die
abhängig von der Einzelperson 3 bis 10 mal
abgebildet sind. -
- 1985 haben Wilson, Jeffreys und Thein entdeckt,
dass bestimmte Abfolgenfamilien ein gemeinsames
Muster aufweisen eine Molekularkette, die aus
einer Abfolge der Nukleinsäure besteht und
mindestens 20 Nukleotiden enthält. - Da die Moleküle beim Erbgang weitergeleitet
werden, ist es möglich, die Identitätsforschung
auf den Familien durchzuführen.
6-
- Da die Wahrscheinlichkeit zwei Menschen mit
demselben genetischen Profil zu treffen, extrem
klein ist, scheint die genetische Analyse die
zuverlässigste der heute entwickelten Methoden zu
sein.
7- 3. Voiceprints
- Menschen besitzen die Fähigkeit, bekannte Stimmen
zu erkennen. - Man kann aber nicht sagen, dass jede Stimme
Eigenschaften besitzt, die sie einmalig unter
allen anderen Stimmen erscheinen lassen. - Es gibt keine Beweise dafür, dass die Phonetiker
in der Stimmenidentifikation besser als die Laien
sind. - 1980 wurde auf dem Colloqium of British Academic
Phoneticians die Aussage gutgeheißen Die
Phonetiker sollten sich nicht für Experten in der
Sprecheridentifikation halten, bevor sie sich als
solche beweisen können.
8- 1962 erschien in Nature ein Artikel mit dem Titel
Voiceprint identification. - Dieser fehlerhafte metaphorische Terminus
Voiceprint lässt viele Menschen glauben, dass
die graphische Darstellung der Stimme (Sonagramm)
genau so zuverlässig wie die Struktur der
Papillarleisten der Fingerabdrücke oder der
genetischen Fingerabdrücke ist, und dass sie die
zuverlässige Sprecheridentifizierung erlaubt. - Aber kein Sprachspezialist hat Beweise für die
Zuverlässigkeit der Sprecheridentifikation durch
Spektrogrammanalyse gefunden.
9Vergleich von Fingerabdrücken, genetischen
Fingerabdrücken und Sprachsignalen
Genetischer Fingerabdruck Fingerabdruck Sprachsignal
Allgemeine Charakteristik Zellenstruktur Fingerformspuren auf der Oberfläche Folgen der Artikulatorenbewegung
Parameter Multilokuläre Teile der DNS Geometrisch Temporal und spektral
Veränderlichkeit Nein Keine nach dem vierten Monat Kann vom Sprecher selbst oder durch Stress verändert werden
Alterseinfluss Nein Nein Wichtig mit Erwachsenwerden
Einfluss des Gesundheits- zustandes Nein Nein Wichtig für Vokal- und Nasaltrakt und Lungen
Spracheinfluss Nein Nein Sehr wichtig
10Vergleich von Fingerabdrücken, genetischen
Fingerabdrücken und Sprachsignalen
Genetischer Fingerabdruck Fingerabdruck Sprachsignal
Möglichkeit, die Leiche zu identifizieren Ja Ja Nein
Möglichkeit der Geschlechtsidentifikation Ja Nein Ungewiss
Möglichkeit, die Familienzugehörigkeit zu bestimmen Ja Nein Nein
11- 4. Sprecherauthentifikation und
Sprecheridentifikation - Um herauszufinden, wie zuverlässig eine
visuelle, spektrographische Analyse im Vergleich
zu einer auditiven Analyse für die Identifikation
der Sprecheridentität ist, wurde eine Studie
gestartet. - Die Studie beschäftigte sich mit folgendem
Experiment - Die Testperson bekommt Samples desselben
Sprachmusters, erzeugt von einer Zahl der
Sprecher. Dann wird ihr ein Kontrollstimulus
präsentiert, eine neue Version des Musters eines
der Sprecher. Ihre Aufgabe ist, den Sprecher zu
identifizieren dabei darf sie die vorgeführten
Samples so oft sie will hören. Diese Technik
heißt matching-from-sample procedure. - Sprecheridentifikation wurde auf zwei
verschiedene Weisen der Sprachmaterialpräsentation
untersucht 1). Sprachmaterial wurde über
Kopfhörer präsentiert 2). Sprachmaterial wurde
visuell als Spektrogramm präsentiert.
12Fragen, die zu Beginn der Studie gestellt wurden
- Wie vergleichbar ist die Leistung der
Testpersonen in visuellen und Hörtests? - Hängt die Fähigkeit der Sprecheridentifikation
von den Eigenschaften des verwendeten Musters
seiner Länge, seines phonetischen Inhalts etc? - Gibt es individuelle Unterschiede in der
Identitätsfähigkeit der Stimmen, und gibt es
Unterschiede zwischen Menschen in ihrer
Fähigkeit, Stimmen auditiv und visuell zu
unterscheiden? - Wie treten Menschen in Bestätigungstests auf, in
denen der Sprecher des Musters als einer der
Gruppe der in der Samplebibliothek präsentierten
Sprecher zu identifizieren ist?
13- Zwei Experimentarten wurden durchgeführt
- (1) Reihe der closed Tests, in denen es
Samplebibliothek von acht Sprechern gab, und die
Kontrollmuster von einem der Sprecher zu
produzieren waren - (2) Reihe der open Tests, in denen dieselbe
Samplebibliothek von acht Sprechern verwendet
wurde, aber die Kontrollmuster könnten oder
könnten nicht von einem dieser Sprecher
produziert worden sein.
14Auswahl der Sprecher
- Es wurde beschlossen, eine Bibliothek der Wörter
vorzubereiten, die von 24 männlichen Sprechern im
Alter von 20 bis 40 Jahren gesprochen wurden,
dessen Stimme man für typisch männlich hielt, und
die keinen starken Akzent und keine signifikanten
Abweichungen in der Artikulation hatten. Dafür
wurden Aufnahmen von 59 Männern gemacht, als
jeder einen Textabschnitt und drei isolierte
Spondeus Wörter (spondee ) vorgelesen hat. - Als nächstes wurde eine Gruppe der Sprachforscher
zusammengestellt und gebeten, die Sprecherstimmen
nach bestimmten Merkmalen zu bewerten (a)
niedrig-hoch, voll-dünn, tief- flach (b)
langsam-schnell (c) klar-unklar, rau-sanft (d)
ohne regionalen Akzent - mit regionalem Akzent
(e) gute Artikulation - schlechte Artikulation
(f) ohne nasale Resonanz - mit starker nasalen
Resonanz.
15- Die Sprecher mit untypischer Artikulation,
starkem Akzent und nasaler Resonanz wurden sofort
ausgeschlossen. - Für die restlichen Sprecher wurden abhängig von
der durchschnittlichen Bewertung der Merkmale a,
b, c und d und ihrer Vokaltraktlänge
Verteilungskurven erstellt. - Um die Zahl der Sprecher auf 24 zu reduzieren,
wurden 2 Kriterien verwendet - (1) Sprecher mit extremen Werten (wie sehr
langsames Tempo oder seht niedrige Tonhöhe)
wurden ausgeschlossen - (2) Eigenschaften der ausgewählten Sprecher
beinhalteten angemessene Verteilung verschiedener
Merkmale. - Durch diese Prozedur wurde eine homogene Gruppe
von acht bekannten Sprechern ausgewählt, deren
Sprachmuster beim Experiment zum Vergleich dienen
werden. Die gebliebenen 16 Sprecher wurden als
unbekannte Sprecher verwendet, deren Sprachmuster
zum Vergleich bei den open Tests nicht verfügbar
sein werden.
16Auswahl des Sprschmaterials
-
- Es sollte eine halbwegs große Auswahl an
Sprachlauten repräsentiert werden, so dass man
die relative Wichtigkeit verschiedener Klassen
der Sprachlaute bei der Sprecheridentifikation
mit zwei Methoden einschätzen könnte. Die
Musterlänge war auch sehr wichtig.
17 Der betonte Vokal
vorne hinten
1. Baseball X
2. Sidewalk X X
3. Pancake X
4. Dovetail X
5. Yardstick X
6. Scarecrow X
7. That X
8. Base X
9. Side X
10. A baseball glove
11. That sidewalk is brocken
18- Die Tabelle zeigt, dass einige kurze Wörter auch
ein Teil der längeren Wörter oder Phrasen sind.
Somit war es möglich, die Fähigkeit der
Testpersonen, den Sprecher aufgrund isoliert
ausgesprochenen Wortes mit ihrer Fähigkeit, den
Sprecher aufgrund längerer, dasselbe Wort
enthaltenen Einheit, zu vergleichen. - Sechs der Wörter auf der Liste sind Spondeus
Wörter. Da beide Silben betont werden, obwohl die
Hauptbetonung auf der ersten Silbe liegt, dachte
man, dass jede Silbe einen Beitrag zur
Sprecheridentifikation leisten könnte. Diese
Wörter wurden so ausgesucht, dass hintere und
vordere Vokale etwa gleich in betonten Silben
vertreten waren, und relativ breite Verteilung
der Konsonanten auf verschiedenen Positionen im
Wort beinhalteten.
19Auswahl der Testpersonen
- Aus insgesamt 10 Hochschulstudenten, die sich
für die Teilnahme in Experimenten beworben haben,
wurden sechs ausgesucht (drei Männer und drei
Frauen). Die Auswahl basierte auf Durchleuchtung
ihres Gehörs und aufgrund der Untersuchung ihrer
Fähigkeit, sich mit sechs früher unbekannten
Stimmen vertraut zu fühlen. Da nur zwei Studenten
nach der Durchleuchtung ausgeschlossen wurden,
wurde die endgültige Auswahl von drei Männern und
drei Frauen per Zufall getroffen. Ihr
Durchschnittsalter war 19,5 Jahre und Englisch
war ihre Muttersprache.
20Closed Tests
- Materialien für die closed Tests bestanden aus
fünf Wiederholungen der elf Wörter aus der
Tabelle, die von acht bekannten Sprechern
aufgenommen wurden. - Es wurden zwei Reihen der Vergleichsmuster
zusammengestellt. - Für jedes Wort wurde eine Reihe der
Vergleichseinheiten den drei Testpersonen und die
andere Reihe der Vergleichseinheiten den anderen
drei präsentiert. - Im Falle der Hörtests konnte die Testperson jedes
der Vergleichsmuster oder die Kontrolleinheit
durch das Drücken eines der neun angemessen
beschrifteten Schalter hören. - Die Sprache wurde mit Geräuschen vermischt, um
Atmungsgeräusche, Bewegungsgeräusche und Klicks
zu maskieren. - Vor den Hörtests wurde jeder Testperson die
Möglichkeit gegeben, einmal jedes der acht
Vergleichsmuster zu hören.
21- Im Falle der visuellen Tests war jedes
Kontrollmuster ein Spektrogramm eines Wortes und
die Vergleichsmuster waren acht Spektrogramme,
die eine Äußerung des Wortes durch jeden der acht
Sprecher darstellten. So war die Testperson im
Stande, das gegebene Kontrollspektrogramm mit
jedem der Vergleichsspektrogramme zu vergleichen. - Der Test bestand aus 32 Äußerungen eines
gegebenen Wortes. - Jede Testperson nahm an 28 closed Tests (14
Hörtests und 14 visuellen Tests) teil. - Für jede Testperson und jeden Test wurden den
Vergleichsmustern verschiedene Nummern von 1 bis
8 zugeteilt. - Muster wurden in einer zufälligen Reihenfolge
präsentiert. - Durchschnittlich machten die Testpersonen zwei
Hörtests und zwei visuelle Tests während einer
einzelnen Sitzung.
22Open Tests
- Der Ablauf der open Tests war ziemlich ähnlich
mit dem der closed Tests, nur dass die Äußerungen
der unbekannten Sprecher in den Kontrollsamples
der bekannten Sprecher enthalten waren. - Zwei der elf Wörter wurden verwendet (sidewalk
und dovetail). - Es wurden vier Testpersonen gebraucht.
- Jede Testperson hat an 12 Tests teilgenommen
(sechs Hörtests und sechs visuellen Tests). - Die verwendeten Wörter, Testmuster, Konditionen
und Vergleichsmuster wurden vom Test zu Test für
jede Testperson zufällig angeordnet. - Die Instruktionen für die Testpersonen waren
grundsätzlich dieselben wie in closed Tests.
Allerdings wurden die Testpersonen informiert,
dass die Kontrollmuster von einem der acht
bekannten Sprecher stammen könnten oder nicht.
23- Die erste Aufgabe der Testperson war, zu
bestimmen, ob das vorgeführte Muster von einem
der acht Sprecher stammte, und dann musste man
eingeben, wie sicher man sich bei der
Entscheidung war. - Falls die Testperson angab, dass das
Kontrollmuster von einem der acht Sprecher
stammte, musste sie den Sprecher identifizieren
und eingeben, wie sicher sie sich bei der
Entscheidung war.
24Ergebnisse der Closed Tests
- Nach 14 Tests (etwa vier Aufnahmestunden) lief
der Lernprozess schneller für Hörtests als für
visuelle Tests ab. Nach der Erklärung des
experimentellen Ablaufs, haben die Testpersonen
etwa die gleiche Zeit für beide Tests gebraucht-
etwas über 1 min für die Entscheidung. - Die benötigte Zeit für Hörtests hat nach sechs
Tests sehr schnell auf weniger als die Hälfte
gesunken, wobei die Zeit für die visuellen Tests
viel langsamer abnahm. Die benötigte Zeit scheint
vor allem von der Länge der Äußerung abzuhängen.
Für die Hörtests schwankt die durchschnittliche
Zeit für die Identifikation von 26 sec für das
Wort side bis 47 sec für einen Satz. Für die
visuellen Tests ist die Spannweite von 37 sec für
das Wort base bis 61 sec für einen Satz. - Für die Hörtests lag die Fehlerquote etwa bei
18 und fiel auf 6 bei späteren Tests. Bei
visuellen Tests fiel die Fehlerquote von 28 auf
21 während vergleichbaren Zeitabschnitts.
25- Die Präzision, mit der die Testpersonen den
Sprecher identifiziert haben, schwankte deutlich.
Für die visuellen Tests gibt es mit der
wachsenden Länge der Äußerung ständige
Verbesserung in Erkennung des Sprechers. Für die
Hörtests ist die Länge weniger wichtig, und wenn
die Silbenzahl drei überschreitet, scheint es im
Durchschnitt keine weitere Verbesserung in
Erkennung zu geben. - Die Wörter mit betonten vorderen Vokalen erlauben
einem, den Sprecher viel schneller zu
identifizieren, als die Wörter mit betonten
hinteren Vokalen. - Ergebnisse zeigen, dass es große Unterschiede in
der Fähigkeit der visuellen und auditiven
Sprecheridentifikation zwischen den Testpersonen
gibt. Außerdem gibt es keine Übereinstimmung in
Ergebnissen für beide Testarten, d.h. die
Testperson, die gut in Hörtests abgeschnitten
hat, war nicht notwendigerweise gut in visuellen
Tests.
26- Die Spannweite der Fehlidentifikation bei den
visuellen Tests ist ziemlich klein (20 bis 30).
Bei den Hörtests ist sie viel größer manche
Sprecher wurden seltener mit anderen verwechselt,
während andere viel öfter falsch identifiziert
wurden. So gibt es schwache Beweise dafür, dass
die Stimme beim Hören markant ist und auch
markante spektrogrsphische Muster aufweist. - Bei jedem Test hatte die Testperson den Zugriff
nur auf eine Variante des Vergleichsmusters. Drei
Testpersonen haben eine Reihe der
Vergleichsmuster verwendet, und die anderen drei
eine andere Reihe. Da ein Sprecher eine Äußerung
nie auf gleiche Weise zweimal produziert, kann
man erwarten, dass sich diese Vergleichsmuster
ein wenig unterscheiden, und dass sich die
Ergebnisse der Sprecheridentifikation abhängig
von unterschiedlichen Mustern unterscheiden.
27- Und das ist wirklich der Fall, obwohl der
Unterschied für die meisten Wörter sehr klein
war. Bei den Hörtests gab es den auffälligsten
Einfluss bei Vergleichsmustern für Phrasen und
Sätze, z.B. für a baseball glove war die
Fehlerquote bei einer Reihe der Vergleichsmuster
1 und 12 bei der anderen Reihe. - Bei den Tests stellte sich heraus, dass man sich
bei den Antworten für Hörtests viel sicherer war
als bei visuellen Tests, und das bei jeder
einzelnen Testperson.
28Ergebnisse der Open Tests
- Für open Tests hatten die Testpersonen zweifache
Aufgabe den Sprecher zu authentifizieren und
falls er als bekannt erkannt wird, ihn zu
identifizieren. - Durchschnittszeit für die Hörtests war etwa 30
sec, während sie für die visuellen Tests etwa 60
sec war (25 sec bzw. 45 sec bei closed Tests). - Bei den Hörtests war die Authentifikationsquote
der bekannten Sprecher bei etwa 90, während 6
bis 8 der unbekannten Sprecher falsch
authentifiziert wurden. - Bei den visuellen Tests wurden relativ viele
unbekannte Sprecher falsch authentifiziert.
Offensichtlich waren die Unterschiede zwischen
Spektrogrammen verschiedener Sprecher weniger
sichtbar als die gehörten Unterschiede bei den
Hörtests.
29Vergleich mit anderen Studien
- Vergleichbare Studien
- Young und Campbell haben die Aufnahmen der 5
Sprecher verwendet, und hatten 10 erfahrene
Beobachter, um die Sprecher aus den
Spektrogrammen der einzeln ausgesprochenen Wörter
you und it zu identifizieren. Durchschnittliche
Fehlerquote bei den Testpersonen war 22, was ein
bisschen weniger als die Fehlerquote von 23, 25
und 51 für die einsilbige Wörter der
vorliegenden Studie ist. Die geringere
Fehlerquote kann durch die kleinere Sprecherzahl
erklärt werden. - Kersta hat in seinen Experimenten zur
Sprecheridentifikation noch kleinere Fehlerquoten
bekommen. Z.B. bei der Sprecherzahl von 9 und
verschiedenen einsilbigen Wörter als
Sprachmaterial hat er Fehlerquoten von 0 bis 2
bekommen.
30- Bricker und Pruzansky haben die Fähigkeit der
Hörer untersucht, Stimmen der ihnen sehr
vertrauten Sprecher zu identifizieren (Samples
der unbekannten Stimmen gab es während der Tests
nicht). Für 10 Sprecher, die einsilbige Wörter
ausgesprochen haben, haben sie die Fehlerquote
von 19 bekommen, während die Fehlerquote für
solche Äußerungen in der vorliegenden Studie nur
8 bis 17 beträgt. - Eine mögliche Erklärung für solche Abweichungen
ist, dass die verschiedenen Spektrographmodelle
in verschiedenen Studien verwendet wurden.
31(No Transcript)
32Zusammenfassung der Ergebnisse
- Auditive Sprecheridentifikation ist viel exakter
als die Identifikation auf Grund Spektrogramme.
Die Testpersonen sind viel sicherer bei der
Identifikation für die Hörtests. - Für visuelle Identifikation erhöhen längere
Muster die Möglichkeit korrekter Identifikation.
- Es ist einfacher, den Sprecher zu identifizieren,
wenn er ein einen vorderen Vokal enthaltenes Wort
äußert, als wenn er ein einen hinteren Vokal
enthaltenes Wort äußert. - Es gibt große Unterschiede in auditiver
Abgrenzbarkeit der Stimmen, sogar wenn die
Stimmen einigermaßen homogen zu sein scheinen. - Es gibt große Unterschiede in der Fähigkeit der
Testpersonen, Stimmen auf auditiver oder
visueller Ebene zu identifizieren.
33- Indirekte Beweise zeigen, dass die
Sprecheridentifikationsquoten, die auf den
Antworten aller Testpersonen zusammen basieren,
viel besser sind, als die Quoten für jede
einzelne Testperson. - Indirekte Beweise zeigen, dass die
matching-from-sample Technik, bei der
Vergleichsmuster aus einigen Wiederholungen einer
Äußerung durch jeden Sprecher bestehen, zu einer
niedrigeren Fehlerquote führt, als wenn nur ein
Vergleichsmuster von jedem Sprecher verfügbar
ist. - Stimmauthentifikation ist auf visueller Ebene
schwächer als auf der auditiven Ebene. - Ergebnisse dieser Studie beweisen, dass die
matching-from-sample Technik bei der
Stimmauthentifikation und identifikation auf
visueller und auditiver Ebene erfolgreich
verwendet werden kann. Beide Methoden haben
Besonderheiten, die für die praktische Nutzung
attraktiv sein könnten.
34- Vielen Dank für eure Aufmerksamkeit!