Title: Tecniche di riconoscimento del parlante
1Tecniche di riconoscimento del parlante
L_at_bphon
Luciano Romito Dipartimento di Linguistica
Laboratorio di Fonetica Università degli Studi
della Calabria
Soriano sul
Cimino 19 settembre 2007
2Distribuzione dei periti/consulenti intervistati
sul territorio nazionale
3Quante perizie/consulenze vengono effettuate in
Italia in un anno
- Ad oggi e con poco più del 50 del campione,
nellanno scorso, tra perizie e consulenze, ne
sono state effettuate ben - 594
4Con quali metodi?
5Con quale statistica ?
6Come viene fornita la risposta al quesito?
7Forensic Speaker Identification
- La FSI è una disciplina che rientra nella
Fonetica Forense così come questa è una branca
della Fonetica. - La Fonetica Forense oltre al FSI include Speaker
Profiling ed altro come già detto
8Chi è il perito nel mondo?
- periti Fonetisti Full Time
- Olanda, Germania, Svezia, Austria, Spagna e
Svizzera (Rose 200221) - Periti occasionali (accademici etc)
- Australia, Gran Bretagna (Braun and Kunzel
19984) - Italia (Romito-Galatà 2006)
9Titolo di studio
10Laurea
11Diploma
12Laureati Età (in anni) Diplomati
0 lt30 2
4 da 30 a 39 7
21 da 40 a 49 9
17 da 50 a 59 13
15 gt60 5
13Lessere perito è una attività principale
14Automatici Semiautomatici Soggettivi
Aural-Spectrografic identification
15Aural-Spectografic (voiceprint) identification
- Se parliamo di metodi soggettivi dobbiamo
ricordare che - gli uomini e i computer (Ladefoged 200178-95)
- il giudice è un uomo
- Acoustic Theory of Speech Production il
comportamento di alcuni parametri acustici e
articolatoriamente interpretabile) - Metodo automatico (cfr. Clermont and Itahashi
1999)
16- Acusticamente esistono molti parametri che
possono essere usati per comparare le voci - la scelta è determinata da una approfondita
analisi linguistica - non esistono parametri ideali ma solo alcune
indicazioni - a) mostrare una alta variabilità interparlatare e
una bassa variabilità intraparltore - b) essere resistente al camuffamento
- c) avere una alta frequenza di occorrenza
- d) essere robusto durante la trasmissione
- e) essere relativamente facile da estrarre e
misurare
17voiceprint identification
- Tale metodo è stato sviluppato e
commercializzato da Kersta 1962 - Tosi (... the legal application of speaker
identification, which at present still consists
mainly in the practice of visual examination of
spectrograms...). - successivamente negli anni 70 ed in seguito ad
una serie di critiche (tra cui per ultimo Romito
2000) si è deciso di utilizzare una combinazione
del Metodo Uditivo e di quello Visivo. (Hollien
1990215) - Tale metodo viene chiamato Aural-Spectographic
Method (McDermott et al. 1996)
18Dove viene utilizzato
- Questo metodo è ancora usato almeno fino al 2001)
dallFBI (Nakasone and Beck 2001) - Dalla Polizia Giapponese (Osanai 2001)
- In Israele, Italia, Spagna, Columbia (Rose 2002)
- Non viene più usato in Olanda e Germania (Kunzel
1994138)
19- riconoscere una voce è una abilità umana
- I fonetisti di questa abilità ne fanno il proprio
lavoro - questa abilità è stata per decenni riconosciuta
dai Tribunali (Gruber and Poza 1995section 99) - la scienza e la letteratura è invece controversa
- il dato uditivo è sufficiente Badwin 1979,
Baldwin and French 19909) - il dato uditivo non è necessario anzi non serve
(Furui 1989) - Bisogna combinare le due tecniche acustico e
uditivo (Kunzel 1987, 199576-81 French
1994173-4)
20- non tutti hanno la stessa abilità (Ladefoged and
Ladefoged 198045 Hollien 199515, Foulkes and
Barron 2000182) - alcune voci sono più facilmente identificabili
(Popçun et al. 1989, Rose and Duncan 199512,16) - altre voci sono più simili tra loro rispetto ad
altre
21Caratteristiche associate alla identificazione
uditiva
- Lesposizione
- Più si ascolta una voce più questa diventa
familiare e quindi più facilmente identificabile
(Ladefoged and Ladefoged 198049) - più una voce è familiare più è facile capirla
anche in contesti rumorosi. - a volte la familiarità della voce sembra
facilitare il compito invece
22Caratteristiche associate alla identificazione
uditiva
- La quantità.
- esperimenti mostrano che nellascolto di una sola
parola lerrore è del 69, lo stesso scende al
34 con una frase e al 17 con ascolti di 30 sec.
(Rose 2002102) - La distanza tra gli ascolti
- Errore del 50 dopo 10 minuti. 57 dopo un
giorno, 61 dopo 7 giorni, 68 dopo 15 gg. - Competenza della Lingua o dialetto sia nel
confronto sia conoscenza da parte
dellascoltatore - One is far more likely to identify a voice as a
given persons if one is expecting to hear that
persons voicegtgt Ladefoged 1978, Ladefoged and
Ladefoged 198047, Broeders 1995155 Romito 2000.
23Approfondimento del Metodo sonografico
- Non cè accordo
- (Gruber and Poza 1995section 54-71)
- Esistono almeno due protocolli
- Il primo sviluppato da VIAAS (Voice
Identification and Acoustic Analysis
SubCommittee, della International Association for
Identification pubblicato negli atti
dellassociazione VCS 1991) - Il secondo protocollo è quello dellFBI (Koenig
19862089-90) - I protocolli sono molto simili, entrambi sono
soggettivi e basati sullesperienza dellesperto
24VCS 1991373-9
- Ideally, the exemplar should be spoken by the
suspect in a manner that replicates the unknown
talker, to include speech rate, accent, (whether
real or feigned), hoarseness, or any abnormal
vocal effect In general, the suspect is
instructed to talk at his or her natural speaking
rate if this is markedly different from the
unknown sample, efforts should be made through
recitation to appropriately adjust the speech
rate of the exemplar Spoken accents or dialects,
both real and feigned should be emulated by the
known speaker If any other unique aural or
spectrally displayable speech characteristics are
present in the questioned voice, then attemps
should be made to include them in the exemplars.
25AFTI
- Visual comparison of spectrograms involves, in
general, the examination of spectrograph (??)
features of like sounds as portrayed in
spectrograms in terms of time, frequency and
amplitude Aural cues include resonance quality,
pitch, temporal factors, inflection, dialect,
articulation, syllable grouping, breath pattern
disguise, pathologies and other peculiar speech
characteristics
26Critiche
- Dove è la scientificità?
- Il riconoscimento della voce e il riconoscimento
visivo interessano differenti parti del cervello
(cfr. Blakemore 1977161-4) - Lemisfero destro viene utilizzato per il
riconoscimento dei volti e lemisfero sinistro
per le voci. - Inoltre dipende anche se le voci sono familiari.
Le voci familiari vengono riconosciute
dallemisfero destro come i volti. - Al momento attuale il metodo uditivo non utilizza
un metodo analitico ma più che altro intuitivo - Non ci sono evidenze nellesaminatore o
caratteristiche numerabili - Non si conoscono gli elementi minimi della
comparazione (Hollien 1990215) - Come può la voce essere discriminata con questo
metodo? - Utilizza parametri qualitativi o quantitativi?
(Aitken 199514-15) - I dati di partenza sono differenti.
- Non basta parlare di contorni formantici.
- Bisogna definire una serie di passi attuabili da
qualunque laboratorio e che conducano allo stesso
risultato
27- Foto A orno di Buongiorno. La prima formante
corrisponde alla o, quindi la r, consonante
occlusiva, seguita dalla n e successivamente di
nuovo la seconda formante della o conclusiva in
quanto non seguita da consonante. Dopo la b
occlusiva segue la prima formante
corrispondente alla i, quindi la inspirazione e
la successiva espirazione con la l e la
successiva formante di e, sempre con la stessa
ripresa di energia tra la inspirazione e la
espirazione conclusiva. ... Nella foto 2 si
evidenzia un inviluppo compresso con la prima
formante (i) e quella terminale, seconda formante
della e confermando la mancanza di armoniche
proprio dalla compressione dellinviluppo e da
esaltazioni particolari. ... Solo in qualche
occasione si è visualizzata lesaltazione di
formanti, rimanendo per il resto piuttosto
contenuta, né si è rilevata esaltazione nella
fase di espirazione finale per la tendenziale
caratteristica di pronuncia veloce e ripresa
rapida nella parte terminale. Infatti in alcuni
oscillogramma non risulta presente tale
manifestazione poiché il soggetto riesce in
ununica espirazione a pronunciare lintera
parola, senza necessità di recupero.
28Approfondimento delMetodo uditivo
- Metodo uditivo attraverso ascoltatori inesperti
- Metodo uditivo attraverso un campione ristretto
di esperti fonetisti (trained phonetician) - Single vs multiple choice
- Familar vs unfamilar voices
29Metodo Uditivo
- Nei metodi uditivi vi è il Panel approach
- comparazione di coppie di frasi e risposta in
percentuale di diversi tipi sia solo percettivi
che fino alla identificazione di parti molto
tecniche ed acustiche. - il Direct processing
- dove un ascoltatore esperto ascolta un intero
brano e identifica la voce. - lAural-Perceptual Approach (cfr. tabella)
30(No Transcript)
31Uditivo sfruttando la memoria a breve termine
- Voce Anonima A
- rumore bianco
- Voce Anonima B
- Rumore bianco
- Voce Anonima A
- Rumore bianco
- Voce Anonima B
- Rumore Bianco
- Voce Nota C
- Rumore bianco
- Voce Nota D
- Rumore bianco
- Voce Anonima B
- Voce Anonima A
- Voce Anonima A
- Voce Anonima B
- Voce Anonima A
- Voce Anonima B
32costruzione test
- Per questa fase possono essere utilizzati diversi
programmi che operano con piste separate - Nella creazione di questi set di confronto
particolare attenzione deve essere posta sul
tentativo di ricreare le stesse condizioni
qualitative. - Ciascun set deve essere composto rispettando la
seguente struttura - set Z voce X silenzio voce Y ( rumore)
- dove
- a) silenzio inserito tra voce X e voce Y è
della durata di 1,2 secondi - b) ( rumore) è il rumore di fondo presente
nelle conversazioni intercettate e che deve
essere aggiunto alla porzione del saggio fonico
con un operazione di mixing - c) voce X e voce Y possono essere
rispettivamente, una porzione della conversazione
intercettata e una del saggio fonico (o
viceversa), sulla base, ovviamente, delle frasi
precedentemente ritenute utili di durata 2,4 sec. - D) rumore è rumore bianco che resetta e prepara
la memoria a breve termine per un nuovo confronto.
33Esempio
34Esecuzione del Test
- Il gruppo di ascoltatori
- Il test deve essere sottoposto ad un campione di
ascoltatori di almeno 50 unità. Gli ascoltatori,
di età media compresa tra i 18 e i 35 anni, sono
provenienti dalle province sia del sospettato che
delle voci anonime (ovviamente questo prevede una
analisi dialettologica preventiva) - Nessuno dei soggetti su specifica richiesta
soffre o ha sofferto di disturbi di tipo uditivo
tali da inficiare le risposte fornite durante il
test. - Modalità e luogo di esecuzione del test
- Il test si svolge allinterno di una camera
silente o anecoica. Le registrazioni del test
devono essere riprodotte in modalità stereofonica
con sorgente sonora frontale. Il test viene
condotto in presenza di un operatore con funzioni
di supervisore e coordinatore del test stesso.
35- Premesse fatte agli ascoltatori
- Prima di sottoporre il test agli ascoltatori,
agli stessi vengono fatte alcune premesse per un
corretto svolgimento delle operazioni di
valutazione loro richieste. Nello specifico viene
loro illustrata brevemente la prova da svolgere - dare una risposta secondo la tabella che segue
soffermando lattenzione solo ed unicamente sulla
somiglianza o meno delle voci ascoltate.
36ETA'__________________ ETA'__________________ SESSO M ? F ? SESSO M ? F ? PROVENIENZA______________ PROVENIENZA______________
Scala di giudizio Scala di giudizio Scala di giudizio Scala di giudizio Scala di giudizio
NO SI
Set confronto 0 25 50 75 100
1
2
37I risultati del Test
- Il test deve essere così composto
- 20 set di confronto, relativi alla comparazione
tra il saggio fonico e le voci anonime - 10 set di confronto, relativi alla comparazione
tra le voci anonime - 10 set di confronto, relativi alla comparazione
tra le voci note - 10 set di controllo di cui con risposta no e
con risposta si. - Vengono accettati e utilizzati al fine della
comparazione uditiva solo quei test che superano
il set di controllo con almeno 25 risposte
corrette su 30. - Solo alla fine il risultato ottenuto, frutto di
una analisi soggettiva, avrà valore scientifico.
38Domande da porsi sul proprio metodo
- Precisely what parameters were used to compare
the samples? - How can the parameters be justified?
- In what way were the parameters quantified?
- What decision procedures were used? What for
exemple, were the threshold? - How can these decision procedures be justified?
- What is the probability of observing the
differences between samples assuming same speaker
origin/different speaker origin?