Title: Besz
1Beszéd alapfrekvencia meghatározása- Pitch
detektor algoritmusok -
Bárdi Tamás doktorandusz eloadása alapján
Pázmány Péter Katolikus Egyetem, Információs
Technológia Kar
2Mi az alapfrekvencia ?
Alapfrekvencia a hangszalagok pillanatnyi
rezgésszámaSzokásos jelölése F0
3Gerjesztés típusok a beszédben
Alapfrekvenciát csak akkor értelmezünk,ha zöngés
(kváziperiodikus) gerjesztés jelen van a
beszédben.
4Pitch is....that attribute of auditory
sensation in terms of which sounds may be ordered
on a musical scale(American Standards
Association, 1960 cited in Moore, 1997)
What is the definition of pitch?
Vagyis - a pitch (hangmagasság) érzeti
mennyiség - az alapfrekvencia (F0) fizikai
mennyiség
5Azonos-e a hangmagasság?
6(No Transcript)
7 8Tones that have the same repetition rate tend to
have the same pitch
Frequency
Time
9Melyik hang alapfrekvenciája nagyobb?
10Miért érdekes az alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi,
érzelmi, hangulati, stb. jelentést
hordoznak.Illusztráció egy rövid beszédfelvétel
a pitch kontúrjával.
11Pitch kontúr eloállítása
- Fo részfeladatok - F0 becslése, - zöngésség
megállapítása - PDA Pitch Detector AlgorithmOlyan algoritmus,
amely a beszédjelbol a fenti értelemben vett
pitch kontúrt képes eloállítani. - VDA Voicing Detection AlgorithmA PDA-nak az a
része, amely a zöngés/zöngétlen szakaszok
megkülönböztetéséért felelos
12Pitch detektorok alkalmazásai
- Low-bitrate speech coding pitch adaptive (pl.
GSM) - Speech Synthesis processing unit inventories
- Linguistic analysis, prosody processing
- Music auto-scoring, editing, midi conversion
13Hogyan áll össze egy pitch kontúr
Haladunk ablakról ablakra - mindegyikre adunk
egy alapfrekvencia becslést - tipikus hossz
20 40 ms - tipikus lépésköz 10 ms -
általában átfedik egymást
14Algoritmusok ACF
Auto Correlation Function (autokorreláció
függvény)
s(t) a beszédjelw az elemzett ablak hossza
15Csúcs kiválasztás ACF-en
Az elemzett beszédablak
Csúcskeresés az ACF-en
16Detekciós hiba lehetoségek
- Nagy hibák oktáv vagy még nagyobb tévesztés az
alapfrekvenciában.Jellemzoen a gyorsan halkuló
vagy hangosodó szakaszokon fordul elo, leginkább
szó elején vagy végén. - Kis hibák apróbb pontatlanságok az
alapfrekvenciában.Jellemzoen a vegyes
gerjesztésu hangoknál fordul elo (zöngés
mássalhangzók) - Zöngés-zöngétlen tévesztés jellemzoen ez is a
vegyes gerjesztésu hangoknál.
17Examples for ACF
18Algoritmusok ASDF
Average Squared Difference Function
s(t) a beszédjelw az elemzett ablak hossza
19Examples for ASDF
20Algoritmusok AMDF
Average Magnitude Difference Function
s(t) a beszédjelw az elemzett ablak hossza
21Algoritmusok Cepstrum
Homomorph analysis
CEPSTRUM(x) IFFT(LOG(FFT(x)))
22Algoritmusok LPC
- Csúcsokat keresünk az LPC hibajelben- ezt
pitch-mark kijelölésnek is hívják
23F0 contour with ACF method
Applying ACF directly on speech signal
Preproc.
24A beszédjel célszeru torzításával csökkenthetjük
a hibák arányát
My preprocessor is a combination of low-pass
filtering and center clipping.
25A Preprocesszor (1)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
26A Preprocesszor (2)
A szurt jel és a középre vágási szint (center
clip level)- a burkoló 40-a
27A Preprocesszor (3)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
28A Preprocesszor (4)
Hangzó illusztráció (s, sz, c eltunik)
29F0 contour with ACF method
Applying ACF after preprocessing the speech
signal
Original
30Egy összetett Pitch Detektor struktúrája
Bemeno beszédjel
Preprocesszor
Meghallgatható
Ablakozás
Basic Extractor- ACF számítása és elemzése -
F0 becslés
V/UV döntés
Pitch kontúr
31A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan
beszéd adatbázisokat lehet használni, melyekben a
zöngés-zöngétlen szakaszok ill. az alapfrekvencia
értékek címkézve vannak. A címkézés automatikussá
vagy fél-automatikussá teheto laryngográf jel
felvételével.
Database 1 Keele Pitch Database Georg
Meyer Keele University
Database 2 FDA Evaluation Database Paul
Bagshow al. Centre for Speech Technology
Research, University of Edinburgh
32Beszédfelvétel és laryngográf jel
33Zöngés-zöngétlen átmenet
34Zöngés-zöngétlen átmenet
35Optimization on the database
Expected decision error rate in terms of the
threshold
After preprocessor
Without preprocessor
36Zöngés/zöngétlen megkülönböztetés
A basic extractor-ban kiválasztott csúcs nagysága
és a beszédablak energiája szolgál döntési
paraméterként.Mindkettot egy-egy küszöbbel
hasonlítjuk össze.
A tévesztési arány keresztkiértékeléssel 2.1
37Összehasonlítás
Bagshaw (1993)
38Rekedt beszédhang pitch kontúrja
39Hangmagasság módosítása
Pitch-Synchronous Overlap-Add (PSOLA) on LPC
residual
eredeti
80
125
167
200
40(No Transcript)
41SD Á hang
Á hang hibajele