Besz - PowerPoint PPT Presentation

About This Presentation
Title:

Besz

Description:

Title: Voicing detection and pitch frequency estimation from speech signals Author: B rdi Tam s Last modified by: Gyuri Created Date: 7/1/2004 11:58:01 AM – PowerPoint PPT presentation

Number of Views:60
Avg rating:3.0/5.0
Slides: 42
Provided by: B365
Category:
Tags: besz | detection | music | pitch

less

Transcript and Presenter's Notes

Title: Besz


1
Beszéd alapfrekvencia meghatározása- Pitch
detektor algoritmusok -
Bárdi Tamás doktorandusz eloadása alapján
Pázmány Péter Katolikus Egyetem, Információs
Technológia Kar
2
Mi az alapfrekvencia ?
Alapfrekvencia a hangszalagok pillanatnyi
rezgésszámaSzokásos jelölése F0
3
Gerjesztés típusok a beszédben
Alapfrekvenciát csak akkor értelmezünk,ha zöngés
(kváziperiodikus) gerjesztés jelen van a
beszédben.
4
Pitch is....that attribute of auditory
sensation in terms of which sounds may be ordered
on a musical scale(American Standards
Association, 1960 cited in Moore, 1997)
What is the definition of pitch?
Vagyis - a pitch (hangmagasság) érzeti
mennyiség - az alapfrekvencia (F0) fizikai
mennyiség
5
Azonos-e a hangmagasság?
  • Egyik hang
  • Másik hang

6
(No Transcript)
7
  • Egyik hang
  • Másik hang

8
Tones that have the same repetition rate tend to
have the same pitch
Frequency
Time
9
Melyik hang alapfrekvenciája nagyobb?
10
Miért érdekes az alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi,
érzelmi, hangulati, stb. jelentést
hordoznak.Illusztráció egy rövid beszédfelvétel
a pitch kontúrjával.
11
Pitch kontúr eloállítása
  • Fo részfeladatok - F0 becslése, - zöngésség
    megállapítása
  • PDA Pitch Detector AlgorithmOlyan algoritmus,
    amely a beszédjelbol a fenti értelemben vett
    pitch kontúrt képes eloállítani.
  • VDA Voicing Detection AlgorithmA PDA-nak az a
    része, amely a zöngés/zöngétlen szakaszok
    megkülönböztetéséért felelos

12
Pitch detektorok alkalmazásai
  • Low-bitrate speech coding pitch adaptive (pl.
    GSM)
  • Speech Synthesis processing unit inventories
  • Linguistic analysis, prosody processing
  • Music auto-scoring, editing, midi conversion

13
Hogyan áll össze egy pitch kontúr
Haladunk ablakról ablakra - mindegyikre adunk
egy alapfrekvencia becslést - tipikus hossz
20 40 ms - tipikus lépésköz 10 ms -
általában átfedik egymást
14
Algoritmusok ACF
Auto Correlation Function (autokorreláció
függvény)
s(t) a beszédjelw az elemzett ablak hossza
15
Csúcs kiválasztás ACF-en
Az elemzett beszédablak
Csúcskeresés az ACF-en
16
Detekciós hiba lehetoségek
  • Nagy hibák oktáv vagy még nagyobb tévesztés az
    alapfrekvenciában.Jellemzoen a gyorsan halkuló
    vagy hangosodó szakaszokon fordul elo, leginkább
    szó elején vagy végén.
  • Kis hibák apróbb pontatlanságok az
    alapfrekvenciában.Jellemzoen a vegyes
    gerjesztésu hangoknál fordul elo (zöngés
    mássalhangzók)
  • Zöngés-zöngétlen tévesztés jellemzoen ez is a
    vegyes gerjesztésu hangoknál.

17
Examples for ACF
18
Algoritmusok ASDF
Average Squared Difference Function
s(t) a beszédjelw az elemzett ablak hossza
19
Examples for ASDF
20
Algoritmusok AMDF
Average Magnitude Difference Function
s(t) a beszédjelw az elemzett ablak hossza
21
Algoritmusok Cepstrum
Homomorph analysis
CEPSTRUM(x) IFFT(LOG(FFT(x)))
22
Algoritmusok LPC
  • Csúcsokat keresünk az LPC hibajelben- ezt
    pitch-mark kijelölésnek is hívják

23
F0 contour with ACF method
Applying ACF directly on speech signal
Preproc.
24
A beszédjel célszeru torzításával csökkenthetjük
a hibák arányát
My preprocessor is a combination of low-pass
filtering and center clipping.
25
A Preprocesszor (1)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
26
A Preprocesszor (2)
A szurt jel és a középre vágási szint (center
clip level)- a burkoló 40-a
27
A Preprocesszor (3)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
28
A Preprocesszor (4)
Hangzó illusztráció (s, sz, c eltunik)
29
F0 contour with ACF method
Applying ACF after preprocessing the speech
signal
Original
30
Egy összetett Pitch Detektor struktúrája
Bemeno beszédjel
Preprocesszor
Meghallgatható
Ablakozás
Basic Extractor- ACF számítása és elemzése -
F0 becslés
V/UV döntés

Pitch kontúr
31
A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan
beszéd adatbázisokat lehet használni, melyekben a
zöngés-zöngétlen szakaszok ill. az alapfrekvencia
értékek címkézve vannak. A címkézés automatikussá
vagy fél-automatikussá teheto laryngográf jel
felvételével.
Database 1 Keele Pitch Database Georg
Meyer Keele University
Database 2 FDA Evaluation Database Paul
Bagshow al. Centre for Speech Technology
Research, University of Edinburgh
32
Beszédfelvétel és laryngográf jel
33
Zöngés-zöngétlen átmenet
34
Zöngés-zöngétlen átmenet
35
Optimization on the database
Expected decision error rate in terms of the
threshold
After preprocessor
Without preprocessor
36
Zöngés/zöngétlen megkülönböztetés
A basic extractor-ban kiválasztott csúcs nagysága
és a beszédablak energiája szolgál döntési
paraméterként.Mindkettot egy-egy küszöbbel
hasonlítjuk össze.
A tévesztési arány keresztkiértékeléssel 2.1
37
Összehasonlítás
Bagshaw (1993)
38
Rekedt beszédhang pitch kontúrja
39
Hangmagasság módosítása
Pitch-Synchronous Overlap-Add (PSOLA) on LPC
residual
eredeti
80
125
167
200
40
(No Transcript)
41
SD Á hang
Á hang hibajele
Write a Comment
User Comments (0)
About PowerShow.com