Title: Traitement de la parole
1Traitement de la parole
2Analyse-synthèse -modélisation physique -modélisat
ion électrique -analyse spectrale -prédiction
linéaire
3La parole
4la parole aux télécoms
5Le codage de la parole
degré de complexité
6Aspects abordés dans ce cours
- modélisation du signal de parole
- le codage direct (PCM, DPCM, APCM, ADPCM)
- la prédiction linéaire (APC,LPC,RPE-LTP)
- la quantification vectorielle (VSELP, CELP,
ACELP) - transformée en sous-bande (MBE,MELP)
- signal audio musical HD, (MPEG, MIDI)
7Traitement de la parole
- -Etude du signal de parole-
8Plan
- production naturelle de la parole
- modélisation physique
- modélisation spectrale, analyse de Fourier
- modélisation paramétrique autorégressive
9I-Production naturelle de la parole
1) un peu de physiologie
narines
Cavité nasale
C. buccale
lèvres
langue
pharynx
oesophage
glotte
larynx
Trachée artère
10Cordes vocales
Le larynx - voisé ou non voisé - fréquence
fondamentale (pitch)
épiglotte
muqueuse
glotte
112) Le rôle des cordes vocales sons voisés
Un son voisé est défini par - sa fréquence
fondamentale (hauteur) - son timbre rapport
entre fondamental et harmonique
123) Représentation simplifiée
souffle
Pharynx
Cavité buccale
E
cordes vocales
Cavité nasale
E
b
on
j
ou
r
134) Les différents types de sons (phonèmes)
Les voyelles (voisées)
Orales
A, E, I, O, U, OU...
Nasales
IN, UN, AN, ON
14(No Transcript)
15Les consonnes
Liquides
souffle
cordes vocales
Pharynx
Cavité buccale
E
R,L
Nasales
souffle
cordes vocales
Pharynx
Cavité buccale
E
M,N,GN
Cavité nasale
E
16Fricatives non voisées
F, S, CH
Fricatives voisées
V, Z, J
cordes vocales
17(No Transcript)
18Occlusives non voisées
P, T, K
souffle
Pharynx
Cavité buccale
E
Occlusives voisées
souffle
Pharynx
Cavité buccale
B, D, G
E
cordes vocales
Cavité nasale
E
19bon
1
0.5
0
-0.5
b
on
-1
0
50
100
150
t (ms)
par
0.1
0.05
0
-0.05
p
a
r
-0.1
0
50
100
150
t (ms)
20II-Modélisation physique
21III-Modélisation harmonique
Modèle de Dudley (VOCODER) également développé en
1930
speech
22DFT
Transformée de Fourier décomposition spectrale
23Quelques propriétés spectrales
- Sons voisés
- Fondamental (pitch)
PSD e
50
40
30
(dB)
20
10
f (kHz)
0
0
1
2
3
4
5
24- Sons non voisés
- Bruit blanc
- (souffle)
25Non stationnarité le spectrogramme
26(No Transcript)
27Signal aléatoire
Transformée de Fourier
Signal
Densité spectrale de puissance
Processus stationnaire, ergodique Plusieurs
réalisations, Energie finie
DSPmean(TSF)
28Processus gaussien non corrélé
Signal
Signal
Fourier
DSP
0
29IV-Modélisation paramétrique
La modélisation paramétrique présentée repose sur
les propriétés de la transformée en z et de la
modélisation ARMA (filtres IIR FIR).
Quelques rappels - transformée en
z -modélisation ARMA -les différentes
représentations des modèles AR
301) La transformée en z
la transformée en Z est aux signaux
échantillonnés ce que la transformée de Laplace
est aux signaux continus (automatisme)
X(z) est définie comme la somme dune série
relative aux échantillons temporels xk
étude du domaine de convergence en fonction de z
linéarité décalage temporel convolution temporelle
cf. cours TSI
31- liens avec la transformée de Fourier discrète
si on restreint lespace de z au cercle unité,
ze(jw) , on retrouve la transformée de Fourier
Im(z)
la périodicité du spectre apparaît naturellement,
en fonction de la fréquence déchantillonnage
f0
zlt1
Re(z)
ffe
32- Fonction de transfert numérique H(z)
yk(xh)k
xk
hk
H(z)
Y(z)X(z).H(z)
X(z)
zexp(j2pf)
zexp(j2pf)
Yd(f)
Hd(f)
Xd(f)
Comme pour la TFD, le passage dans le domaine des
z, permet de remplacer lopération de convolution
par une opération de multiplication gt
mathématiquement très intéressant
33- cas spécifique où H(z) est un polynôme du type
Tous les pôles dans le cercle unité gt stabilité
du filtre Tous les zéros dans le cercle unité
gtphase minimale
remarques a01 pour unicité du modèle ai,
bi réels si signal réel factorisation
numérateur gt q zéros factorisation
dénominateur gt p pôles
34- intérêt de cette structure
expression dans le domaine temporel
Y(z)X(z).H(z)
expression dans le domaine spectral
352) Modélisation ARMA
def. dun gabarit
yk
xk
H (z)
xk
- problème de modélisation
yk
ek
uk
H (z)
-
36- modélisation ARMA (moving average autoregressive)
- les zéros caractérisent la partie moyenne
ajustée. - les pôles caractérisent la partie
autorégressive.
- modélisation MA (moyenne ajustée)
- modèle tout zéros spectres doux
- modélisation AR (autorégressive)
- modèle tout pôles - algorithmes destimation
très rapides. - spectres présentant des pics.
MA AR ordre infini
37p0.85
- Exemple de modèles AR, 1 pôle réel
p0.6
p0.3
réponse impulsionnelle
réponse spectrale
20
1
position des pôles
0.9
0.25
15
0.8
0.7
10
0.6
0.5 -0.5
0
(dB)
0.5
0.4
5
0.3
-0.25
0.2
0
0.1
0
-5
0
50
-0.5
0
0.5
n
38p0.85 0.3
- Exemple de modèles AR, 2 pôles conjugués
p0.85 exp(jp/4)
p0.3 exp(jp/2)
réponse impulsionnelle
réponse spectrale
position des pôles
1
20
0.25
15
0.5 -0.5
0
(dB)
10
0
5
-0.25
0
-1
-5
0
50
-0.5
0
0.5
n
f
r
393) Modélisation ARMA de la parole
- représentation shématique du signal de parole
source
Canal 1
Canal n
E
la source peut être un bruit blanc (sons non
voisés ou chuchotés) ou 1 train périodique pour
les sons voisés.
le conduit vocal peut être représenté par une
succession de tubes acoustiques, (pharynx, cavité
buccale, nasale) modélisés par des résonateurs.
lémetteur, lèvres ou narines, représente une
charge acoustique pour londe sonore qui y
arrive.
40xv(k)
- source pour les sons voisés
G(z)
réponse impulsionnelle
a0.97, b0.85, fE44kHz
41Source (sortie de G(z) ) pour les sons voisés
5
4
3
2
1
0
0
500
1000
1500
2000
2500
n
fE44kHz
42- source pour les sons non voisés
43La réponse acoustique dun tube est caractérisée
par un résonateur.
La réponse dun résonateur est donnée par
modèle AR dordre 2
Chaque résonateur est un formant dont la
fréquence centrale est
Le conduit vocal est donc bien modélisé par un
modèle AR, ordre 2n
44réponse spectrale
réponse impulsionnelle
position des pôles
11kHz
22kHz
0
-11kHz
45- Lémetteur (lèvres ou narines)
La pression observée à une certaine distance des
lèvres est proportionnelle à la dérivée du volume
des lèvres
modèle MA dordre 1
46G(z)
Vn(z)
R(z)
V1(z)
V(z)
qui tend vers 1 modèle AR dordre 2n1, si un des
pôles de G(z) est proche de lunité
47les sons nasalisés font intervenir simultanément
les cavités nasale et bucale.
G(z)
V1(z)
Vn(z)
R(z)
V (z)
R(z)
modèle ARMA
484) En résumé
- complexité de la production de la parole (sons
voisés, occlusifs etc...). - principales propriétés spectrales du signal de
parole (électrique ou acoustique) fondamentale,
harmonique, formants, bande passante vocale, non
stationnarité, stationnarité locale (20ms),
signal stochastique - modèles ARMA dun processus physique (intérêt
pour le codage) - un modèle AR pouvait suffire dans certains cas.
49Traitement de la parole
50Problématique du codage
qualité
débit
complexité
coût
Compression
51Exemple
norme CCITT G.711 Échantillonnage
8kHz Quantification non uniforme (A-law ou
µ-law) sur 8 bits Débit 64kb/s
52A-La quantification scalaire(quantization)
- Léchantillonnage
- La quantification uniforme
- La quantification non uniforme
- La quantification différentielle
- La quantification adaptative
53I-Léchantillonnage(sampling)
Fréquence d échantillonnage ???
54Recouvrement spectral
- Théorème de Shannon fmaxFe/2
- filtre anti-repliement (anti-aliasing)
Initial aliased prefiltered
55II-La quantification
Exemple quantification sur 3 bits
561 quelques définitions
Q(x)
- L nombre de valeurs quantifiées - b nombre
de bits de codage L 2b - x(0) ... x(L)
niveaux de décision - x(0),x(L) seuils -
d(i)x(i)-x(i-1) pas de quantification - y(1)
... y(L) valeurs quantifiées
57- Lerreur de quantification q(x)Q(x)-x
- - granulation erreur liée au nombre de valeurs
choisies (se2) - - saturation erreur liée au dépassement des
seuils (sd2).
- signaux aléatoires
- le signal de parole est considéré comme un signal
aléatoire à - moyenne nulle et variance sx2.
- lerreur de quantification sera donc appelée
bruit de - quantification, en général à moyenne nulle
(0,se2).
58histogramme
59- facteur de charge G
- Gxs/sx
- Rapport Signal-Bruit (RSB ou SNR)
dB
602 la quantification uniforme
définition - y(i)1/2 ( x(i-1)x(i) ) -d(i)
d qlqsoit i -valeurs seuils -xs, xs
propriétés - d2 xs /L - erreur de
granulation elt d/2
61(No Transcript)
62(No Transcript)
633 la quantification non-uniforme
64Transformation non-linéaire préalable
q(n)
Compression des amplitudes
y(n)
Dilatation des amplitudes
x(n)
Signal de distribution uniforme
65Norme Modulation par Impulsions Codées (MIC,
64kbits/s) (Pulse Code Modulation, PCM)
Filtre 100-3400Hz
Éch. fE8kHz
Compression d amplitude
Quantification 8bits
Norme européenne
66Représentation de la loi de compression
67(No Transcript)
68(No Transcript)
69III-La quantification différentielle(differential
quantization)
1 Principe
q(n)
x(n)
y(n)
r(n)
-
x(n-1)
z-1
Décorrélation gtgtgt
702 Gain RSB
Si rx(1)gt0.5, sr2 lt sx2, A nombre de niveaux
constant, on peut réduire le pas de
quantification et améliorer le RSB dans un
rapport sr2/sx2
713 Mise en œuvre codage-décodage
y(n)x(n)e(n) e(n)q(n)e(n-1)
Intégration de l erreur !!!!
72Idée coder la différence par rapport à la
sortie
q(n)
x(n)
y(n)
t(n)
r(n)
-
y(n-1)
y(n-1)
z-1
Remarque OK si le signal est correctement codé
quantification suffisante
73Délocalisation du décodage
q(n)
x(n)
t(n)
y(n)
r(n)
-
y(n-1)
y(n-1)
z-1
z-1
744 Prédiction linéaire
r(n)x(n)-x(n-1)
r(n)x(n)-a1.x(n-1) - a2.x(n-2) - - ap.x(n-p)
- Variance de l erreur faible.
- Erreur bruit blanc
- Justification de ce modèle
- daprès la théorie de la parole
- Quel ordre p ?
- Quels paramètres AR ?
- Quel gain ?
75Modélisation AR
q(n)
x(n)
t(n)
y(n)
r(n)
-
y(n-1)
y(n-1)
P(z)
P(z)
P(z)a1z-1 a2z-2 ... apz-p
762 Système DPCM (MICD)
20ms (160 ech) 8kHz ARMA(6,2) 2-5 bits/ech.
(16-64 kb/s)
77IV-La quantification adaptative(adaptive
quantization)
1 Principe adapter au fur et à mesure les
paramètres (AR, gain) du signal de parole
couplée avec la quantification différentielle
Modulation par Impulsions Codées Différentielle
Adaptative (MICDA) Adaptive Differential Pulse
Code Modulation (ADPCM)
78Disponible sur le site Texas Instrument http//www
.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm
794) En résumé
- système PCM fe8kHz, 8pts/ech. 64kb/sec,
- Système ADPCM fe8kHz, 4lt.lt8pts/ech.
16-64kb/sec
Objectif lt16 kb/sec
Moins de 2bits/point !!!!!!!!
80B-La quantification vectorielle
- Principe de la quantification vectorielle
- Quantification vectorielle prédictive (CELP).
- 1 exemple de codeur utilisé en téléphonie
cellulaire GSM.
81I-La quantification vectorielle(vectorial
quantization)
1 Principe Regrouper les échantillons pour les
transmettre. Mieux rentabiliser chaque bit
utilisé.
Règle du plus proche voisin
Inspection dans une table
V(m)
i(m)
V(m)
V1V L
V1V L
82Exemple pour M2 le codage vectoriel permet
d adapter la répartition des codes.
832 Algorithmie Comment choisir le dicitonnaire
??
algorithme de Lloyd-Max
1- Initialiser le dictionnaire gtgt niveaux 2-
Appliquer la règle du plus proche
voisin (minimiser lerreur de codage) gtgt seuils
implicites 3- Appliquer la règle du centroïde
(minimiser lerreur de décodage) gtgt niveaux 4-
Refaire 2 et 3 jusquà convergence...
84II-LPC (linear predictive coding)
1 Principe Minimiser la corrélation entre
échantillons codés simultanément pour simplifier
le travail du  dictionnaire .
Règle du plus proche voisin
V(m)
Inspection dans une table
R(m)
R(m)
i(m)
V(m)
A(z)
1/A(z)
-
R1R L
R1R L
Optimisation des paramètres AR pour chaque
vecteur
Coder l erreur après modélisation AR
V(z) Bruit(z)/A(z)
852 Codeur prédictif excité par des codes (Code
Excited Linear Predictive Coding, CELP)
Minimiser les distorsions en minimisant
l erreur relative au signal initial.
i(m)
Règle du plus proche voisin
V(m)
Inspection dans une table
V(m)
V1V L
VM
AR(m)
1/A(z)
1/A(z)
R1R L
R1R L
863 Prédiction long terme (long terme prediction,
LTP) Ajouter un 2ième étage de prédiction
pour prendre en compte la périodicité des sons
voisés....
4 Introduction d un facteur perceptuel
(préfiltrage W(z)) Utiliser les principes de
masquage du son pour concentrer l erreur dans
les zones non perceptuelles (cf. cours sons
audio).
87III-Codeurs GSM
passe-haut (gt80Hz)
Estimation AR
Prédiction à long terme
Modélisation du bruit
Paramètres AR
Paramètres b,Q
Index du dictionnaire
88Norme GSM, FR (Full Rate) (RPE-LTP, Regular
Pulse Excitation with Long Term Prediction)
1- Pré-accentuation H(z)(1-0.86z-1 ) 2- LPC
ordre 8, algorithme de Schur sur
N160échantillons. Codage des coefficients sur
36bits/fen160ech 1.8kbit/s 3- Prédiction
à long terme (2 coefs b et Q) sur fenêtres
N40éch. Codage des coefficients
(72)bits/fen40ech 1.8kbit/s 4- Sous
échantillonnage par 3 gt4 signaux de 13 éch.
On garde seulement le plus énergétique (2bits).
Quantification non uniforme sur 3bits des 13
éch. Quantification non uniforme du facteur
déchelle sur 6bits. Codage (23136)bits
/fen40ech 9.4kbit/s
13kbit/s
89Norme GSM, EFR (Enhanced Full Rate) (CELP Code
Excited Linear Prediction) (GSM 06.60 version
6.0.1, release 1997)
http//www.etsi.org/
P/gorceGSM_juillet2000
1- Pré-filtrage (passe-haut, 80Hz) 2- LPC ordre
10, par fenêtres pondérées, N160 échantillons
Codage des coefficients sur 38bits/fen160ech
1.9kbit/s 3- Prédiction à long terme (2 coefs b
et Q) sur fenêtres N40éch. Codage des
coefficients (96 4)bits/fen 40ech
2.3kbit/s 4- Dictionnaire à structure
algébrique. Codage des coefficients 35 bits/fen
40ech 7 kbit/s Codage du gain statique
5bits/fen 40 ech 1 kbit/s
12.2kbit/s
902- LPC ordre 10, par fenêtres pondérées, N160
échantillons
f1
f2
f3
f4
Estimation d un modèle AR ordre 10 après
fenêtrage WI(n) et WII(n) - directement
modèles pour les sous-fenêtres f2 et f4. - par
interpolation modèles pour les sous-fenêtres f1
et f3.
91Codage des coefficients AR (2 vecteurs) sous
forme d une matrice, pour les 2 fenêtres. (on
code ensemble les modèles des 4 sous fenêtres
d un  frameÂ
Rem on ne code pas directement les coefficients
AR, mais des coefficients équivalents dans un
espace fréquentiel équivalent. (LSF, linear
spectral frequencies)
On obtient en sortie un bruit
Filtre de blanchiment
Filtre de synthèse quantifié
922b- filtrage perceptuel
Limiter le bruit de quantification dans les zones
fréquentielles à haute énergie (formants)
s(t)
S(z)
W(z)
93Résumé de la phase de prédiction linéaire
Â(z)
A(z)/A(z/g)
s(n) 160 éch.
w(n)
w(n)
Paramètres AR définis pour des fenêtres de 40
éch. (5ms) Â(z)1 a1.z-1 a2.z-2 a10.z-10
Transmission et codage des paramètres d une
fenêtre sur 2 regroupement par 2 codage sur
38bits pour 160 échantillons (20ms), de la
différence avec les vecteurs précédents.
94s(n)
w(n)
Reste une certaine périodicité gtgtgt Prédiction
long terme
953- Prédiction à long terme
 pitch synthesis filterÂ
y(n)e(n)b.y(n-Q)
i.e. périodicité de période Q.
Filtrage
B(z)
w(n) 160 éch.
w(n)
Pour b 4bits / sous-fenêtre Pour Q, codage sur
les sous-fenêtres - codage f1 et f3 (9bits x2)
- codage de la différence pour f2 et f4 (6bits
x2).
Paramètres b,Q définis pour des fenêtres de 40
éch. B(z)1-bz-Q
964- Codage Par dictionnaire algébrique
Dans une fenêtre, codage des 10 / 40 échantillons
les plus forts 10 ech 5 mots de 2 impulsions
97Codage de l erreur W(n) par mots codes
c1c2c3c4c5
Minimisation de l erreur de synthèse
Mot Code i 2 impulsions gt - position de
chaque impulsion (8 positions) sur 3bits. -
signe de la première sur 1 bit (l autre signe
est déduit).
code Gray 000 001 011 010
110 111 101 100
Code à transmettre 1 101 011
7 bits par mot code gt 35 bits / ssfen
Codage d un coefficient de gain statique
5 bits /ssfen
Conservation de l énergie du signal
98En résumé
- Codage de base (PCM) 64kbit/s. qualité
téléphonique (pas audio). - Codage adaptatif différentiel (ADPCM), même
qualité à 32kbit/s. Acceptable jusquà 16kbit/s. - Codage vectoriel regrouper les valeurs à coder
pour diminuer la redondance. Autour de 10kbit/s.
(militaire 4.kbit/s). - Complexité des méthodes hybrides. Augmentation
des performances. Codage en sous-bandes???
99Traitement de la parole
100Problématique du codage
qualité
débit
complexité
coût
Compression
101A-Qu est-ce qu un son ?
- La parole (cf. cours précédent)
- La musique
- Les autres sons
102I-La parole(résumé)
Propriétés connues - fmax3,4kHz (gt
Fe8kHz) - Processus de formation (formants,
pitch, harmoniques) - Modélisation AR
performante. - Loi de distribution Laplace
(gtA-law, µ-law)
Objectif transmission d un message
compréhensible et reconnaissance du locuteur
Mise en œuvre de codeurs spécifiques très
performants
103II-La musique(naturelle ou synthétique)
1 Les notes pitch, fondamental, tonalitédo,
re.
même note, octave différente
La 440Hz
La 220Hz
La 110Hz
f
0
1 octave x2
1042 Les harmoniques
1
0
-1
0
5
10
15
20
25
1053 Le timbre (forme d onde waveform)
1064 Musique
- Somme de plusieurs notes (pitch) - Différentes
formes d ondes (les instruments) chant parole
modulée.
IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE
107III-Les autres sons
Applications TVHD, Vidéo, Multimédia .
Les bruits ambiants, les onomatopées,
etc. Bruits sourds (chute d eau) Bruits
brusques (bris de glace)
transmettre tout ce qui est susceptible d être
perçu par l auditeur.
108B-Codage  AudioÂ
?
codeur
décodeur
Émetteur
Récepteur
NÂ autoriser que les pertes non perceptibles
109I-Modèle psychoacoustique
1 Bande passante Seuil daudibilité dune
sinusoïde
BP20Hz 20kHz
fEgt40kHz
1103 Masquage fréquentiel
(f1,P180 dB) sinusoïde masquante (f2,P2) P2
à émettre pour entendre f2
1112 Bandes critiques fréquentielles (critical
bands)
Détection de fdf ??
Passage des Hertz au Bark
10
Bark
1
10
100
1k
10k
f(Hz)
112Courbes de masquage gtgt segments de droite
indépendante de f1
113Exemple de bande critique en BF (120Hz)
2
1.8
1.6
1.4
1 bark
1.2
1
0.8
0.6
Df
0.4
0.2
0
20
40
60
80
100
120
140
160
180
200
32 bandes critiques de 20 Hz à 20 kHz, Df
80-3500 Hz
1144 Masquage temporel
Après un son relativement fort, masquage de la
bande critique (et voisines) pendant un certain
délai.
1154 Masquage fréquentiel et temporel
1165 Nouvelle approche de compression utilisée
dans MPEG
Principe utiliser les propriétés de masquage de
certaines zones de fréquence pour réduire le
débit nécessaire. Pertes non perceptibles Pass
age dans le domaine de Fourier nécessaire Cod
age en sous-bandes
117II-norme MPEG Audio
1) Etat des lieux
Qualité Audio Numérique 44.1kHz 16bit (96dB
relativement au seuil d audibilité) loi de
distribution inconnue (pas de A-law) stéréo
Débit de 1,4Mbit/s
1182) Objectifs
- Stockage (CD) morceau de musique de 50Â
- 1.4Mbit/s50605.05Gbit630MO
- Transmission (TVHD, multimedia) temps réel
- diminuer le débit pour améliorer les capacités
de transmission.
Compression sans pertes audibles Normalisation
nécessaire
1193) MPEG Audio
Moving Pictures Coding Experts Group
http//drogo.cselt.it/mpeg/
Janvier 1988 naissance, groupe mandaté par
ISO/EIC MPEG normalisation vidéo / audio /
system
MPEG-1 qualité VHS sur CD-rom (352x288 CD
audio _at_ 1.5Mbit/s) MPEG-2 TVHS, multimedia
gtTV numérique AAC (fin Avril97) Advanced
Audio Coding MPEG-4 diminuer le débit coder
infos complémentaires gtMultimédia
1204) MPEG-1 audio
3 couches définies (qualité/complexité du
codage) pour qualité audio layer 1 384
kb/s 1/4 layer 2 256192 kb/s 1/6..1/8 layer
3 128112 kb/s 1/10..1/12
Tx de réduction
Mais différentes fréquences d échantillonnage
et débits autorisés (32kHz, 44.1kHz, 48kHz)
121Qualité de compression, couche 3
sound quality bandwidth mode bitrate
reduction
ratio telephone sound 2.5 kHz mono 8 kbps
961 better than shortwave 4.5 kHz
mono 16 kbps 481 better than
AM radio 7.5 kHz mono 32 kbps
241 similar to FM radio 11 kHz stereo
56...64 kbps 26...241 near-CD 15 kHz
stereo 96 kbps 161 CD
gt15 kHz stereo 112..128kbps
14..121 ) Fraunhofer uses a non-ISO extension
of MPEG Layer-3 for enhanced performance ("MPEG
2.5")
From the Fraunhofer Institute for Integrated
Circuits, Applied Electronics Center, IIS-A,
http//www.iis.fhg.de/about/index.html
122Principe général de MPEG-1 (et suivants)
Quantification - Codage
Filtres Décomposition en bandes critiques
Allocation des bits (f(s²))
in
Exploitation masquage
123384 ech.
Layer 1 Masquage fréquentiel QScal Layer 2
Masquage temporel Layer 3 Redondance stéréo
Huffman
124III-Codage en sous-bandes
1) Sous-échantillonnage
125Spectre d un signal échantillonné
Composante continue ??
126Recouvrement spectral
Sous-échantillonnage
A/2
f0
-fE
fE
fE/2
-fE/2
127Filtre anti-repliement
fE/4
A/2
f0
-fE
fE
fE/2
-fE/2
1282) Décomposition en 2 sous-bandes
Périodicité!!!
129Représentation des 2 sous-bandes
130Sous-échantillonnage des 2 sous-bandes
A/2
f0
-fE
fE
fE/2
-fE/2
A/2
f0
-fE
fE
fE/2
-fE/2
1313) Sur-échantillonnage
132dans le domaine temporel
133Filtre passe-basinterpolateur
A
f0
-fE
fE
fE/2
-fE/2
2.fE
-2.fE
1344) Sous / Sur-échantillonnage d un facteur m
perte d information
x(n)
xSE(n)
H(z)
m
xSE(n)
x(n)
m
F(z)
135Schéma de principe de la décomposition en 2
sous-bandes
x0(n)
x(n)
H0(z)
N/2 points
N points
x1(n)
H1(z)
N/2 points
H0 filtre réel 0 fe/4 H1 filtre réel
fe/4 fe/2
1365) Généralisation en N sous-bandes
N/m points
x0(n)
x(n)
F0(z)
H0(z)
N points
x1(n)
F1(z)
H1(z)
xm(n)
Fm(z)
Hm(z)
137(No Transcript)
1386) Les problèmes techniques
1) Le choix des filtres H parfaits gt IIR 2)
Approximation gt choix des filtres F
adaptés (transformée en Cosinus) 3) Sélectionner
la bonne longueur de vecteur initial 4) Nombre de
bandes de fréquences
1397) Les progrès MPEG-2, 4
Utiliser le modèle psycho-acoustique pour choisir
le nombre de bits par bande de fréquence. Utilise
r une répartition non homogène de l échelle des
fréquences. Utiliser la redondance entre voies
stéréo (ou 5 voies, surround). Intégration du
codage vectoriel / prédiction linéaire sur
les bandes de fréquences.
140IV-Conclusion
Codage parole (téléphonie) full-duplex
Codage audio (musique)
Un bon codeur répondre à des contraintes
spécifiques au plus près.
Interactions entre vectoriel / sous-bandes