Traitement de la parole - PowerPoint PPT Presentation

About This Presentation
Title:

Traitement de la parole

Description:

intelligence artificielle. Com. Multimodale -multim dia -son-image -les 5 sens ... la quantification vectorielle (VSELP, CELP, ACELP) transform e en ... – PowerPoint PPT presentation

Number of Views:1814
Avg rating:3.0/5.0
Slides: 141
Provided by: jmg81
Category:

less

Transcript and Presenter's Notes

Title: Traitement de la parole


1
Traitement de la parole
  • -Introduction-

2
Analyse-synthèse -modélisation physique -modélisat
ion électrique -analyse spectrale -prédiction
linéaire
3
La parole
4
la parole aux télécoms
5
Le codage de la parole
degré de complexité
6
Aspects abordés dans ce cours
  • modélisation du signal de parole
  • le codage direct (PCM, DPCM, APCM, ADPCM)
  • la prédiction linéaire (APC,LPC,RPE-LTP)
  • la quantification vectorielle (VSELP, CELP,
    ACELP)
  • transformée en sous-bande (MBE,MELP)
  • signal audio musical HD, (MPEG, MIDI)

7
Traitement de la parole
  • -Etude du signal de parole-

8
Plan
  • production naturelle de la parole
  • modélisation physique
  • modélisation spectrale, analyse de Fourier
  • modélisation paramétrique autorégressive

9
I-Production naturelle de la parole
1) un peu de physiologie
narines
Cavité nasale
C. buccale
lèvres
langue
pharynx
oesophage
glotte
larynx
Trachée artère
10
Cordes vocales
Le larynx - voisé ou non voisé - fréquence
fondamentale (pitch)
épiglotte
muqueuse
glotte
11
2) Le rôle des cordes vocales sons voisés
Un son voisé est défini par - sa fréquence
fondamentale (hauteur) - son timbre rapport
entre fondamental et harmonique
12
3) Représentation simplifiée
souffle
Pharynx
Cavité buccale
E
cordes vocales
Cavité nasale
E
b
on
j
ou
r
13
4) Les différents types de sons (phonèmes)
Les voyelles (voisées)
Orales
A, E, I, O, U, OU...
Nasales
IN, UN, AN, ON
14
(No Transcript)
15
Les consonnes
Liquides
souffle
cordes vocales
Pharynx
Cavité buccale
E
R,L
Nasales
souffle
cordes vocales
Pharynx
Cavité buccale
E
M,N,GN
Cavité nasale
E
16
Fricatives non voisées
F, S, CH
Fricatives voisées
V, Z, J
cordes vocales
17
(No Transcript)
18
Occlusives non voisées
P, T, K
souffle
Pharynx
Cavité buccale
E
Occlusives voisées
souffle
Pharynx
Cavité buccale
B, D, G
E
cordes vocales
Cavité nasale
E
19
bon
1
0.5
0
-0.5
b
on
-1
0
50
100
150
t (ms)
par
0.1
0.05
0
-0.05
p
a
r
-0.1
0
50
100
150
t (ms)
20
II-Modélisation physique
21
III-Modélisation harmonique
Modèle de Dudley (VOCODER) également développé en
1930
speech
22
DFT
Transformée de Fourier décomposition spectrale
23
Quelques propriétés spectrales
  • Sons voisés
  • Fondamental (pitch)

PSD e
50
40
30
(dB)
20
10
f (kHz)
0
0
1
2
3
4
5
24
  • Sons non voisés
  • Bruit blanc
  • (souffle)

25
Non stationnarité le spectrogramme
26
(No Transcript)
27
Signal aléatoire
Transformée de Fourier
Signal
Densité spectrale de puissance
Processus stationnaire, ergodique Plusieurs
réalisations, Energie finie
DSPmean(TSF)
28
Processus gaussien non corrélé
Signal
Signal
Fourier
DSP
0
29
IV-Modélisation paramétrique
La modélisation paramétrique présentée repose sur
les propriétés de la transformée en z et de la
modélisation ARMA (filtres IIR FIR).
Quelques rappels - transformée en
z -modélisation ARMA -les différentes
représentations des modèles AR
30
1) La transformée en z
la transformée en Z est aux signaux
échantillonnés ce que la transformée de Laplace
est aux signaux continus (automatisme)
X(z) est définie comme la somme dune série
relative aux échantillons temporels xk
  • déf.

étude du domaine de convergence en fonction de z
  • prop.

linéarité décalage temporel convolution temporelle
cf. cours TSI
31
  • liens avec la transformée de Fourier discrète

si on restreint lespace de z au cercle unité,
ze(jw) , on retrouve la transformée de Fourier
Im(z)
la périodicité du spectre apparaît naturellement,
en fonction de la fréquence déchantillonnage
f0
zlt1
Re(z)
ffe
32
  • Fonction de transfert numérique H(z)

yk(xh)k
xk
hk
H(z)
Y(z)X(z).H(z)
X(z)
zexp(j2pf)
zexp(j2pf)
Yd(f)
Hd(f)
Xd(f)
Comme pour la TFD, le passage dans le domaine des
z, permet de remplacer lopération de convolution
par une opération de multiplication gt
mathématiquement très intéressant
33
  • cas spécifique où H(z) est un polynôme du type

Tous les pôles dans le cercle unité gt stabilité
du filtre Tous les zéros dans le cercle unité
gtphase minimale
remarques a01 pour unicité du modèle ai,
bi réels si signal réel factorisation
numérateur gt q zéros factorisation
dénominateur gt p pôles
34
  • intérêt de cette structure

expression dans le domaine temporel
Y(z)X(z).H(z)
expression dans le domaine spectral
35
2) Modélisation ARMA
def. dun gabarit
  • problème de filtrage

yk
xk
H (z)
xk
  • problème de modélisation


yk
ek
uk
H (z)
-
36
  • modélisation ARMA (moving average autoregressive)

- les zéros caractérisent la partie moyenne
ajustée. - les pôles caractérisent la partie
autorégressive.
  • modélisation MA (moyenne ajustée)

- modèle tout zéros  spectres doux
  • modélisation AR (autorégressive)

- modèle tout pôles - algorithmes destimation
très rapides. - spectres présentant des pics.
MA AR ordre infini
37
p0.85
  • Exemple de modèles AR, 1 pôle réel

p0.6
p0.3
réponse impulsionnelle
réponse spectrale
20
1
position des pôles
0.9
0.25
15
0.8
0.7
10
0.6
0.5 -0.5
0
(dB)
0.5
0.4
5
0.3
-0.25
0.2
0
0.1
0
-5
0
50
-0.5
0
0.5
n
38
p0.85 0.3
  • Exemple de modèles AR, 2 pôles conjugués

p0.85 exp(jp/4)
p0.3 exp(jp/2)
réponse impulsionnelle
réponse spectrale
position des pôles
1
20
0.25
15
0.5 -0.5
0
(dB)
10
0
5
-0.25
0
-1
-5
0
50
-0.5
0
0.5
n
f
r
39
3) Modélisation ARMA de la parole
  • représentation shématique du signal de parole

source
Canal 1
Canal n
E
la source peut être un bruit blanc (sons non
voisés ou chuchotés) ou 1 train périodique pour
les sons voisés.
le conduit vocal peut être représenté par une
succession de tubes acoustiques, (pharynx, cavité
buccale, nasale) modélisés par des résonateurs.
lémetteur, lèvres ou narines, représente une
charge acoustique pour londe sonore qui y
arrive.
40
xv(k)
  • source pour les sons voisés

G(z)
réponse impulsionnelle
a0.97, b0.85, fE44kHz
41
Source (sortie de G(z) ) pour les sons voisés
5
4
3
2
1
0
0
500
1000
1500
2000
2500
n
fE44kHz
42
  • source pour les sons non voisés

43
  • canal ou tube acoustique

La réponse acoustique dun tube est caractérisée
par un résonateur.
La réponse dun résonateur est donnée par
modèle AR dordre 2
Chaque résonateur est un formant dont la
fréquence centrale est
Le conduit vocal est donc bien modélisé par un
modèle AR, ordre 2n
44
réponse spectrale
réponse impulsionnelle
position des pôles
11kHz
22kHz
0
-11kHz
45
  • Lémetteur (lèvres ou narines)

La pression observée à une certaine distance des
lèvres est proportionnelle à la dérivée du volume
des lèvres
modèle MA dordre 1
46
  • Son voisé

G(z)
Vn(z)
R(z)
V1(z)
V(z)
qui tend vers 1 modèle AR dordre 2n1, si un des
pôles de G(z) est proche de lunité
47
  • Son nasalisé

les sons nasalisés font intervenir simultanément
les cavités nasale et bucale.
G(z)
V1(z)
Vn(z)
R(z)
V (z)
R(z)
modèle ARMA
48
4) En résumé
  • complexité de la production de la parole (sons
    voisés, occlusifs etc...).
  • principales propriétés spectrales du signal de
    parole (électrique ou acoustique) fondamentale,
    harmonique, formants, bande passante vocale, non
    stationnarité, stationnarité locale (20ms),
    signal stochastique
  • modèles ARMA dun processus physique (intérêt
    pour le codage)
  • un modèle AR pouvait suffire dans certains cas.

49
Traitement de la parole
  • -Le codage de la parole-

50
Problématique du codage
qualité
débit
complexité
coût
Compression
51
Exemple
norme CCITT G.711 Échantillonnage
8kHz Quantification non uniforme (A-law ou
µ-law) sur 8 bits Débit 64kb/s
52
A-La quantification scalaire(quantization)
  • Léchantillonnage
  • La quantification uniforme
  • La quantification non uniforme
  • La quantification différentielle
  • La quantification adaptative

53
I-Léchantillonnage(sampling)
Fréquence d échantillonnage ???
54
Recouvrement spectral
  • Théorème de Shannon fmaxFe/2
  • filtre anti-repliement (anti-aliasing)

Initial aliased prefiltered
55
II-La quantification
Exemple quantification sur 3 bits
56
1 quelques définitions
  • La quantification

Q(x)
- L nombre de valeurs quantifiées - b nombre
de bits de codage L 2b - x(0) ... x(L)
niveaux de décision - x(0),x(L) seuils -
d(i)x(i)-x(i-1) pas de quantification - y(1)
... y(L) valeurs quantifiées
57
  • Lerreur de quantification q(x)Q(x)-x
  • - granulation erreur liée au nombre de valeurs
    choisies (se2)
  • - saturation erreur liée au dépassement des
    seuils (sd2).
  • signaux aléatoires
  • le signal de parole est considéré comme un signal
    aléatoire à
  • moyenne nulle et variance sx2.
  • lerreur de quantification sera donc appelée
    bruit de
  • quantification, en général à moyenne nulle
    (0,se2).

58
histogramme
59
  • facteur de charge G
  • Gxs/sx
  • Rapport Signal-Bruit (RSB ou SNR)

dB
60
2 la quantification uniforme
définition - y(i)1/2 ( x(i-1)x(i) ) -d(i)
d qlqsoit i -valeurs seuils -xs, xs
propriétés - d2 xs /L - erreur de
granulation elt d/2
61
(No Transcript)
62
(No Transcript)
63
3 la quantification non-uniforme
64
Transformation non-linéaire préalable
q(n)
Compression des amplitudes
y(n)
Dilatation des amplitudes

x(n)
Signal de distribution uniforme
65
Norme Modulation par Impulsions Codées (MIC,
64kbits/s) (Pulse Code Modulation, PCM)
Filtre 100-3400Hz
Éch. fE8kHz
Compression d amplitude
Quantification 8bits
Norme européenne
66
Représentation de la loi de compression
67
(No Transcript)
68
(No Transcript)
69
III-La quantification différentielle(differential
quantization)
1 Principe
q(n)
x(n)
y(n)

r(n)
-
x(n-1)
z-1
Décorrélation gtgtgt
70
2 Gain RSB
Si rx(1)gt0.5, sr2 lt sx2, A nombre de niveaux
constant, on peut réduire le pas de
quantification et améliorer le RSB dans un
rapport sr2/sx2
71
3 Mise en œuvre codage-décodage
y(n)x(n)e(n) e(n)q(n)e(n-1)
Intégration de l erreur !!!!
72
Idée coder la différence par rapport à la
sortie
q(n)
x(n)

y(n)
t(n)
r(n)
-

y(n-1)
y(n-1)
z-1
Remarque OK si le signal est correctement codé
quantification suffisante
73
Délocalisation du décodage
q(n)
x(n)

t(n)
y(n)
r(n)
-

y(n-1)
y(n-1)
z-1
z-1

74
4 Prédiction linéaire
r(n)x(n)-x(n-1)
r(n)x(n)-a1.x(n-1) - a2.x(n-2) - - ap.x(n-p)
  • Variance de l erreur faible.
  • Erreur bruit blanc
  • Justification de ce modèle
  • daprès la théorie de la parole
  • Quel ordre p ?
  • Quels paramètres AR ?
  • Quel gain ?

75
Modélisation AR
q(n)
x(n)

t(n)
y(n)
r(n)
-

y(n-1)
y(n-1)
P(z)
P(z)

P(z)a1z-1 a2z-2 ... apz-p
76
2 Système DPCM (MICD)
20ms (160 ech) 8kHz ARMA(6,2) 2-5 bits/ech.
(16-64 kb/s)
77
IV-La quantification adaptative(adaptive
quantization)
1 Principe adapter au fur et à mesure les
paramètres (AR, gain) du signal de parole
couplée avec la quantification différentielle
Modulation par Impulsions Codées Différentielle
Adaptative (MICDA) Adaptive Differential Pulse
Code Modulation (ADPCM)
78
Disponible sur le site Texas Instrument http//www
.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm
79
4) En résumé
  • système PCM fe8kHz, 8pts/ech. 64kb/sec,
  • Système ADPCM fe8kHz, 4lt.lt8pts/ech.
    16-64kb/sec

Objectif lt16 kb/sec
Moins de 2bits/point !!!!!!!!
80
B-La quantification vectorielle
  • Principe de la quantification vectorielle
  • Quantification vectorielle prédictive (CELP).
  • 1 exemple de codeur utilisé en téléphonie
    cellulaire GSM.

81
I-La quantification vectorielle(vectorial
quantization)
1 Principe Regrouper les échantillons pour les
transmettre. Mieux rentabiliser chaque bit
utilisé.
Règle du plus proche voisin
Inspection dans une table
V(m)
i(m)
V(m)
V1V L
V1V L
82
Exemple pour M2 le codage vectoriel permet
d adapter la répartition des codes.
83
2 Algorithmie Comment choisir le dicitonnaire
??
algorithme de Lloyd-Max
1- Initialiser le dictionnaire gtgt niveaux 2-
Appliquer la règle du plus proche
voisin (minimiser lerreur de codage) gtgt seuils
implicites 3- Appliquer la règle du centroïde
(minimiser lerreur de décodage) gtgt niveaux 4-
Refaire 2 et 3 jusquà convergence...
84
II-LPC (linear predictive coding)
1 Principe Minimiser la corrélation entre
échantillons codés simultanément pour simplifier
le travail du  dictionnaire .
Règle du plus proche voisin
V(m)
Inspection dans une table
R(m)
R(m)
i(m)
V(m)
A(z)
1/A(z)
-
R1R L
R1R L
Optimisation des paramètres AR pour chaque
vecteur
Coder l erreur après modélisation AR
V(z) Bruit(z)/A(z)
85
2 Codeur prédictif excité par des codes (Code
Excited Linear Predictive Coding, CELP)
Minimiser les distorsions en minimisant
l erreur relative au signal initial.
i(m)
Règle du plus proche voisin
V(m)
Inspection dans une table
V(m)
V1V L
VM
AR(m)
1/A(z)
1/A(z)
R1R L
R1R L
86
3 Prédiction long terme (long terme prediction,
LTP) Ajouter un 2ième étage de prédiction
pour prendre en compte la périodicité des sons
voisés....
4 Introduction d un facteur perceptuel
(préfiltrage W(z)) Utiliser les principes de
masquage du son pour concentrer l erreur dans
les zones non perceptuelles (cf. cours sons
audio).
87
III-Codeurs GSM
passe-haut (gt80Hz)
Estimation AR
Prédiction à long terme
Modélisation du bruit
Paramètres AR
Paramètres b,Q
Index du dictionnaire
88
Norme GSM, FR (Full Rate) (RPE-LTP, Regular
Pulse Excitation with Long Term Prediction)
1- Pré-accentuation H(z)(1-0.86z-1 ) 2- LPC
ordre 8, algorithme de Schur sur
N160échantillons. Codage des coefficients sur
36bits/fen160ech 1.8kbit/s 3- Prédiction
à long terme (2 coefs b et Q) sur fenêtres
N40éch. Codage des coefficients
(72)bits/fen40ech 1.8kbit/s 4- Sous
échantillonnage par 3 gt4 signaux de 13 éch.
On garde seulement le plus énergétique (2bits).
Quantification non uniforme sur 3bits des 13
éch. Quantification non uniforme du facteur
déchelle sur 6bits. Codage (23136)bits
/fen40ech 9.4kbit/s
13kbit/s
89
Norme GSM, EFR (Enhanced Full Rate) (CELP Code
Excited Linear Prediction) (GSM 06.60 version
6.0.1, release 1997)
http//www.etsi.org/
P/gorceGSM_juillet2000
1- Pré-filtrage (passe-haut, 80Hz) 2- LPC ordre
10, par fenêtres pondérées, N160 échantillons
Codage des coefficients sur 38bits/fen160ech
1.9kbit/s 3- Prédiction à long terme (2 coefs b
et Q) sur fenêtres N40éch. Codage des
coefficients (96 4)bits/fen 40ech
2.3kbit/s 4- Dictionnaire à structure
algébrique. Codage des coefficients 35 bits/fen
40ech 7 kbit/s Codage du gain statique
5bits/fen 40 ech 1 kbit/s
12.2kbit/s
90
2- LPC ordre 10, par fenêtres pondérées, N160
échantillons
f1
f2
f3
f4
Estimation d un modèle AR ordre 10 après
fenêtrage WI(n) et WII(n) - directement
modèles pour les sous-fenêtres f2 et f4. - par
interpolation modèles pour les sous-fenêtres f1
et f3.
91
Codage des coefficients AR (2 vecteurs) sous
forme d une matrice, pour les 2 fenêtres. (on
code ensemble les modèles des 4 sous fenêtres
d un  frame 
Rem on ne code pas directement les coefficients
AR, mais des coefficients équivalents dans un
espace fréquentiel équivalent. (LSF, linear
spectral frequencies)
On obtient en sortie un bruit
Filtre de blanchiment
Filtre de synthèse quantifié
92
2b- filtrage perceptuel
Limiter le bruit de quantification dans les zones
fréquentielles à haute énergie (formants)
s(t)
S(z)
W(z)
93
Résumé de la phase de prédiction linéaire
Â(z)
A(z)/A(z/g)
s(n) 160 éch.
w(n)
w(n)
Paramètres AR définis pour des fenêtres de 40
éch. (5ms) Â(z)1 a1.z-1 a2.z-2 a10.z-10
Transmission et codage des paramètres d une
fenêtre sur 2 regroupement par 2 codage sur
38bits pour 160 échantillons (20ms), de la
différence avec les vecteurs précédents.
94
s(n)
w(n)
Reste une certaine périodicité gtgtgt Prédiction
long terme
95
3- Prédiction à long terme
 pitch synthesis filter 
y(n)e(n)b.y(n-Q)
i.e. périodicité de période Q.
Filtrage
B(z)
w(n) 160 éch.
w(n)
Pour b 4bits / sous-fenêtre Pour Q, codage sur
les sous-fenêtres - codage f1 et f3 (9bits x2)
- codage de la différence pour f2 et f4 (6bits
x2).
Paramètres b,Q définis pour des fenêtres de 40
éch. B(z)1-bz-Q
96
4- Codage Par dictionnaire algébrique
Dans une fenêtre, codage des 10 / 40 échantillons
les plus forts 10 ech 5 mots de 2 impulsions
97
Codage de l erreur W(n) par mots codes
c1c2c3c4c5
Minimisation de l erreur de synthèse
Mot Code i 2 impulsions gt - position de
chaque impulsion (8 positions) sur 3bits. -
signe de la première sur 1 bit (l autre signe
est déduit).
code Gray 000 001 011 010
110 111 101 100
Code à transmettre 1 101 011
7 bits par mot code gt 35 bits / ssfen
Codage d un coefficient de gain statique
5 bits /ssfen
Conservation de l énergie du signal
98
En résumé
  • Codage de base (PCM) 64kbit/s. qualité
    téléphonique (pas audio).
  • Codage adaptatif différentiel (ADPCM), même
    qualité à 32kbit/s. Acceptable jusquà 16kbit/s.
  • Codage vectoriel regrouper les valeurs à coder
    pour diminuer la redondance. Autour de 10kbit/s.
    (militaire 4.kbit/s).
  • Complexité des méthodes hybrides. Augmentation
    des performances. Codage en sous-bandes???

99
Traitement de la parole
  • -Le codage du son-

100
Problématique du codage
qualité
débit
complexité
coût
Compression
101
A-Qu est-ce qu un son ?
  • La parole (cf. cours précédent)
  • La musique
  • Les autres sons

102
I-La parole(résumé)
Propriétés connues - fmax3,4kHz (gt
Fe8kHz) - Processus de formation (formants,
pitch, harmoniques) - Modélisation AR
performante. - Loi de distribution Laplace
(gtA-law, µ-law)
Objectif transmission d un message
compréhensible et reconnaissance du locuteur
Mise en œuvre de codeurs spécifiques très
performants
103
II-La musique(naturelle ou synthétique)
1 Les notes pitch, fondamental, tonalitédo,
re.
même note, octave différente
La 440Hz
La 220Hz
La 110Hz
f
0
1 octave x2
104
2 Les harmoniques
1
0
-1
0
5
10
15
20
25
105
3 Le timbre (forme d onde waveform)
106
4 Musique
- Somme de plusieurs notes (pitch) - Différentes
formes d ondes (les instruments) chant parole
modulée.
IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE
107
III-Les autres sons
Applications TVHD, Vidéo, Multimédia .
Les bruits ambiants, les onomatopées,
etc. Bruits sourds (chute d eau) Bruits
brusques (bris de glace)
transmettre tout ce qui est susceptible d être
perçu par l auditeur.
108
B-Codage  Audio 
?
codeur
décodeur
Émetteur
Récepteur
N autoriser que les pertes non perceptibles
109
I-Modèle psychoacoustique
1 Bande passante Seuil daudibilité dune
sinusoïde
BP20Hz 20kHz
fEgt40kHz
110
3 Masquage fréquentiel
(f1,P180 dB) sinusoïde masquante (f2,P2) P2
à émettre pour entendre f2
111
2 Bandes critiques fréquentielles (critical
bands)
Détection de fdf ??
Passage des Hertz au Bark
10
Bark
1
10
100
1k
10k
f(Hz)
112
Courbes de masquage gtgt segments de droite
indépendante de f1
113
Exemple de bande critique en BF (120Hz)
2
1.8
1.6
1.4
1 bark
1.2
1
0.8
0.6
Df
0.4
0.2
0
20
40
60
80
100
120
140
160
180
200
32 bandes critiques de 20 Hz à 20 kHz, Df
80-3500 Hz
114
4 Masquage temporel
Après un son relativement fort, masquage de la
bande critique (et voisines) pendant un certain
délai.
115
4 Masquage fréquentiel et temporel
116
5 Nouvelle approche de compression utilisée
dans MPEG
Principe utiliser les propriétés de masquage de
certaines zones de fréquence pour réduire le
débit nécessaire. Pertes non perceptibles Pass
age dans le domaine de Fourier nécessaire Cod
age en sous-bandes
117
II-norme MPEG Audio
1) Etat des lieux
Qualité Audio Numérique 44.1kHz 16bit (96dB
relativement au seuil d audibilité) loi de
distribution inconnue (pas de A-law) stéréo
Débit de 1,4Mbit/s
118
2) Objectifs
  • Stockage (CD) morceau de musique de 50 
  • 1.4Mbit/s50605.05Gbit630MO
  • Transmission (TVHD, multimedia) temps réel
  • diminuer le débit pour améliorer les capacités
    de transmission.

Compression sans pertes audibles Normalisation
nécessaire
119
3) MPEG Audio
Moving Pictures Coding Experts Group
http//drogo.cselt.it/mpeg/
Janvier 1988 naissance, groupe mandaté par
ISO/EIC MPEG normalisation vidéo / audio /
system
MPEG-1 qualité VHS sur CD-rom (352x288 CD
audio _at_ 1.5Mbit/s) MPEG-2 TVHS, multimedia
gtTV numérique AAC (fin Avril97) Advanced
Audio Coding MPEG-4 diminuer le débit coder
infos complémentaires gtMultimédia
120
4) MPEG-1 audio
3 couches définies (qualité/complexité du
codage) pour qualité audio layer 1 384
kb/s 1/4 layer 2 256192 kb/s 1/6..1/8 layer
3 128112 kb/s 1/10..1/12
Tx de réduction
Mais différentes fréquences d échantillonnage
et débits autorisés (32kHz, 44.1kHz, 48kHz)
121
Qualité de compression, couche 3
sound quality bandwidth mode bitrate
reduction
ratio telephone sound 2.5 kHz mono 8 kbps
961 better than shortwave 4.5 kHz
mono 16 kbps 481 better than
AM radio 7.5 kHz mono 32 kbps
241 similar to FM radio 11 kHz stereo
56...64 kbps 26...241 near-CD 15 kHz
stereo 96 kbps 161 CD
gt15 kHz stereo 112..128kbps
14..121 ) Fraunhofer uses a non-ISO extension
of MPEG Layer-3 for enhanced performance ("MPEG
2.5")
From the Fraunhofer Institute for Integrated
Circuits, Applied Electronics Center, IIS-A,
http//www.iis.fhg.de/about/index.html
122
Principe général de MPEG-1 (et suivants)
Quantification - Codage
Filtres Décomposition en bandes critiques
Allocation des bits (f(s²))
in
Exploitation masquage
123
384 ech.
Layer 1 Masquage fréquentiel QScal Layer 2
Masquage temporel Layer 3 Redondance stéréo
Huffman
124
III-Codage en sous-bandes
1) Sous-échantillonnage
125
Spectre d un signal échantillonné
Composante continue ??
126
Recouvrement spectral
Sous-échantillonnage
A/2
f0
-fE
fE
fE/2
-fE/2
127
Filtre anti-repliement
fE/4
A/2
f0
-fE
fE
fE/2
-fE/2
128
2) Décomposition en 2 sous-bandes
Périodicité!!!
129
Représentation des 2 sous-bandes
130
Sous-échantillonnage des 2 sous-bandes
A/2
f0
-fE
fE
fE/2
-fE/2
A/2
f0
-fE
fE
fE/2
-fE/2
131
3) Sur-échantillonnage
132
dans le domaine temporel
133
Filtre passe-basinterpolateur
A
f0
-fE
fE
fE/2
-fE/2
2.fE
-2.fE
134
4) Sous / Sur-échantillonnage d un facteur m
perte d information
x(n)
xSE(n)
H(z)
m
xSE(n)
x(n)
m
F(z)
135
Schéma de principe de la décomposition en 2
sous-bandes
x0(n)
x(n)
H0(z)
N/2 points
N points
x1(n)
H1(z)
N/2 points
H0 filtre réel 0 fe/4 H1 filtre réel
fe/4 fe/2
136
5) Généralisation en N sous-bandes
N/m points
x0(n)
x(n)
F0(z)
H0(z)
N points
x1(n)
F1(z)
H1(z)
xm(n)
Fm(z)
Hm(z)
137
(No Transcript)
138
6) Les problèmes techniques
1) Le choix des filtres H parfaits gt IIR 2)
Approximation gt choix des filtres F
adaptés (transformée en Cosinus) 3) Sélectionner
la bonne longueur de vecteur initial 4) Nombre de
bandes de fréquences
139
7) Les progrès MPEG-2, 4
Utiliser le modèle psycho-acoustique pour choisir
le nombre de bits par bande de fréquence. Utilise
r une répartition non homogène de l échelle des
fréquences. Utiliser la redondance entre voies
stéréo (ou 5 voies, surround). Intégration du
codage vectoriel / prédiction linéaire sur
les bandes de fréquences.
140
IV-Conclusion
Codage parole (téléphonie) full-duplex
Codage audio (musique)
Un bon codeur répondre à des contraintes
spécifiques au plus près.
Interactions entre vectoriel / sous-bandes
Write a Comment
User Comments (0)
About PowerShow.com