Title: Aucun titre de diapositive
1Le Signal Vocal
- 1. Production du signal Modèles de production
- 2. Notions sur laudition
- 3. Allure temporelle Analyse en fréquence
- Typologie des signaux (phonèmes)
- Représentation Temps-Fréquence,
spectrogramme - Détection de la mélodie, de lintonation
- Analyse cepstrale et par prédiction
linéaire - 4. Transmission (compression)
- 5. Principe de la synthèse de parole
- 6. Données utilisées en reconnaissance de parole
http//tcts.fpms.ac.be/cours/1005-08/speech/parole
.pdf http//svr-www.eng.cam.ac.uk/ajr/SA95/node87
.html
21. Production du signal Modèles de production
http//perso.club-internet.fr/mantonio/condvoc.htm
31. Production du signal
http//mucybermu.over-blog.com/pages/Anatomie_de_l
a_voix-2436886.html
41. Production du signal
http//perso.club-internet.fr/mantonio/condvoc.htm
5- Production du signal
- les cordes vocales
temps
http//perso.club-internet.fr/mantonio/condvoc.htm
http//mucybermu.over-blog.com/pages/Anatomie_de_l
a_voix-2436886.html
61. Production du signal
Wolfgang von Kempelen (1770)
http//www.ling.su.se/staff/hartmut/kemplne.htm
http//alexandria.tue.nl/extra2/200512836.pdf
71. Production du signal
The speech organ of Professor Faber from
1846 (from the Journal of the Acoustical Society
of America 3).
http//alexandria.tue.nl/extra2/200512836.pdf
81. Production du signal
Analyse et Synthèse du Signal Vocal
vers les années 1950/1960 développement de
lélectronique
vocoders à canaux reproduire lévolution de
lamplitude du signal dans quelques dizaines de
bandes spectrales
vocoders à formants trouver les 3 à 5 maxima du
spectre à court terme et reproduire ces
fréquences avec les amplitudes associées
vers les années 1960/1970 développement de
linformatique
traitement numérique et beaucoup plus de
souplesse, par exemple prédiction linéaire
9guimbarde, chants diphoniques, arc à bouche,
didgeridoo
1. Production du signal
clics en langue xhosa en Afrique du sud
101. Production du signal
Synthèse numérique (ou équivalent analogique)
Signal synthétisé
Filtre récursif
Impulsions des cordes vocales (intonation) ou
bruit (fricatives)
Filtre linéaire variant lentement dans le
temps représentant les évolutions temporelles des
résonances du conduit vocal
(Sa réponse en fréquence correspond au spectre du
signal vocal)
111. Production du signal
temps
Cordes vocales intonation
Conduit vocal résonances
Signal sonore synthétique
fréquence
122. Audition
http//www.iurc.montp.inserm.fr/cric/audition/
http//www.cochlea.org
132. Audition
http//www.iurc.montp.inserm.fr/cric/audition/
142. Audition
bruit excessif
dommages irrémédiables
152. Audition
Phénomène de masquage (mp3)
x(n) sinusoïde masquante
q(n) sinusoïde masquée
fréquence
fréquence
Sx(f) DSP du signal
Sm(f) Seuil de masquage
http//tsi.enst.fr/moreau/activites_enseignement.
html
163. Analyse, description et typologie des signaux
Analyse spectrale à court terme
temps
fréquence
spectre
2500 Hz
50 ms
Spectre (log)
Spectre échelle mel
3000 Hz
2500 Hz
fréquence
fréquence Hz
173. Analyse
Signal vocal
temps
Zoom
quasi périodicité de lordre de 5 à 10 ms suivant
lintonation
temps
Spectre de la portion analysée formants
fréquence
harmoniques de la fréquence fondamentale
183. Analyse
Deux secondes de signal temporel
temps
Analyse d une portion de 100 ms
Module de la transformée de Fourier
fondamental
Formants (résonnances)
fréquence
harmoniques
spectre
193. Analyse
Allure temporelle des signaux
- Voyelles et consonnes voisées
a, e, oe, i, o, u, ou, é, è, l, r
- Voyelle et consonnes nasalisées
m, n, on, an, in, un
f, s, ch
v, z, j
p, t, k
b, d, g
sons doubles , diphtongues, ...
w, ll
mais il y a une grande variabilité même pour un
locuteur en fonction du contexte du son prononcé,
de lintonation, de létat de santé, etc...
203. Analyse
eu
a
temps
temps
fréquence
fréquence
o
ai
temps
temps
fréquence
fréquence
213. Analyse
u
i
temps
temps
fréquence
fréquence
223. Analyse
(ll)an
on
temps
temps
fréquence
fréquence
in
temps
fréquence
233. Analyse
(a)ll
m
temps
temps
fréquence
fréquence
n
temps
fréquence
24 ta
po
co
3. Analyse
temps
temps
temps
fréquence
fréquence
fréquence
b
d
g
temps
temps
temps
fréquence
fréquence
fréquence
25 s
f
ch
3. Analyse
temps
temps
temps
fréquence
fréquence
fréquence
z
v
j
temps
temps
temps
fréquence
fréquence
fréquence
263. Analyse
fréquence
perspective
temps
spectrogramme
amplitude
fréquence
temps
chronogramme
273. Analyse
Spectrogramme, sonogramme, sonagramme
Evolution au cours du temps de l analyse
spectrale à court terme
fréquence
amplitude
fréquence
temps
temps
283. Analyse
ph
o
n
e
t
i
c
i
an
fréquence
temps
293. Analyse
Le cepstre
- Analyse de la fréquence fondamentale
chant, intonation -
Paramètres de base pour la reconnaissance
variations lentes du spectre
périodicité des harmoniques
temps
fréquence
déconvolution source (harmoniques) / conduit
(enveloppe)
303. Analyse
Analyse de la fréquence fondamentale chant,
intonation
4
.
temps
fréquence
fondamental
harmoniques
313. Analyse
Analyse de la mélodie (pitch)
fréquence
fondamental
Passe bas
temps
fréquence
harmoniques
Passe bande démodulation
temps
fondamental retrouvé par démodulation
fréquence
Passe bas sur le résultat
temps
324. Codage de la parole différents débits
en fonction des applications et de la qualité
acceptée
Codage à bas débit (moins de 15kbits/s)
prédiction linéaire Codage à débit moyen 16 à
32 kbits/s modulation delta
Téléphonie 8bits x 8000 éch./s 64
kbits/s Haute fidélité 16bits x 44100 éch./s
700 kbits/ MP3 144
kbits/s
334. Codage
Téléphonie numérique
Échantillonnage à 8kHz quantification sur 8 bits
Réduire la dynamique
Loi mu
344. Codage
Codage par modulation delta (parole) pour les
débits de 16 à 32 kBits/s
Quantification de la différence entre le signal
et sa prédiction
354. Codage
Principe du codage MP3
Filtrage des signaux dans différentes bandes de
fréquences
T. Cos et codage
T. Cos et codage
T. Cos et codage
Emission des données
T. Cos et codage
T. Cos et codage
Sélection des canaux utiles (effet de
masquage) 1er codage
T. Fourier
364. Codage
Analyse par prédiction linéaire
Canal vocal
Impusions (cordes vocales)
Signal Synthétique
Bruit (pour les fricatives)
Filtre récursif évoluant lentement au cours
du temps et dont la réponse en fréquence
est celle du spectre à court terme
374. Codage
- Calcul de 11 coefficients de corrélation sur
une portion de 25 ms (200 échantillons) -
Application de l algorithme de Levinson pour
obtenir les coefficients du filtre
récursif (sous la forme d un filtre en
treillis) - Transmission des coefficients et du
signal résiduel (erreur de prédiction) au
récepteur qui en déduit la synthèse du signal
38Codage par prédiction linéaire
4. Codage
analyse
transmission
synthèse
calcul de corrélation algorithme de Levinson
signal analysé
signal synthétisé
filtre non récursif A(z)
coefficients du filtre A(z)
filtre récursif 1/A(z)
recherche de périodicité L (max de corrélation)
e(t)e(tL)
signal résiduel e(t)
signal résiduel e(t)
v(t)e(t)-r.e(t-L)
e(t)v(t)r.e(t-L)
L
v(t)
v(t)
quantification recherche dun élément ressemblant
à un tronçon de v(t) dans un dictionnaire
reconstruction de v(t) à partir des d(n)
étape de compression
d(n)
d(n)
394. Codage
Analyse par prédiction linéaire
Spectre de la portion de signal analysé
fréquence
Réponse en fréquence du filtre récursif modélisant
le signal vocal
404. Codage
Code Excited Linear Prediction (CELP)
Dictionnaire de signaux élémentaires
Prédiction à long terme (intonation)
Modèle du conduit vocal
génération du signal dentrée du filtre (cordes
vocales, bruit)
414. Codage
Illustration de l application de la prédiction
linéaire au codage de la parole en téléphonie
fréquence
temps
(Ech 11025 Hz)
temps
424. Codage
Coefficients de A(z)
Corrélation r(n)
Algo de Levinson ou Schur
temps
temps
Réponse impulsionnelle du filtre non récursif A(z)
Signal modélisé
Réponse impulsionnelle du filtre récursif 1/A(z)
temps
43amplitude
4. Codage
Signal analysé
Réponse impulsionnelle du filtre récursif 1/A(z)
modélisant la production de ce signal
temps
Zéros de A(z) (pôles de 1/A(z))
Réponse en fréquence du filtre récursif 1/A(z))
fréquence
444. Codage
Spectre du signal résiduel
temps
L
Signal résiduel à coder - Recherche de la
périodicité (pitch prédiction à long terme on
code x(t)-x(t-L) estimer L - Quantification
vectorielle
fréquence
( bruit blanc)
On découpe le signal résiduel en
tronçons comparaison à des formes de
signal mémorisées dont on transmet le numéro
transmission des coefs du filtre
temps
455. Synthèse de son diphones
- Difficultés
- Enchainement de sons élémentaires
- Intonation naturelle
465. Synthèse
Synthèse de parole
mbrola
http//tcts.fpms.ac.be/synthesis/
Découpe dun son élémentaire (p. ex. diphone) en
période de longueur double de la période du pitch
Chacun des 1000 diphones (33x33) est découpé
en 10 ou 20 sons élémentaires de 100 à 200
échantillons
475. Synthèse
On peut rajouter ces tronçons après les avoir
décalés et amplifiés en fonction de la mélodie,
de l intonation, ...
Plus aigu diminuer
Plus grave augmenter
Modification de l amplitude en changeant
486. Reconnaissance de la Parole fondée sur les
Modèles de Markov Cachés Hidden Markov Models
1. Introduction 2. Formulation en reconnaissance
de parole 2.1 Reconnaissance (Viterbi)
2.2 Probabilité dune séquence 2.3
Apprentissage 3. Mise en œuvre 3.1
Analyse spectrale à court terme 3.2
Quantification vectorielle 3.3 Forme
usuelle de lautomate
http//htk.eng.cam.ac.uk/
496. Reconnaissance
2. Automates utilisés dans les modèles de Markov
cachés
mesures
n
n
états
m
m
(Probabilités)
transition
Séquence détats
Séquence de mesures
probabilité de transition de létat m à létat m
probabilité de mesurer n quand lautomate
est dans létat m
probabilité que létat initial soit m
506. Reconnaissance
Les trois problèmes
Séquence détats
Séquence de mesures
1. Reconnaissance Y donné quelle est la S la
plus probable ?
2. Quelle est la probabilité dobserver Y avec
l automate (a,b,d) ?
3. Apprentissage comment calculer a(m,m),
b(m,n) et d(m)
516. Reconnaissance
Obtention de la séquence la plus probable
Algorithme de Viterbi
Calcul par récurrence de
Initialisation
Récurrence
Fin de lalgorithme
Etat m
Treillis pour représenter l évolution de
l automate au cours du temps
temps
526. Reconnaissance
Probabilité dobservation dune séquence Y avec
(a,b,d)
Calcul à t croissant
Utilisé pour comparer la pertinence de différents
automates (un automate est associé à un mot)
(aussi utilisé dans les turbocodes en détection
d erreurs
536. Reconnaissance
Apprentissage de mots (cf. notes de cours)
Calculer à partir de mesures Y de
a(m,m), b(m,n), d(m)
(lourd nécessite de nombreuses réalisations deY)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression
dune étape) voir aussi le dynamic time
warping
t
t
546. Reconnaissance
3. Mise en forme des données mesurées sur la
parole
F o n e t i ch
i an
Associer à une portion de signal vocal
(20ms) une mesure y(t) - Analyse spectrale à
court terme un vecteur (dim 20) -
Quantification vectorielle
556. Reconnaissance
Analyse spectrale à court terme
Fréquence centrale du filtre
linéaire
exponentielle
Echelle Mel
Banc de filtres
566. Reconnaissance
Coefficients cepstraux
Energie en sortie des différents filtres C(n)
Peuvent être liés aux coefficients de la
prédiction linéaire
576. Reconnaissance
les HMM nécessitent une quantification (assez
grossière) des données traitées
Passer des c(k) aux y (mesures)
Quantification vectorielle
Trouver des représentants pour des nuages de
points
Choisir des centres de classes Assigner à cette
classe les points voisins Prendre comme centre de
classe le barycentre des points
dune classe réitérer jusqu à convergence
expectation maximization
586. Reconnaissance
Toutefois, beaucoup de réglages et de
variantes Recherche comprendre le signal
vocal et l information qu il contient (et non
se contenter d une simple comparaison) Compr
endre le fonctionnement de la cochlée et du
système nerveux auditif
http//www.cochlea.org/spe/cerveau-auditif-2.html