Aucun titre de diapositive - PowerPoint PPT Presentation

1 / 54
About This Presentation
Title:

Aucun titre de diapositive

Description:

Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi ... Mise en forme des donn es mesur es sur la parole Associer une portion de signal vocal ... – PowerPoint PPT presentation

Number of Views:67
Avg rating:3.0/5.0
Slides: 55
Provided by: UNS57
Category:

less

Transcript and Presenter's Notes

Title: Aucun titre de diapositive


1
Le Signal Vocal
  • Production du signal Modèles de production
  • Notions sur laudition
  • Allure temporelle
  • Analyse en fréquence
  • Typologie des signaux
  • Représentation Temps-Fréquence, spectrogramme
  • Transmission , Synthèse, Reconnaissance
  • Détection de la mélodie, de lintonation
  • Analyse  cepstrale  et par prédiction linéaire
  • Analyse des formants et de leur évolution
  • Principe de la synthèse de parole
  • Données utilisées en reconnaissance de parole

http//tcts.fpms.ac.be/cours/1005-08/speech/parole
.pdf http//svr-www.eng.cam.ac.uk/ajr/SA95/node87
.html
2
Production du signal Modèles de production
http//perso.club-internet.fr/mantonio/condvoc.htm
3
http//perso.club-internet.fr/mantonio/condvoc.htm
4
temps
http//perso.club-internet.fr/mantonio/condvoc.htm
5
Wolfgang von Kempelen (1770)
http//www.ling.su.se/staff/hartmut/kemplne.htm
6
guimbarde, chants diphoniques, arc à bouche,
didgeridoo
http//users.polytech.unice.fr/leroux/guimbarde.w
av
http//users.polytech.unice.fr/leroux/diphonique.
wav
http//users.polytech.unice.fr/leroux/arcabouche.
wav
clics en langue xhosa en Afrique du sud
http//users.polytech.unice.fr/leroux/didjeridoo.
wav
7
Synthèse numérique (ou équivalent analogique)
Signal synthétisé
Filtre récursif
Impulsions des cordes vocales (intonation) ou
bruit (fricatives)
Filtre linéaire variant lentement dans le
temps représentant les évolutions temporelles des
résonances du conduit vocal
(Sa réponse en fréquence correspond au spectre du
signal vocal)
8
temps
Cordes vocales intonation
Conduit vocal résonances
Signal sonore synthétique
fréquence
9
Audition
http//www.iurc.montp.inserm.fr/cric/audition/
10
http//www.iurc.montp.inserm.fr/cric/audition/
11
Phénomène de masquage (mp3)
x(n) sinusoïde masquante
q(n) sinusoïde masquée
fréquence
fréquence
Sx(f) DSP du signal
Sm(f) Seuil de masquage
http//tsi.enst.fr/moreau/activites_enseignement.
html
12
Analyse spectrale à court terme
temps
fréquence
spectre
Spectre (log)
Spectre échelle mel
fréquence
fréquence
13
Signal vocal
Zoom
temps
Spectre de la portion analysée formants
fréquence
14
Deux secondes de signal temporel
temps
Analyse d une portion de 100 ms
Module de la transformée de Fourier
fondamental
Formants (résonnances)
fréquence
harmoniques
spectre
15
Allure temporelle des signaux
  • Voyelles et consonnes voisées

a, e, oe, i, o, u, ou, é, è, l, r
  • Voyelle et consonnes nasalisées

m, n, on, an, in, un
  • Fricatives

f, s, ch
  • Fricatives voisées

v, z, j
  • Plosives

p, t, k
  • Plosives voisées

b, d, g
sons  doubles , diphtongues, ...
w, ll
16
 eu 
 a 
temps
temps
fréquence
fréquence
 o 
 ai 
temps
temps
fréquence
fréquence
17
 u 
 i 
temps
temps
fréquence
fréquence
18
 (ll)an 
 on 
temps
temps
fréquence
fréquence
 in 
temps
fréquence
19
(a)ll
 m 
temps
temps
fréquence
fréquence
 n 
temps
fréquence
20
 po 
 ta 
 co 
temps
temps
temps
fréquence
 b 
 g 
fréquence
fréquence
 d 
temps
temps
temps
fréquence
fréquence
fréquence
21
 s 
 f 
 ch 
temps
temps
temps
fréquence
fréquence
fréquence
 z 
 v 
 j 
temps
temps
temps
fréquence
fréquence
fréquence
22
fréquence
perspective
temps
spectrogramme
amplitude
fréquence
temps
chronogramme
23
Spectrogramme, sonogramme, sonagramme
Evolution au cours du temps de l analyse
spectrale à court terme
fréquence
amplitude
fréquence
temps
temps
mise en évidence des formants (résonances du
conduit vocal)
24
ph
o
n
e
t
i
c
i
an
fréquence
temps
25
Le  cepstre 
- Analyse de la fréquence fondamentale
chant, intonation -
Paramètres de base pour la reconnaissance
temps
fréquence
26
Analyse de la fréquence fondamentale chant,
intonation
4
.
temps
fréquence
fondamental
harmoniques
27
Analyse de la mélodie (pitch)
fréquence
fondamental
Passe bas
temps
fréquence
harmoniques
Passe bande démodulation
temps
fondamental retrouvé par démodulation
fréquence
Passe bas sur le résultat
temps
28
Codage de la parole différents débits
en fonction des applications et de la qualité
acceptée
Codage à bas débit (moins de 15kbits/s)
prédiction linéaire Codage à débit moyen 16 à
32 kbits/s modulation delta Téléphonie 8bits
x 8000 éch./s 64 kbits/s Haute fidélité 16bits
x 44100 éch./s 700 kbits/ MP3 144 kbits/s
29
Téléphonie numérique
Échantillonnage à 8kHz quantification sur 8 bits
Réduire la dynamique
Loi  mu 
30
Codage par modulation delta (parole) pour les
débits de 16à 32 kBits/s
Quantification de la différence entre le signal
et sa prédiction
Analyse

_
Transmission
Synthèse
31
Principe du codage MP3
Filtrage des signaux dans différentes bandes de
fréquences
T. Cos et codage

T. Cos et codage
Emission des données
T. Cos et codage
T. Cos et codage
T. Cos et codage
Sélection des canaux utiles (effet de
masquage 1er codage
T. Fourier
32
Analyse par prédiction linéaire
Canal vocal
Impusions (cordes vocales)
Bruit (pour les fricatives)
Signal Synthétique
Filtre récursif dont la réponse en fréquence
est celle du spectre à court terme
( 20 ms)
33
- Calcul de 11 coefficients de corrélation sur
une portion de 25 ms (200 échantillons) -
Application de l algorithme de Levinson pour
obtenir les coefficients du filtre
récursif (sous la forme d un filtre en
treillis) - Transmission des coefficients et du
signal résiduel (erreur de prédiction) au
récepteur qui en déduit la synthèse du signal
34
Codage par prédiction linéaire
analyse
transmission
synthèse
calcul de corrélation algorithme de Levinson
signal analysé
signal synthétisé
filtre non récursif A(z)
coefficients du filtre A(z)
filtre récursif 1/A(z)
recherche de périodicité L (max de corrélation)
e(t)e(tL)
signal résiduel e(t)
signal résiduel e(t)
v(t)e(t)-r.e(t-L)
e(t)v(t)r.e(t-L)
L
v(t)
v(t)
quantification recherche dun élément ressemblant
à un tronçon de v(t) dans un dictionnaire
reconstruction de v(t) à partir des d(n)
étape de compression
d(n)
d(n)
35
Analyse par prédiction linéaire
Spectre de la portion de signal analysé
fréquence
Réponse en fréquence du filtre récursif modélisant
le signal vocal
36
Code Excited Linear Prediction (CELP)
Dictionnaire de signaux élémentaires
Prédiction à long terme (intonation)
Modèle du conduit vocal
génération du signal dentrée du filtre (cordes
vocales, bruit)
37
Illustration de l application de la prédiction
linéaire au codage de la parole en téléphonie
fréquence
temps
(Ech 11025 Hz)
temps
38
Coefficients de A(z)
Corrélation r(n)
Algo de Levinson ou Schur
temps
temps
Réponse impulsionnelle du filtre non récursif A(z)
Signal modélisé
Réponse impulsionnelle du filtre récursif 1/A(z)
temps
39
Réponse impulsionnelle du filtre récursif
temps
Zéros de A(z) (pôles de 1/A(z))
Réponse en fréquence du filtre récursif
fréquence
40
Spectre du signal résiduel
temps
Signal résiduel à coder - Recherche de la
périodicité (pitch prédiction à long terme on
code x(t)-x(t-L) estimer L - Quantification
vectorielle
L
fréquence
On découpe le signal en tronçons comparaison à
des formes de signal mémorisées dont on transmet
le numéro
transmission des coefs du filtre
temps
41
Synthèse de son diphones
  • Difficultés
  • Enchainement de sons élémentaires
  • Intonation naturelle

42
Synthèse de parole
mbrola
Découpe dun son élémentaire (p. ex. diphone) en
période de longueur double de la période du pitch
Chacun des 1000 diphones (33x33) est découpé
en 10 ou 20 sons élémentaires de 100 à 200
échantillons
http//tcts.fpms.ac.be/synthesis/mbrola.html
43
On peut rajouter ces tronçons après les avoir
décalés et amplifiés en fonction de la mélodie,
de l intonation, ...
Plus aigu diminuer
Plus grave augmenter
Modification de l amplitude en changeant
44
Reconnaissance de la Parole fondée sur les
Modèles de Markov Cachés Hidden Markov Models
1. Introduction 2. Formulation en reconnaissance
de parole 2.1 Reconnaissance (Viterbi)
2.2 Probabilité dune séquence 2.3
Apprentissage 3. Mise en œuvre 3.1
Analyse spectrale à court terme 3.2
Quantification vectorielle 3.3 Forme
usuelle de lautomate
http//htk.eng.cam.ac.uk/
45
2. Automates utilisés dans les modèles de Markov
cachés
mesures
n
n
états
m
m
(Probabilités)
transition
Séquence détats
Séquence de mesures
probabilité de transition de létat m à létat m
probabilité de mesurer n quand lautomate
est dans létat m
probabilité que létat initial soit m
46
Les trois problèmes
Séquence détats
Séquence de mesures
1. Reconnaissance Y donné quelle est la S la
plus probable ?
2. Quelle est la probabilité dobserver Y avec
l automate (a,b,d) ?
3. Apprentissage comment calculer a(m,m),
b(m,n) et d(m)
47
Obtention de la séquence la plus probable
Algorithme de Viterbi
Calcul par récurrence de
Initialisation
Récurrence
Fin de lalgorithme
Etat m
 Treillis  pour représenter l évolution de
l automate au cours du temps
temps
48
Probabilité dobservation dune séquence Y avec
(a,b,d)
Calcul à t croissant
Utilisé pour comparer la pertinence de différents
automates (un automate est associé à un mot)
(aussi utilisé dans les  turbocodes en détection
d erreurs 
49
Apprentissage de mots (cf. notes de cours)
Calculer à partir de mesures Y de
a(m,m), b(m,n), d(m)
(lourd nécessite de nombreuses réalisations deY)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression
dune étape) voir aussi le  dynamic time
warping 
t
t
50
3. Mise en forme des données mesurées sur la
parole
F o n e t i ch
i an
Associer à une portion de signal vocal
(20ms) une mesure y(t) - Analyse spectrale à
court terme un vecteur (dim 20) -
Quantification vectorielle
51
Analyse spectrale à court terme
Fréquence centrale du filtre
linéaire
exponentielle
Echelle Mel
Banc de filtres
52
Coefficients cepstraux
Energie en sortie des différents filtres C(n)
Peuvent être liés aux coefficients de la
prédiction linéaire
53
Passer des c(k) aux y (mesures)
Quantification vectorielle
Trouver des représentants pour des nuages de
points
Choisir des centres de classes Assigner à cette
classe les points voisins Prendre comme centre de
classe le barycentre des points
dune classe réitérer jusqu à convergence
54
Toutefois, beaucoup de réglages et de
variantes Recherche  comprendre  le signal
vocal et l information qu il contient (et non
se contenter d une  simple  comparaison) Compr
endre le fonctionnement de la cochlée et du
système nerveux auditif
Write a Comment
User Comments (0)
About PowerShow.com