Conversion de voix pour la synthse de la parole - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Conversion de voix pour la synthse de la parole

Description:

Ajustement de l'enveloppe spectrale apr s une modification de pitch [Tanaka, Stylianou] Pr diction du timbre partir du pitch [En-Najjary] ... – PowerPoint PPT presentation

Number of Views:50
Avg rating:3.0/5.0
Slides: 19
Provided by: olivie88
Category:

less

Transcript and Presenter's Notes

Title: Conversion de voix pour la synthse de la parole


1
Conversion de voix pour la synthèse de la parole
Taoufik En-Najjry 21 septembre 2006
2
Plan
  • Introduction
  • État de lart
  • Conversion conjointe du timbre et du pitch
  • Conclusion et perspectives

3
Introduction
  • Définition modifier le signal de parole dun
    locuteur source de telle façon que le signal
    résultant semble avoir été prononcé par le
    locuteur cible
  • Exemples d'application
  • Doublage de films
  • Diversification des voix de synthèse
  • Nous nous intéressons à la conversion de voix
    dans le cadre de la synthèse de la parole à
    partir du texte

4
Conversion de voix et synthèse de la parole
  • Créations de corpus pour la synthèse fastidieux
    et coûteux
  • Enregistrement du corpus 10 heures de parole
    environ
  • Traitements associés aux bases (phonétisation,
    segmentation, vérification)
  • Plusieurs mois pour créer une nouvelle voix !

5
Problèmes à résoudre
  • Quels sont les paramètres caractéristiques de
    lidentité vocale ?
  • Comment apprendre une nouvelle voix ?
  • Comment transformer une voix ?

6
Paramètres caractéristiques de lidentité vocale
  • Niveau segmental
  • Enveloppe spectrale (timbre)
  • Pitch
  • Signal glottique
  • Niveau supra-segmental
  • Évolution des paramètres du niveau segmental
  • Acoustique (trajectoires des formants)
  • Prosodique (contours de pitch et dénergie, durée
    des phonèmes, )
  • Informations liées au style délocution
  • Niveau linguistique
  • Choix des mots, dialectes, accents régionaux, ...

7
Principes de la conversion de voix
  • Phase dapprentissage

Modèle
Source
Cible
Fonction de conversion
paramètres
paramètres
Analyse
Analyse
parole
parole
Alignement
  • Phase de transformation

Modèle
Source
Paramètres source
Paramètres convertis
Analyse
Synthèse
Fonction de conversion
parole
parole convertie
résidu
8
État de lart
  • Paramètres
  • Enveloppe spectrale
  • Fréquence fondamentale (Pitch)
  • Conversion du timbre
  • Quantification vectorielle Abe88, Arslan 94
  • Régression linéaire Hermansky89, Valbret92
  • Réseaux de neurones Narendranath95
  • Modèle de mélange de gaussiennes (GMM)
    Stylianou95, Kain98, En-Najjary 2004
  • Normalisation global du pitch
  • Prendre en compte la moyenne et la variance de la
    cible
  • Ces méthode ne permettent pas de refléter des
    différences de style entre deux locuteurs

9
Corrélation entre le pitch et lenveloppe
spectrale
  • Observations
  • Dépendance entre le pitch et l'enveloppe
    spectrale Syrdal
  • Ajustement de l'enveloppe spectrale après une
    modification de pitch Tanaka, Stylianou
  • Prédiction du timbre à partir du pitch
    En-Najjary
  • Prendre en compte de la corrélation entre
    les informations liées au timbre et au pitch
  • Approches
  • Conversion conjointe du timbre et du pitch par GMM

10
Principe de la conversion par GMM
  • Alignement des trames source x et cible y
  • Modélisation de la densité jointe z(x,y) par GMM
  • Apprentissage des paramètres par algorithme EM
  • Fonction de transformation

11
Conversion conjointe du timbre et du pitch (2)
Phase dapprentissage
  • Fonction de conversion pour les trames voisées
  • Vecteurs paramètres coefficients cepstraux
    pitch normalisé
  • Modélisation de la densité conjointe de la source
    et de la cible par GMM

Cible
Source
Parameters cepstraux
Parameters cepstraux
Fonction de conversion conjointe
Analyse HNM
Analyse HNM
parole
parole
  • Pour les trames non voisées seuls les
    coefficients cepstraux sont utilisés

12
Conversion conjointe du timbre et du pitch (3)
Phase de transformation
pitch
normalisation
denormalisation
Source
Fonction de conversion conjointe
V
V
Synthèse HNM
Analyse HNM
Coefficients cepstraux
V/NV?
NV
NV
Fonction de conversion du timbre
Parole
Coefficients cepstraux
Parole convertie
Résidu
13
Conversion conjointe évaluation objective (1)
  • Mesure objective Distorsion de pitch normalisée

14
Conversion conjointe évaluation objective (2)
  • Mesure objective distorsion spectrale
    normalisée

Femme -gt Homme
Homme -gt Femme
  • La conversion conjointe améliore la conversion de
    l'enveloppe spectrale

(b)
15
Conversion conjointe évaluation subjective (1)
  • A quoi comparer la conversion conjointe ?
  • La conversion classique conversion du
    timbrenormalisation du pitch
  • La parole naturelle La cible
  • Plaquage acoustique parole source sur laquelle
    sont calqués le timbre et le pitch de la cible
    (borne supérieure)
  • Evaluation subjective (test MOS)
  • 20 phrases
  • 12 auditeurs

16
Conversion conjointe évaluation subjective (1)
  • Test 1 Comparaison des conversions conjointe et
    classique
  • MOS
  • 3.63 pour la conversion conjointe
  • 2.44 pour la conversion classique
  • Test 2 Comparaison de la conversion conjointe
    avec le plaquage acoustique et la parole
    naturelle
  • MOS
  • Conversion conjointe 2.76
  • Plaquage acoustique 3.22
  • Parole naturelle cible 5

17
Conversion conjointe démonstration
Source
  • Cible

Conversion conjointe
  • Conversion
  • classique

Plaquage acoustique
18
Conclusion et perspectives
  • Conversion conjointe
  • Transformation locale de la fréquence
    fondamentale
  • Conversion du timbre plus robuste
  • Perspectives
  • Modélisation du signal Tenir explicitement
    compte des caractéristiques du signal glottique
  • Conversion à l'échelle Supra-segmentale
  • Prendre en compte la dépendance temporelle entre
    trames
  • Utiliser des modèles prosodiques qui
    permettraient de transformer le rythme et
    lintonation
Write a Comment
User Comments (0)
About PowerShow.com