Technologies vocales - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Technologies vocales

Description:

Parrot Con oit et commercialise des produits t l coms pour l'automobile. Ce sont des ... Parrot CK3000: c'est un syst me mains libres avec une radio bluetooth ... – PowerPoint PPT presentation

Number of Views:102
Avg rating:3.0/5.0
Slides: 21
Provided by: Pill99
Category:

less

Transcript and Presenter's Notes

Title: Technologies vocales


1
  • Technologies vocales
  • ENSSAT
  • 22 mai 2002

2
Télécoms pour lautomobile
  • Parrot Conçoit et commercialise des produits
    télécoms pour lautomobile
  • Ce sont des produits grand public
  • Facile à utiliser
  • Fiables
  • Bas coûts
  • Ils intègrent de nombreuse technologies vocales

3
Un Produits
  • Parrot CK3000 cest un système mains libres avec
    une radio bluetooth
  • Il fonctionne avec tous les téléphones bluetooth
    actuels le conducteur garde son téléphone dans
    sa poche et passe ses appels sans lâcher son
    volant
  • Il utilise les répertoire du téléphones pour la
    reconnaissance vocale
  • La parole passe dans les haut-parleurs de
    lautoradio

4
Fonctionnement
  • Pour passer un appel lutilisateur dit le mot
    clef  téléphone  word spoting multi locuteur
  • Puis le mots clef  Françoise  reconnaissance
    mono-locuteur
  • Le système répond  Françoise  codage de la
    parole
  • La radio se coupe, on entend la sonnerie dans les
    haut parleurs de la voiture
  • Les deux correspondants discutent annulation
    décho et réduction de bruit
  • Durant la conversation les conditions acoustiques
    varient beaucoup le conducteur ouvre les
    fenêtres, passe dans un tunnel en permanence le
    niveau de bruit est ré-estimé
  • Pour terminer la conversation lutilisateur dit
     Racrocher  word spoting multilocuteur

5
Détail des Algorithmes
  • Annulation décho
  • Réduction de bruit
  • Reconnaissance vocale

6
Annulation décho
  • Difficultés
  • En voiture le bruit est important (SNR proche de
    0). Il est difficile didentifier un signal non
    linéaire
  • Paramètre favorables
  • En voiture le chemin de lécho est court, le
    filtre nest pas très long

7
LMS à pas variable
  • On utilise un LMS à pas variable
  • Un filtre de 128 coefficients
  • Notre AEC retire 10 à 12 dB décho en
    environnement bruité
  • Un post traitement réduit lécho résiduel. On en
    retire environ 20 dB
  • On masque le temps de convergence au début du
    fonctionnement en étant half duplex durant 2/3
    secondes
  • La non linéarité de la chaîne audio (Saturation)
    posent de nombreux problèmes On à trouvé des
    solutions.

8
Réduction de bruit
  • Nous utilisons lalgorithme Ephraim Malah
  • Cest une soustraction spectrale, des règles de
    lissage basé sur un modèle statistique de la
    parole évitent le bruit musical lors de la
    soustraction.
  • Lalgorithme soustrait la FFT de lestimé du
    bruit au signal de parole Puis le signal est
    reconstitué par FFT inverse Il y a donc un
    défaut majeur La phase du bruit est réutilisé
    pour reconstruire le signal
  • Lalgorithme fonctionne bien pour 6 a 10 dB de
    réduction de bruit

9
Estimateur de Bruit
  • Cest notre développement principal en NR
  • On découpe le spectre en 128 bandes
  • Pour chacune on mesure la moyenne et lécart type
  • Si lécart type est petit il y a de grande chance
    que ce soit du bruit De cette manière on décide
    si une bande est occupé par du bruit ou de la
    parole De cette manière on constitue
    temporellement le spectre complet du bruit.
  • On connaît aussi la place du bruit de voiture
    dans le spectre de la parole On soustrait plus
    facilement les basses fréquences
  • Si lestimateur se trompe sur 10-15 des bandes
    leffet nest pas très perceptible
  • Très important Lestimateur fonctionne tous le
    temps, même lorsque on parle.

10
Reconnaissance Vocale
  • On utilise un DTW
  • Cest une reconnaissance de forme cest
    lalgorithme mono locuteur type pour notre
    application le vocabulaire nest pas connu à
    lavance (répertoire téléphonique) le mono
    locuteur simpose
  • Nous lavons rendu robuste au bruit en
    travaillant
  • La soustraction de bruit
  • Lanalyse MFCC avec modèle de masquage
  • Un algorithme de détection de début de mot
  • Un apprentissage continu

11
Soustraction du Bruit pour la Reconnaissance
  • On utilise un algorithme de détection de
    silence/parole pour estimer le bruit, cest un
    algorithme temporel et non pas spectrale comme en
    NR
  • En voiture il ny a pas de problème dénergie le
    système écoute en permanence
  • On soustrait le bruit
  • On normalise le signal
  • On a pas de problème de bruit musical on
    effectue une soustraction spectrale triviale (
    échelle MEL FFT)

12
Modèles de Masquage
  • On à trouvé un article très intéressant dans une
    publication de IEEE Un modèle psycho-acoustique
  • Pour extraire la parole du bruit loreille
    utilise 2 méthodes de masquage temporel et une
    méthode de masquage fréquentiel.
  • Lorsque un signal est stable linformation est
    moins pertinente (Masquage avant)
  • Lorsque un son se répète il est moins intéressant
    (Masquage arrière)
  • Lorsque une fréquence du spectre est très forte,
    elle éteins les fréquences voisines (Masquage
    fréquentiel)
  • Le codage des ces filtres donne de très bons
    résultats

13
Détection des Débuts de Mots
  • 50 des erreurs de reconnaissance mono locuteur
    sont dues à une mauvaise détection du début du
    mot
  • Lorsque on utilise un  press to talk  on ne se
    sert pas directement de linformation. Très
    souvent le locuteur à commencé à parler avant ou
    après dappuyer sur la touche. Lappuis sur le
    bouton ouvre une fenêtre pour rechercher le début
    de mot
  • On utilise un algorithme multibandes pour
    détecter la frontière entre la parole et le
    silence. On conserver quelques vecteurs de
    silence dans la partie utile du signal
  • Le moteur de comparaison saffranchis des
    vecteurs de silence en début et effectue la
    détection de fin de mot en épuisants les vecteurs
    à comparer des mots du vocabulaire

14
Apprentissage Continu
  • Plus on utilise le CK3000 plus il mémorise des
     patterns 
  • Cest un intérêt de la reconnaissance mono
    locuteur. Le système est facile à entraîner (ceci
    un avantages secondaires le canal acoustique est
    modélisé)
  • Chaque fois que lutilisateur passe une
    communication nous avons défini des règles de
    confiance qualité de la note par apport aux
    patterns précédents, durées de la communication
    etc
  • Les patterns qui provoques des reconnaissance
     réussies  sont conservés, ceux qui provoquent
    des échecs sont rejetés
  • De cette manière les conditions dutilisations
    moyennes dun système donné (Voiture, locuteur,
    conditions dutilisation) sont modélisés

15
Word spoting
  • On à développé un word spoting Multi locuteur
    pour les langues dont nous disposons de bases de
    données. Mono locuteurs pour les autres langues
  • Le multilocuteur onctionne pas mal avec un DTW A
    condition davoir beaucoup de patterns par mots
    (environ 60) et un petit vocabulaires
  • La robustesse du word spoting est obtenu en
    collectionnant un grand nombre de patterns de
     Garbage models  on roule en voiture chaque
    fois quil y a une fausse alerte on conserve en
    mémoire le  coupable  de cette manière on se
    constitue une collection de coupables que lon
    optimise par simulations sur PC

16
Conclusion
  • Méthodologie
  • Reconnaissance vocale
  • Traitement de la parole

17
Cest simple ça prend du temps
  • On écris une version des algorithmes sous matlab
  • On collecte des bases de données en voitures. Par
    exemple 40.000 mots avec différent locuteurs pour
    la reconnaissance vocale, Des heures de
    conversation stéréo pour lannulation décho
  • On améliore lalgorithme Tant que le résultat
    nest pas bon on recommence en 1
  • On embraque le code Codage en C et Assembleur
  • On réalise des mesures objectives des résultats.

18
Obsession
  • Au début du développement du CK3000 je voulais
    que rien ne soit visible dans la voiture cest
    pour cela que nous avons développé la reco word
    spoting
  • Puis lorsque les téléphones Nokia sont apparus
    nous avons été obligés dajouter un clavier
    autocollant
  • Aujourdhui environ 10-20 des utilisateurs se
    servent du word spoting
  • 50 se servent de la reconnaissance du répertoire
    téléphonique
  • Cest très satisfaisant

19
Réduction De Bruit
  • Il me semble aujourdhui que la réduction de
    bruit est la fonction la plus importante de
    traitement de la parole en voiture
  • Nous commençons à travailler sur des technique
    multi micros les techniques mono micros sont
    forcement très limités
  • Nous fondons des espoirs dans les techniques à 2
    micros

20
-) -) -( - - - !-) - -( -
- - !-) - -( - - - !-) -
  • Il y a encore beaucoup à faire
  • Merci de votre accueil
Write a Comment
User Comments (0)
About PowerShow.com