Indexation Parole Musique Bruit - PowerPoint PPT Presentation

1 / 29
About This Presentation
Title:

Indexation Parole Musique Bruit

Description:

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit ... M thodes actuelles d'indexation : manuelles. R duire le temps de recherche. Bande sonore ... – PowerPoint PPT presentation

Number of Views:114
Avg rating:3.0/5.0
Slides: 30
Provided by: Irit7
Category:

less

Transcript and Presenter's Notes

Title: Indexation Parole Musique Bruit


1
Indexation Parole / Musique / Bruit
  • Julien PINQUIER
  • Responsables de stage Régine André-Obrecht et
    Christine Sénac
  • Equipe ART.ps
  • Institut de Recherche en Informatique de Toulouse
  • Soutenance DEA 2IL - 27 juin 2001

2
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

3
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

4
Cadre de létude
  • Importance de lindexation
  • Accroissement du volume des données numériques
  • Description du contenu ( norme  ISO_MPEG7)
  • Analogie avec la recherche textuelle
  • Méthodes actuelles dindexation manuelles
  • Réduire le temps de recherche
  • Bande sonore souvent très complexe
  • Discrimination entre parole et musique

5
Cadre de létude
  • Le Projet de recherche AGIR (RNRT)

Signatures multimédia
Application et validation
Signatures images
Moteur dindexation et de recherche
Signatures vidéo
Documents multimédia
Signatures texte
Signatures son
Signatures son
  • Le sujet de DEA
  • Caractérisation Parole / Musique
  • Un système dindexation basé sur la modélisation
    différenciée
  • Approche statistique (Modèles de Mélanges de lois
    Gaussiennes)

6
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

7
Etat de lart
  • Parole
  • Structure formantique Calliope89
  • Formants Fréquences de résonance du conduit
    vocal

Formants
8
Etat de lart
  • Musique
  • Structure harmonique

Harmoniques
9
Etat de l art
  • Paramètres
  • Temporels ZCR et Energie Saunders96,
    Scheirer97 et Zhang98
  • Fréquentiels issus de la DSP Saunders96 et
    Scheirer97
  • Mixtes modulation de lénergie à 4 Hz
    Scheirer97
  • représente le rythme syllabique
  • Issus de modélisation MFCC Foote97

musique
parole
  • Classification
  • Fonctions à seuils
  • Approche statistique
  • Méthodes paramétriques mélanges de gaussiennes,
    MMC
  • Méthodes non paramétriques k plus proches
    voisins...
  • Réseaux de neurones

10
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

11
Le système
  • Décomposition Parole / Musique
  • Modélisation Différenciée
  • 1 classe Espace de représentation, Modèle
  • Description du système

Signal
Décision
Pré traitement
Classification
2 systèmes parole et musique
12
Le pré traitement
  • Parole analyse cepstrale
  • MFCC (18 coefficients par vecteur dobservation)
  • Soustraction cepstrale

Coefficients
Signal
Cepstraux
Accentuation
Fenêtrage
FFT
FiltrageMel
Log
FFT -1
  • Musique analyse spectrale
  • SPL (29 coefficients par vecteur dobservation)

Signal
Coefficients
Accentuation
Fenêtrage
FFT
Filtrage
Spectraux
13
Reconnaissance
  • Méthode de classification
  • Approche statistique
  • Classe
  • 2 modèles
  • NonClasse
  • MMG
  • Maximum de vraisemblance (vecteur observation -
    modèles)

14
La reconnaissance
  • Classification
  • Fenêtre danalyse (256 ou 512 points)

Exemple de classification Parole / NonParole
15
La reconnaissance
  • Assemblage

16
La reconnaissance
  • 1er Lissage (20 ms)

17
La reconnaissance
  • 2ème Lissage (indexation)
  • Parole (environ 400 ms) et musique (environ 2 s)

18
La reconnaissance
19
Le système
Apprentissage
Modèles
Signal
Décision
Pré traitement
Classification
20
Lapprentissage des MMG (supervisé)
  • Etiquetage manuel
  • Transcriber (C. Barras)
  • http//www.etca.fr/CTA/gip/Projets/Transcriber/
  • Affectation des paramètres
  • 3 fichiers labels ?? fichiers de paramètres

21
Lapprentissage des GMM
  • Initialisation des modèles algorithme VQ
  • Représenter les éléments dune classe par son
    centroïde
  • Optimisation des paramètres algorithme EM
  • Estimation calcul des probabilités Pnk que le
    vecteur yn soit généré par la loi gaussienne k.
  • Maximisation Ré-estimation des paramètres ?k,
    mk et ?k à partir des probabilités Pnk

22
Lapprentissage des GMM
32 lois gaussiennes
Parole
Paramètres indicés (Parole)
Etiquetage manuel (parole)
VQ
EM
Affectation
NonParole
Coeff. Cepstraux 18
Paramètres indicés (NonParole)
VQ
EM
Signal
MODELES
Pré traitement
Musique
Paramètres indicés (Musique)
29 Coeff. spectraux
VQ
EM
Affectation
NonMusique
Paramètres indicés (NonMusique)
VQ
EM
Etiquetage manuel (musique)
16 lois gaussiennes
23
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

24
Réalisations et expériences
  • Première expérience
  • Corpus épisode de la série  Chapeau Melon et
    Bottes de Cuir 
  • durée totale 50mn
  • composition parole pure, musique pure et zones
     mixtes 
  • parole téléphonique, enregistrements
    extérieurs, foule, poursuites de voitures
  • musique cordes, vents, basses, guitare
    électrique, batterie
  • locuteurs 4 hommes 1 femme
  • Apprentissage
  • durée 35mn
  • composante parole zone parole pure non
    parole
  • composante musique zone musique pure non
    musique
  • Reconnaissance
  • 15mn différentes de celles de lapprentissage

25
Réalisations et expériences
  • Résultats
  • Calcul des délais (frontières automatiques /
    manuelles)
  • Omissions et insertions
  • Calcul de laccuracy (durée corpus test - durée
    insertions - durée omissions ) / durée corpus
    test .

86
91
Laccuracy est de 95 pour la parole et de 93
pour la musique.
26
Réalisations et expériences
  • Exemple dindexation automatique

Omission
Délai 70 cs
Lissage
  • Problème
  • la parole superposée au bruit et / ou à la musique

27
Réalisations et expériences
  • Deuxième expérience
  • Corpus
  • Journaux télévisés sportifs 34mn environ
  • Apprentissage 14mn
  • Reconnaissance 20mn
  • Résultats (465 segments)

96
Laccuracy est excellente 99,5 .
  • Evolution nécessaire
  • adapter les modèles à nimporte quelle source
  • apprentissage volumineux et diversifié

28
Plan
  • Cadre de létude
  • Etat de lart
  • Le système
  • Réalisations et expériences
  • Conclusion et perspectives

29
Conclusion et perspectives
  • Conclusion
  • Résultats excellents, validation de la
    modélisation différenciée
  • Intérêt du stage de la recherche à
    lintégration
  • Perspectives
  • Adaptation des modèles à des corpus différents
  • Indexation multimédia basée sur la fusion audio /
    vidéo
  • Reconnaissance du locuteur
  • Détection mots clés, jingles
Write a Comment
User Comments (0)
About PowerShow.com