Title: Indexation Parole Musique Bruit
1Indexation Parole / Musique / Bruit
- Julien PINQUIER
- Responsables de stage Régine André-Obrecht et
Christine Sénac - Equipe ART.ps
- Institut de Recherche en Informatique de Toulouse
- Soutenance DEA 2IL - 27 juin 2001
2Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
3Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
4Cadre de létude
- Importance de lindexation
- Accroissement du volume des données numériques
- Description du contenu ( norme ISO_MPEG7)
- Analogie avec la recherche textuelle
-
- Méthodes actuelles dindexation manuelles
- Réduire le temps de recherche
- Bande sonore souvent très complexe
- Discrimination entre parole et musique
5Cadre de létude
- Le Projet de recherche AGIR (RNRT)
Signatures multimédia
Application et validation
Signatures images
Moteur dindexation et de recherche
Signatures vidéo
Documents multimédia
Signatures texte
Signatures son
Signatures son
- Le sujet de DEA
- Caractérisation Parole / Musique
- Un système dindexation basé sur la modélisation
différenciée - Approche statistique (Modèles de Mélanges de lois
Gaussiennes)
6Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
7Etat de lart
- Parole
- Structure formantique Calliope89
- Formants Fréquences de résonance du conduit
vocal
Formants
8Etat de lart
- Musique
- Structure harmonique
Harmoniques
9Etat de l art
- Paramètres
- Temporels ZCR et Energie Saunders96,
Scheirer97 et Zhang98 - Fréquentiels issus de la DSP Saunders96 et
Scheirer97 - Mixtes modulation de lénergie à 4 Hz
Scheirer97 - représente le rythme syllabique
- Issus de modélisation MFCC Foote97
musique
parole
- Classification
- Fonctions à seuils
- Approche statistique
- Méthodes paramétriques mélanges de gaussiennes,
MMC - Méthodes non paramétriques k plus proches
voisins... - Réseaux de neurones
10Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
11Le système
- Décomposition Parole / Musique
- Modélisation Différenciée
- 1 classe Espace de représentation, Modèle
Signal
Décision
Pré traitement
Classification
2 systèmes parole et musique
12Le pré traitement
- Parole analyse cepstrale
- MFCC (18 coefficients par vecteur dobservation)
- Soustraction cepstrale
Coefficients
Signal
Cepstraux
Accentuation
Fenêtrage
FFT
FiltrageMel
Log
FFT -1
- Musique analyse spectrale
- SPL (29 coefficients par vecteur dobservation)
Signal
Coefficients
Accentuation
Fenêtrage
FFT
Filtrage
Spectraux
13Reconnaissance
- Méthode de classification
- Approche statistique
- Classe
- 2 modèles
- NonClasse
- MMG
- Maximum de vraisemblance (vecteur observation -
modèles)
14La reconnaissance
- Classification
- Fenêtre danalyse (256 ou 512 points)
Exemple de classification Parole / NonParole
15La reconnaissance
16La reconnaissance
17La reconnaissance
- 2ème Lissage (indexation)
- Parole (environ 400 ms) et musique (environ 2 s)
18La reconnaissance
19Le système
Apprentissage
Modèles
Signal
Décision
Pré traitement
Classification
20Lapprentissage des MMG (supervisé)
- Etiquetage manuel
- Transcriber (C. Barras)
- http//www.etca.fr/CTA/gip/Projets/Transcriber/
- Affectation des paramètres
- 3 fichiers labels ?? fichiers de paramètres
21Lapprentissage des GMM
- Initialisation des modèles algorithme VQ
- Représenter les éléments dune classe par son
centroïde - Optimisation des paramètres algorithme EM
- Estimation calcul des probabilités Pnk que le
vecteur yn soit généré par la loi gaussienne k. - Maximisation Ré-estimation des paramètres ?k,
mk et ?k à partir des probabilités Pnk
22Lapprentissage des GMM
32 lois gaussiennes
Parole
Paramètres indicés (Parole)
Etiquetage manuel (parole)
VQ
EM
Affectation
NonParole
Coeff. Cepstraux 18
Paramètres indicés (NonParole)
VQ
EM
Signal
MODELES
Pré traitement
Musique
Paramètres indicés (Musique)
29 Coeff. spectraux
VQ
EM
Affectation
NonMusique
Paramètres indicés (NonMusique)
VQ
EM
Etiquetage manuel (musique)
16 lois gaussiennes
23Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
24Réalisations et expériences
- Première expérience
- Corpus épisode de la série Chapeau Melon et
Bottes de Cuir - durée totale 50mn
- composition parole pure, musique pure et zones
mixtes - parole téléphonique, enregistrements
extérieurs, foule, poursuites de voitures - musique cordes, vents, basses, guitare
électrique, batterie - locuteurs 4 hommes 1 femme
- Apprentissage
- durée 35mn
- composante parole zone parole pure non
parole - composante musique zone musique pure non
musique - Reconnaissance
- 15mn différentes de celles de lapprentissage
25Réalisations et expériences
- Résultats
- Calcul des délais (frontières automatiques /
manuelles) - Omissions et insertions
- Calcul de laccuracy (durée corpus test - durée
insertions - durée omissions ) / durée corpus
test . -
86
91
Laccuracy est de 95 pour la parole et de 93
pour la musique.
26Réalisations et expériences
- Exemple dindexation automatique
Omission
Délai 70 cs
Lissage
- Problème
- la parole superposée au bruit et / ou à la musique
27Réalisations et expériences
- Deuxième expérience
- Corpus
- Journaux télévisés sportifs 34mn environ
- Apprentissage 14mn
- Reconnaissance 20mn
96
Laccuracy est excellente 99,5 .
- Evolution nécessaire
- adapter les modèles à nimporte quelle source
- apprentissage volumineux et diversifié
28Plan
- Cadre de létude
- Etat de lart
- Le système
- Réalisations et expériences
- Conclusion et perspectives
29Conclusion et perspectives
- Conclusion
- Résultats excellents, validation de la
modélisation différenciée - Intérêt du stage de la recherche à
lintégration - Perspectives
- Adaptation des modèles à des corpus différents
- Indexation multimédia basée sur la fusion audio /
vidéo - Reconnaissance du locuteur
- Détection mots clés, jingles