Title: DISE
1DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS
DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ
- Autora Carmen Rincón Llorente
- Tutor Roberto Barra Chicote
- Ponente Juan Manuel Montero Martínez
2ÍNDICE
- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
3- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
4INTRODUCCIÓN
- Qué es una emoción?
- Estado emocional ? variaciones en la voz
(características segmentales y prosódicas) - Comunicación verbal ? patrón específico y
universal de las emociones - Función comunicativa y valorativa de las
emociones ? identificación para mejorar la
interacción hombre-máquina
5- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
6OBJETIVOS
- Identificación basada en rasgos segmentales
- Identificación basada en rasgos prosódicos
- Análisis de la naturaleza de las emociones ?
similitudes y diferencias entre castellano y
alemán - Aplicación de técnicas de normalización
- Evaluación de resultados automáticos (con
entrenamiento) vs resultados perceptuales
(oyentes no entrenados)
7- Introducción
- Objetivos
- Descripción de las bases de datos
- 3.1. SES
- 3.2. EMODB
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
83.1. Spanish Emotional Speech (SES)
- Base de datos en castellano
- Monolocutor (varón)
- Alegría, Enfado (en frío), Sorpresa, Tristeza y
voz Neutra - Composición del corpus
- 56 párrafos ( 39 minutos)
- 210 frases grabadas de forma independiente ( 7
minutos) - 196 frases extraídas del párrafo cuarto (
12,5 minutos) - Etiquetada fonética y prosódicamente
93.2. Berlin Database of Emotional Speech
(EMODB) (I)
- Base de datos en alemán
- Multilocutor 10 locutores
- Alegría, Enfado (en caliente), Tristeza,
Aburrimiento, Asco, Miedo y voz Neutra - Etiquetada fonéticamente
- 535 ficheros de audio (24,35 minutos)
103.2. Berlin Database of Emotional Speech
(EMODB) (II)
11- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
12DIAGRAMA DE BLOQUES
134.1. Parametrización (I)
- Basada en características segmentales
Extraeremos 12 MFCC a partir de la señal de voz
según el siguiente esquema
144.1. Parametrización (II)
- Basada en características prosódicas
- Prosodia analiza y representa formalmente
elementos suprasegmentales de la expresión oral
(acento, tono, ritmo, entonación). - Características estudiadas
- Relacionadas con el contorno de F0
- Valor medio de F0
- Máximo y mínimo de F0
- Rango de F0
- Pendiente ascendente y descendente de grupos
acentuales - Relacionadas con el ritmo
- Velocidad de locución de la frase
- Velocidad de cada grupo acentual
154.1. Parametrización (III)
Señal de voz
Contorno de F0
Contorno de F0 interpolado
División en grupos acentuales
164.2. Normalización
- CMN (normalización respecto a la media)
- Estimada sobre toda la voz del locutor
- Estimada sobre la voz neutra del locutor
- CVN (normalización respecto a la varianza)
- Estimada sobre toda la voz del locutor
- Estimada sobre la voz neutra del locutor
- CMN/CVN (normalización respecto a la media y
varianza) - Estimada sobre toda la voz del locutor
- Estimada sobre la voz neutra del locutor
17- Introducción
- Objetivos
- Descripción de las emociones
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - 5.1. SES
- 5.2. EMODB
- 5.3. SES EMODB
- Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
185.1. MFCCSES Sin normalizar (I)
- Tasas de identificación medias
195.1. MFCCSES Sin normalizar (II)
- Tasas de identificación para cada emoción
- Clasificación de frases
- Clasificación de párrafos
- Experimento 4
- Se identifica siempre la alegría, el enfado, la
tristeza y la voz neutra. - La sorpresa se confunde con la alegría (50).
- Experimento 5
- Se identifican siempre el enfado, la sorpresa, la
tristeza y la voz neutra. - La alegría siempre se identifica salvo en uno de
los párrafos, que se confunde con la voz neutra.
205.1. MFCCSES Normalizando (I)
- Experimento 2 (sin compartición de texto y
adecuada distribución de los datos de
entrenamiento y clasificación) - Tasas de identificación medias
215.1. MFCCSES Normalizando (II)
- Tasas de identificación para cada emoción
- Emociones que mejor se identifican ? tristeza,
enfado y voz neutra - Emociones que peor se identifican ? alegría y
sorpresa (se confunden entre ellas) - Menor precisión del enfado (88) frente a la
tristeza y neutra (?96) - Tasas de error y mejora relativa del error al
emplear vectores de características normalizados
225.2. MFCC EMODB (I)
- Metodología
- Entrenamiento con 9 locutores y clasificación con
el restante - Tasas de identificación medias
235.2. MFCC EMODB (II)
- Tasas de identificación para cada emoción
(normalizando con CMN/CVN respecto a la voz del
locutor)
245.3. MFCCSES EMODB
- Train SES Test EMODB
- Train EMODB Test SES
- EXPERIMENTOS
- Sin normalizar
- Normalización respecto a la voz del locutor
- CMN, CVN y CMN/CVN
- Normalización respecto a la voz del neutra
locutor - CMN, CVN y CMN/CVN
255.3. MFCCTrain SES Test EMODB (I)
- Tasas de identificación medias
- Del orden de las que obteníamos sólo con EMODB
- 42 (1 gausiana) a 50 (5 gausianas)
- Mejor normalización ? CMN/CVN
- respecto a la voz del locutor (9 de mejora
relativa) - respecto a la voz neutra del locutor (11,33 de
mejora relativa)
26Reconocimiento de Emociones Independiente de
Idioma
- normalizando CMNCVN respecto a la voz del locutor
275.3. MFCCTrain SES Test EMODB
(III)(Similitud entre emociones de ambos idiomas)
- Emoción que mejor se identifica ? tristeza (100)
- Confusión de todas las emociones, salvo la
tristeza, con la sorpresa - Enfado (81,10)
- Alegría (50,70)
- Miedo (46,38)
- Cierta confusión con la alegría (asco, 45)
285.3. MFCCTrain EMODB Test SES
- Mejoras al normalizar no significativas
- Tasas de identificación para cada emoción
(clasificación de los párrafos de SES) - Tristeza y neutra siempre se identifican
- Identificación elevada de la alegría,
confundiéndose con la voz neutra cuando no se
identifica - Confusión del enfado con la alegría y con la voz
neutra - Tasas de identificación para cada emoción
(clasificación de las frases de SES) - La voz neutra siempre se identifica, pero el
resto de emociones se confunden con ella, por lo
que su precisión es baja
29- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
30- Identificación basada en información prosódica
- Realizados sólo con SES (frases independientes)
- Tipos de experimentos
- Relacionados con el contorno de F0
- Relacionados con el ritmo (velocidad de locución
de la frase y velocidad de locución de los grupos
acentuales) - Experimentos con todos los grupos acentuales,
sólo con los iniciales, sólo con los finales y
sólo con los medios
316.1. Experimentos relacionados con el contorno
de F0 (I)
Valor medio F0 Máximo F0 Mínimo F0 Rango F0 Pendiente ascendente GA Pendiente descendente GA
- Resultados de los experimentos empleando todos
los GA
326.1. Experimentos relacionados con el contorno
de F0 (II)
- Emoción que mejor se identifica ? sorpresa
(97,77) (la información principal de la sorpresa
se encuentra en los GA iniciales y medios) - La información prosódica de la tristeza se
encuentra en los GA medios (92,3) - La alegría sólo se identifica usando los GA
medios (51,27) - El enfado sólo se identifica usando los GA
iniciales (46,8) - Confusión de la alegría con el enfado al emplear
los GA iniciales (44,43) - La sorpresa nunca se confunde con la tristeza ni
con la voz neutra, y viceversa
336.2. Experimentos relacionados con el ritmo
- Velocidad de locución de la frase
- Sólo se identifican la tristeza (80) y la voz
neutra (69) - Confusiones
- Enfado con sorpresa (42) y tristeza (42)
- Sorpresa con tristeza (58)
- Alegría con voz neutra (58)
- Precisiones bajas
- Patrón unívoco para la tristeza y la voz neutra
- Velocidad de cada grupo acentual
- Emoción que mejor se identifica ? tristeza
(87,17) - Elevada tasa de confusión del enfado y la
sorpresa, con la tristeza ? baja precisión de la
tristeza - Elevada tasa de identificación de la voz neutra
empleando todos los GA (74,77) o los GA medios
(72,77)
34- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
357.1. CONCLUSIONES MFCC - SES
- Importancia del estilo de interpretación de las
emociones (párrafos/frases) - Tasa de identificación media elevada (? 92)
- Emociones que mejor se identifican
- Tristeza (93), enfado (92) y voz neutra (92)
- Emociones que peor se identifican
- Alegría (80) y sorpresa (89)
- Mejor normalización
- CMN/CVN respecto a la voz neutra del locutor (?
32)
367.2. CONCLUSIONES MFCC - EMODB
- Tasa de identificación media sin normalizar ?46
- Mejor normalización
- CMN/CVN respecto a la voz del locutor
- Mejoras consistentes (?18 relativo)
- Emoción que mejor se identifica
- Tristeza (95)
- Emociones que peor se identifican
- Miedo (45)
- Alegría (42). La alegría se confunde
principalmente con el enfado y el miedo.
377.3. CONCLUSIONESMFCC SES EMODB
- Emoción que mejor se identifica
- Tristeza ? características comunes en ambos
idiomas - Train SES, Test EMODB
- Tasas de identificación medias similares a cuando
empleamos solamente EMODB (50) - Agrupamiento en alegría-enfado y tristeza-neutra
- Train EMODB, Test SES
- Voz neutra en alemán la más cercana a las
emociones en castellano - Similitud entre emociones de ambos idiomas
- Todas las emociones tienden a confundirse con la
sorpresa y con la alegría (excepto la tristeza)
387.4. CONCLUSIONESProsodia - SES
- Características relacionadas con el contorno de
F0 - Emociones muy prosódicas ? sorpresa (97,77),
tristeza (92,3) y neutra (94,83) - Emociones poco prosódicas ? alegría (51,27) y
enfado (46,8) - Características relacionadas con el ritmo
- Se produce gran confusión
- Elevada tasa de identificación de la tristeza
(87,17) - Elevada tasa de confusión de la sorpresa (75,57)
y el enfado (70) con la tristeza
397.5. Comparativa con estudios anteriores
-
PROSÓDICA
-
Alegría
Sorpresa
Tristeza
S E GME N T A L
Conclusiones de la tesis de Juan Manuel Montero
Conclusiones de este proyecto
Alegría
Neutra (común en ambos estudios)
Sorpresa
Alegría
Neutra
Alegría
Tristeza
Enfado
Enfado
40- Introducción
- Objetivos
- Descripción de las bases de datos
- Descripción del sistema
- Experimentos de identificación de emociones
basados en información segmental - Experimentos de identificación de emociones
basados en información prosódica - Conclusiones
- Líneas futuras
41LÍNEAS FUTURAS (I)
- Aplicación de los experimentos realizados sobre
la futura base de datos SEV - Combinación de características prosódicas y
segmentales basadas en técnicas de combinación de
clasificadores disponibles en el Grupo - Identificación de emociones basada en información
prosódica con datos de EMODB - Aplicación de técnicas de normalización en los
vectores de características basados en rasgos
prosódicos
42- LÍNEAS FUTURAS (II)
- Sustitución del modelo GMM por el modelo HMM,
introduciendo la variación temporal - Consideración de nuevas características
prosódicas - Contorno de F0 de los grupos acentuales
- Características relacionadas con la intensidad
- Evolución del máximo de F0 en los distintos
grupos acentuales - Derivada de la velocidad de locución
- Base de datos DES ? comparación entre el
castellano, el alemán y el danés
43MUCHAS GRACIAS