DISE - PowerPoint PPT Presentation

About This Presentation
Title:

DISE

Description:

Title: Dise o, implementaci n y evaluaci n de t cnicas de identificaci n de emociones a trav s de la voz Author: CARMEN Last modified by: Roberto Barra Chicote – PowerPoint PPT presentation

Number of Views:67
Avg rating:3.0/5.0
Slides: 44
Provided by: CARM2208
Category:
Tags: dise | carmen

less

Transcript and Presenter's Notes

Title: DISE


1
DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS
DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ
  • Autora Carmen Rincón Llorente
  • Tutor Roberto Barra Chicote
  • Ponente Juan Manuel Montero Martínez

2
ÍNDICE
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

3
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

4
INTRODUCCIÓN
  • Qué es una emoción?
  • Estado emocional ? variaciones en la voz
    (características segmentales y prosódicas)
  • Comunicación verbal ? patrón específico y
    universal de las emociones
  • Función comunicativa y valorativa de las
    emociones ? identificación para mejorar la
    interacción hombre-máquina

5
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

6
OBJETIVOS
  • Identificación basada en rasgos segmentales
  • Identificación basada en rasgos prosódicos
  • Análisis de la naturaleza de las emociones ?
    similitudes y diferencias entre castellano y
    alemán
  • Aplicación de técnicas de normalización
  • Evaluación de resultados automáticos (con
    entrenamiento) vs resultados perceptuales
    (oyentes no entrenados)

7
  • Introducción
  • Objetivos
  • Descripción de las bases de datos
  • 3.1. SES
  • 3.2. EMODB
  • Descripción del sistema
  • Experimentos de identificación de emociones
    basados en información segmental
  • Experimentos de identificación de emociones
    basados en información prosódica
  • Conclusiones
  • Líneas futuras

8
3.1. Spanish Emotional Speech (SES)
  • Base de datos en castellano
  • Monolocutor (varón)
  • Alegría, Enfado (en frío), Sorpresa, Tristeza y
    voz Neutra
  • Composición del corpus
  • 56 párrafos ( 39 minutos)
  • 210 frases grabadas de forma independiente ( 7
    minutos)
  • 196 frases extraídas del párrafo cuarto (
    12,5 minutos)
  • Etiquetada fonética y prosódicamente

9
3.2. Berlin Database of Emotional Speech
(EMODB) (I)
  • Base de datos en alemán
  • Multilocutor 10 locutores
  • Alegría, Enfado (en caliente), Tristeza,
    Aburrimiento, Asco, Miedo y voz Neutra
  • Etiquetada fonéticamente
  • 535 ficheros de audio (24,35 minutos)

10
3.2. Berlin Database of Emotional Speech
(EMODB) (II)
11
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

12
DIAGRAMA DE BLOQUES
  • Modelo GMM
  • Clasificador bayesiano

13
4.1. Parametrización (I)
  • Basada en características segmentales

Extraeremos 12 MFCC a partir de la señal de voz
según el siguiente esquema
14
4.1. Parametrización (II)
  • Basada en características prosódicas
  • Prosodia analiza y representa formalmente
    elementos suprasegmentales de la expresión oral
    (acento, tono, ritmo, entonación).
  • Características estudiadas
  • Relacionadas con el contorno de F0
  • Valor medio de F0
  • Máximo y mínimo de F0
  • Rango de F0
  • Pendiente ascendente y descendente de grupos
    acentuales
  • Relacionadas con el ritmo
  • Velocidad de locución de la frase
  • Velocidad de cada grupo acentual

15
4.1. Parametrización (III)
Señal de voz
Contorno de F0
Contorno de F0 interpolado
División en grupos acentuales
16
4.2. Normalización
  • CMN (normalización respecto a la media)
  • Estimada sobre toda la voz del locutor
  • Estimada sobre la voz neutra del locutor
  • CVN (normalización respecto a la varianza)
  • Estimada sobre toda la voz del locutor
  • Estimada sobre la voz neutra del locutor
  • CMN/CVN (normalización respecto a la media y
    varianza)
  • Estimada sobre toda la voz del locutor
  • Estimada sobre la voz neutra del locutor

17
  • Introducción
  • Objetivos
  • Descripción de las emociones
  • Descripción del sistema
  • Experimentos de identificación de emociones
    basados en información segmental
  • 5.1. SES
  • 5.2. EMODB
  • 5.3. SES EMODB
  • Experimentos de identificación de emociones
    basados en información prosódica
  • Conclusiones
  • Líneas futuras

18
5.1. MFCCSES Sin normalizar (I)
  • Tipos de Experimentos
  • Tasas de identificación medias

19
5.1. MFCCSES Sin normalizar (II)
  • Tasas de identificación para cada emoción
  • Clasificación de frases
  • Clasificación de párrafos
  • Experimento 4
  • Se identifica siempre la alegría, el enfado, la
    tristeza y la voz neutra.
  • La sorpresa se confunde con la alegría (50).
  • Experimento 5
  • Se identifican siempre el enfado, la sorpresa, la
    tristeza y la voz neutra.
  • La alegría siempre se identifica salvo en uno de
    los párrafos, que se confunde con la voz neutra.

20
5.1. MFCCSES Normalizando (I)
  • Experimento 2 (sin compartición de texto y
    adecuada distribución de los datos de
    entrenamiento y clasificación)
  • Tasas de identificación medias

21
5.1. MFCCSES Normalizando (II)
  • Tasas de identificación para cada emoción
  • Emociones que mejor se identifican ? tristeza,
    enfado y voz neutra
  • Emociones que peor se identifican ? alegría y
    sorpresa (se confunden entre ellas)
  • Menor precisión del enfado (88) frente a la
    tristeza y neutra (?96)
  • Tasas de error y mejora relativa del error al
    emplear vectores de características normalizados

22
5.2. MFCC EMODB (I)
  • Metodología
  • Entrenamiento con 9 locutores y clasificación con
    el restante
  • Tasas de identificación medias

23
5.2. MFCC EMODB (II)
  • Tasas de identificación para cada emoción
    (normalizando con CMN/CVN respecto a la voz del
    locutor)

24
5.3. MFCCSES EMODB
  • Train SES Test EMODB
  • Train EMODB Test SES
  • EXPERIMENTOS
  • Sin normalizar
  • Normalización respecto a la voz del locutor
  • CMN, CVN y CMN/CVN
  • Normalización respecto a la voz del neutra
    locutor
  • CMN, CVN y CMN/CVN

25
5.3. MFCCTrain SES Test EMODB (I)
  • Tasas de identificación medias
  • Del orden de las que obteníamos sólo con EMODB
  • 42 (1 gausiana) a 50 (5 gausianas)
  • Mejor normalización ? CMN/CVN
  • respecto a la voz del locutor (9 de mejora
    relativa)
  • respecto a la voz neutra del locutor (11,33 de
    mejora relativa)

26
Reconocimiento de Emociones Independiente de
Idioma
  • normalizando CMNCVN respecto a la voz del locutor

27
5.3. MFCCTrain SES Test EMODB
(III)(Similitud entre emociones de ambos idiomas)
  • Emoción que mejor se identifica ? tristeza (100)
  • Confusión de todas las emociones, salvo la
    tristeza, con la sorpresa
  • Enfado (81,10)
  • Alegría (50,70)
  • Miedo (46,38)
  • Cierta confusión con la alegría (asco, 45)

28
5.3. MFCCTrain EMODB Test SES
  • Mejoras al normalizar no significativas
  • Tasas de identificación para cada emoción
    (clasificación de los párrafos de SES)
  • Tristeza y neutra siempre se identifican
  • Identificación elevada de la alegría,
    confundiéndose con la voz neutra cuando no se
    identifica
  • Confusión del enfado con la alegría y con la voz
    neutra
  • Tasas de identificación para cada emoción
    (clasificación de las frases de SES)
  • La voz neutra siempre se identifica, pero el
    resto de emociones se confunden con ella, por lo
    que su precisión es baja

29
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

30
  1. Identificación basada en información prosódica
  • Realizados sólo con SES (frases independientes)
  • Tipos de experimentos
  • Relacionados con el contorno de F0
  • Relacionados con el ritmo (velocidad de locución
    de la frase y velocidad de locución de los grupos
    acentuales)
  • Experimentos con todos los grupos acentuales,
    sólo con los iniciales, sólo con los finales y
    sólo con los medios

31
6.1. Experimentos relacionados con el contorno
de F0 (I)
Valor medio F0 Máximo F0 Mínimo F0 Rango F0 Pendiente ascendente GA Pendiente descendente GA
  • Resultados de los experimentos empleando todos
    los GA

32
6.1. Experimentos relacionados con el contorno
de F0 (II)
  • Emoción que mejor se identifica ? sorpresa
    (97,77) (la información principal de la sorpresa
    se encuentra en los GA iniciales y medios)
  • La información prosódica de la tristeza se
    encuentra en los GA medios (92,3)
  • La alegría sólo se identifica usando los GA
    medios (51,27)
  • El enfado sólo se identifica usando los GA
    iniciales (46,8)
  • Confusión de la alegría con el enfado al emplear
    los GA iniciales (44,43)
  • La sorpresa nunca se confunde con la tristeza ni
    con la voz neutra, y viceversa

33
6.2. Experimentos relacionados con el ritmo
  • Velocidad de locución de la frase
  • Sólo se identifican la tristeza (80) y la voz
    neutra (69)
  • Confusiones
  • Enfado con sorpresa (42) y tristeza (42)
  • Sorpresa con tristeza (58)
  • Alegría con voz neutra (58)
  • Precisiones bajas
  • Patrón unívoco para la tristeza y la voz neutra
  • Velocidad de cada grupo acentual
  • Emoción que mejor se identifica ? tristeza
    (87,17)
  • Elevada tasa de confusión del enfado y la
    sorpresa, con la tristeza ? baja precisión de la
    tristeza
  • Elevada tasa de identificación de la voz neutra
    empleando todos los GA (74,77) o los GA medios
    (72,77)

34
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

35
7.1. CONCLUSIONES MFCC - SES
  • Importancia del estilo de interpretación de las
    emociones (párrafos/frases)
  • Tasa de identificación media elevada (? 92)
  • Emociones que mejor se identifican
  • Tristeza (93), enfado (92) y voz neutra (92)
  • Emociones que peor se identifican
  • Alegría (80) y sorpresa (89)
  • Mejor normalización
  • CMN/CVN respecto a la voz neutra del locutor (?
    32)

36
7.2. CONCLUSIONES MFCC - EMODB
  • Tasa de identificación media sin normalizar ?46
  • Mejor normalización
  • CMN/CVN respecto a la voz del locutor
  • Mejoras consistentes (?18 relativo)
  • Emoción que mejor se identifica
  • Tristeza (95)
  • Emociones que peor se identifican
  • Miedo (45)
  • Alegría (42). La alegría se confunde
    principalmente con el enfado y el miedo.

37
7.3. CONCLUSIONESMFCC SES EMODB
  • Emoción que mejor se identifica
  • Tristeza ? características comunes en ambos
    idiomas
  • Train SES, Test EMODB
  • Tasas de identificación medias similares a cuando
    empleamos solamente EMODB (50)
  • Agrupamiento en alegría-enfado y tristeza-neutra
  • Train EMODB, Test SES
  • Voz neutra en alemán la más cercana a las
    emociones en castellano
  • Similitud entre emociones de ambos idiomas
  • Todas las emociones tienden a confundirse con la
    sorpresa y con la alegría (excepto la tristeza)

38
7.4. CONCLUSIONESProsodia - SES
  • Características relacionadas con el contorno de
    F0
  • Emociones muy prosódicas ? sorpresa (97,77),
    tristeza (92,3) y neutra (94,83)
  • Emociones poco prosódicas ? alegría (51,27) y
    enfado (46,8)
  • Características relacionadas con el ritmo
  • Se produce gran confusión
  • Elevada tasa de identificación de la tristeza
    (87,17)
  • Elevada tasa de confusión de la sorpresa (75,57)
    y el enfado (70) con la tristeza

39
7.5. Comparativa con estudios anteriores

-
PROSÓDICA
-
Alegría
Sorpresa
Tristeza
S E GME N T A L
Conclusiones de la tesis de Juan Manuel Montero
Conclusiones de este proyecto
Alegría
Neutra (común en ambos estudios)
Sorpresa
Alegría
Neutra
Alegría
Tristeza
Enfado
Enfado

40
  1. Introducción
  2. Objetivos
  3. Descripción de las bases de datos
  4. Descripción del sistema
  5. Experimentos de identificación de emociones
    basados en información segmental
  6. Experimentos de identificación de emociones
    basados en información prosódica
  7. Conclusiones
  8. Líneas futuras

41
LÍNEAS FUTURAS (I)
  • Aplicación de los experimentos realizados sobre
    la futura base de datos SEV
  • Combinación de características prosódicas y
    segmentales basadas en técnicas de combinación de
    clasificadores disponibles en el Grupo
  • Identificación de emociones basada en información
    prosódica con datos de EMODB
  • Aplicación de técnicas de normalización en los
    vectores de características basados en rasgos
    prosódicos

42
  1. LÍNEAS FUTURAS (II)
  • Sustitución del modelo GMM por el modelo HMM,
    introduciendo la variación temporal
  • Consideración de nuevas características
    prosódicas
  • Contorno de F0 de los grupos acentuales
  • Características relacionadas con la intensidad
  • Evolución del máximo de F0 en los distintos
    grupos acentuales
  • Derivada de la velocidad de locución
  • Base de datos DES ? comparación entre el
    castellano, el alemán y el danés

43
MUCHAS GRACIAS
Write a Comment
User Comments (0)
About PowerShow.com