Procesamiento y Compresi - PowerPoint PPT Presentation

About This Presentation
Title:

Procesamiento y Compresi

Description:

Title: PowerPoint Presentation Last modified by: Angel de la Torre Vega Created Date: 1/1/1601 12:00:00 AM Document presentation format: Presentaci n en pantalla – PowerPoint PPT presentation

Number of Views:88
Avg rating:3.0/5.0
Slides: 34
Provided by: ugrEs
Category:

less

Transcript and Presenter's Notes

Title: Procesamiento y Compresi


1
Procesamiento y Compresión de Señales de Audio
  • PROGRAMA DE POSGRADO EN
  • SISTEMAS MULTIMEDIA
  • Ángel de la Torre

2
Organización
  • Audición.
  • Implantes cocleares.
  • Reconocimiento robusto de voz.
  • Presentación de trabajos.
  • ( 1/2 hora y/o memoria)
  • Transparencias en
  • http//www.ugr.es/atv
  • E-mail atv_at_ugr.es

3
Reconocimiento robusto de voz
4
Sistemas de reconocimiento automático de voz
(ASR) en ruido
  • El ruido contamina la señal de voz en todas las
    aplicaciones reales
  • Entorno de oficina (ventiladores, HDs, teclados,
    gente, música.)
  • Línea de teléfono (entorno y línea)
  • Telefonía móvil (además canal de radio y codec)
  • ASR de voz adquirida en automóvil
  • El ruido degrada ASR

5
Consideraciones sobre el ruido en ASR
  • En qué condiciones se va a adquirir la señal de
    voz?
  • Métodos para robustecer el sistema frente al
    ruido
  • ASR en ruido es una línea de investigación
    importante

6
Métodos de robustecimiento
  • Principal problema mismatch train-reco
  • Representaciones robustas
  • Compensación de la voz ruidosa
  • Adaptación de los modelos limpios

7
Representación de la voz
  • Voz cuasi-estacionaria en segmentos de 30-50 ms
    (duración de los fonemas)
  • Información relevante para ASR características
    espectrales de tiempo corto
  • Representaciones típicas para ASR cepstrum-FFT
    cepstrum-LPC MFCC

8
Representación de la voz MFCC
  • Pre-énfasis
  • Segmentación en frames (20 40 ms)
  • Ventana de Hamming
  • Banco de filtros en escala MEL (FBO)
  • Escalado logarítmico (log-FBO)
  • Transformada discreta del coseno (MFCC)
  • Energía derivadas (Delta) segundas derivadas
    (Delta-Delta)

9
Efecto del ruido aditivo
  • El ruido distorsiona el dominio log-FBO

10
Distorsión del dominio log-FBO
11
Distorsión del dominio log-FBO
12
Distorsión PDFs
13
Aleatoriedad del ruido
14
Ruido y ASR
  • Experimentos con voz contaminada artificialmente
  • Ruido AWGN
  • Tarea de dígitos conectados
  • Retrain (adaptación ideal)
  • Baseline (sin robustecimiento)
  • Degradación debida a mismatch
  • Degradación debida a pérdida de información

15
Métodos para ASR robusto
  • Representaciones robustas
  • Ventanas de liftering (cepstrum-LPC)
  • Proyección ceptral (cepstrum-LPC)
  • Modelos auditivos
  • Cepstrum en escala MEL (MFCC)
  • Parametrizaciones discriminativas (LDA, DFE)
  • Eliminación de variaciones lentas RASTA CMN
    coeficientes Delta y Delta-Delta

16
Métodos para ASR robusto (II)
  • Compensación de la voz
  • Mapeo lineal de parámetros
  • Sustracción espectral / filtrado de Wiener
  • Realce estadístico

17
Métodos para ASR robusto (III)
  • Compensación de los modelos
  • Descomposición de HMM PMC
  • Filtrado de Wiener dependiente del estado
  • Adaptación estadística de los modelos
  • Contaminación del corpus de entrenamiento

18
Compensación del efecto del ruido basada en el
método de Monte Carlo
19
Compensación del efecto del ruido
  • Compensación en el dominio log-FBO
  • Estimación del ruido en log-FBO usando un VAD
  • Compensación canal por canal

20
Compensación del efecto del ruido
  • Estimación basada en método de Monte Carlo
  • Generamos voz y ruido de acuerdo con las
    probabilidades
  • Calculamos parejas voz-limpia voz-ruidosa
  • Calculamos valor esperado de voz limpia dada la
    voz ruidosa observada

21
(No Transcript)
22
Compensación del efecto del ruido
  • Compensación definida como una función
  • Implementación práctica interpolación lineal con
    algunos puntos (k)

23
(No Transcript)
24
(No Transcript)
25
Experimentos de reconocimiento
  • Base de datos VODIS en francés
  • Voz grabada en entorno de automóvil
  • Condiciones reales de ruido
  • Grabaciones con dos micrófonos
  • Far-talk
  • Close-talk
  • Test siempre con Far-talk
  • Diferentes condiciones de conducción

26
Experimentos de reconocimiento
  • Tarea de reconocimiento números de teléfono (en
    francés)
  • Sistema de reconocimiento
  • CHMM
  • Cada palabra representada como un HMM de 10
    estados
  • Cada estado es una pdf mezcla de Gaussianas
    (entre 1 y 8 Gauss/estado)
  • Front-end MFCC

27
Experimentos de reconocimiento
  • Métodos comparados
  • CMN
  • Compensación en dominio log-FBO basada en método
    de Monte Carlo
  • Adaptación de los modelos a las condiciones de
    reconocimiento
  • Reentrenamiento en condiciones Far-Talk

28
(No Transcript)
29
Experimentos de reconocimiento (ruido añadido
artificialmente)
  • Ruido AWGN
  • Añadido artificialmente
  • Dígitos conectados
  • Baseline (CMN) y retrain como referencias
  • Compensación Monte Carlo, VTS, UTS

30
(No Transcript)
31
Comentarios
  • Con AWGN los resultados re-train y compensación
    coinciden
  • Re-entrenamiento es óptimo
  • Compensación es (casi) óptimo
  • Con ruido real
  • Re-entrenamiento es sub-óptimo
  • Compensación es sub-óptimo
  • Mejor solución compensación de ambos

32
Resumen
  • Importancia del ruido en aplicaciones del
    Reconocimiento Automático de Voz
  • Importancia de los métodos de robustecimiento
  • Mecanismos de degradación
  • Mismatch (distorsión del espacio de repr.)
  • Pérdida de información (aleatoriedad)

33
Resumen (2)
  • Métodos de robustecimiento
  • Orientados a eliminar el mismatch
  • Métricas robustas
  • Compensación de representación
  • Adaptación de modelos
  • Experimentos ruido real / controlado
  • Resultados
  • Combinación de adaptación de modelos y
    compensación de la representación
Write a Comment
User Comments (0)
About PowerShow.com