Title: Procesamiento de seales de voz
1Procesamiento de señales de voz
2La comunicación oral
3Qué es la voz?
- Onda de sonido (onda de presión)
- Producida por el aparato fonador
- Utilizada para comunicación (para transmisión de
mensajes)
4Cuestiones varias
- Qué relación hay entre los fonemas y la señal de
voz? - Y entre otras características y la señal de voz?
- Cómo podemos analizar las características de la
voz? - Cómo se manifiesta una patología de la voz en la
señal? - Cómo podemos ajustar un sistema de ayuda a la
audición para optimizar la comprensión de la voz? - Cómo podemos interpretar un error en la
producción de un fonema? - Cómo podemos interpretar un error en detección o
identificación de fonemas?
5Procesamiento de voz
- Análisis de voz
- Codificación y comprensión de voz
- Síntesis de voz
- Reconocimiento automático de voz
- Reconocimiento y verificación de locutores
- Detección de patologías
- Diseño de ayudas para la audición
6Qué es la voz?
- Producción de la voz
- Percepción de la voz
- Procesamiento de señales
- Dificultades al intentar relacionar la señal con
las características
7Problemas del procesamiento de voz
- Variabilidad
- Intra-locutor (estado salud / ánimo, velocidad)
- Inter-locutor
- Adquisición
- Continuidad concatenación y coarticulación
- Información contenida en la señal de voz muy
redundante - Multi-interactividad entre niveles
- Nivel fonético
- Características suprasegmentales
- Nivel semántico contexto suplencia mental
- Ruido perturbación efecto Lombard
8- Variabilidad de las señales de voz
- 40 ms correspondientes al fonema /a/
9Modelos de producción de voz
- Órganos de producción de voz
- Cavidades infraglóticas
- Cavidad laríngea (cuerdas vocales)
- Cavidades supraglóticas
- Provisión de aire
- Generación de la onda glotal
- Filtrado de la onda glotal (diversificación
fonética)
10Modelo acústico de producción de voz
- Onda acústica onda de presión en el aire con c
350 m/s - Longitud de onda l c / f
- Para 100 Hz, l 3.5 m
- Para 4 kHz, l 8.75 cm
- Producción de sonido
- Fonemas sonoros vibración cuerdas vocales
- Fonemas sordos flujo turbulento
- Fonemas oclusivos obstrucción apertura
11Modelo acústico de producción de voz (II)
- Paredes no rígidas
- Pérdidas onda acústica
- Forma y sección del tracto vocal varía en el
tiempo - Se producen entre 5 y 20 fonemas por segundo
- Acoplamiento de la cavidad nasal mediante
desplazamiento del velo del paladar
12Simplificaciones
- Tracto vocal tubo rígido descrito por la función
de área A(x,t) - Como l gt radio del tubo, aproximación de onda
plana - (El problema de contorno tridimensional se puede
reducir a un problema unidimensional) - Se desprecian pérdidas por viscosidad, conducción
térmica en aire y paredes del tubo
13Función de área
14Ecuaciones de onda
15Condiciones de contorno
- Glotis vibración cuerdas vocales
- Labios p(L)0
- Onda proporcional a u(L)
Solución de las ecuaciones de onda
- A se puede suponer constante en el tiempo
(condición de quasi-estacionariedad) - Para A(x) sencilla, soluciones analíticas
- Para A(x) compleja, métodos numéricos
- Medidas de A(x) Rx, TAC, RMN, articulógraf.
16Pérdidas por elasticidad
- mw masa/unid.long
- bw cte. amortiguación
- kw cte. recuperación elástica
- Solución para
- L 17.5 cm
- A cte 5.0 cm2
17u(L,f) / uG(f)
18Formantes
- Formantes resonancias del tracto vocal
- Por las dimensiones y la velocidad de propagación
del sonido, aparece en promedio 1 formante por
cada kHz - El tracto vocal filtra la onda glotal
amplifica cada componente de frecuencia con una
determinada ganancia
19Pérdidas por radiación de onda
- p(L) 0 no es cierto
- Impedancia acústica Z
- Impedancia para abertura circular de radio a en
plano infinito - El filtrado del tracto vocal considerando las
perdidas por radiación es distinto - Caída para altas frecuencias
- 6 dB / década
20u(L,f) / uG(f)
21Solución numérica para función de área
correspondiente a fonema /a/
22Acoplamiento del tracto nasal
23Modelo acústico de producción de voz
- Excitación
- Fonemas sonoros
- Fonemas sordos
- Fonemas oclusivos
- Filtrado por tracto vocal / nasal
- Formantes (1 por kHz)
- Caída 6 dB/década
24Modelo digital de producción de voz
25Características de la voz
- Excitación
- Sonoro (freq. fundamental o pitch)
- Sordo
- Oclusivo
- Combinación
- Formantes
- Cavidad buco-nasal
- Envolvente espectral
- Energía presión de aire
- Evolución en el tiempo de los parámetros
26Características de la voz
TONO
- Excitación
- Sonoro (freq. fundamental o pitch)
- Sordo
- Oclusivo
- Combinación
- Formantes
- Cavidad buco-nasal
- Envolvente espectral
- Energía presión de aire
- Evolución en el tiempo de los parámetros
TIMBRE
INTENSIDAD
DURACIÓN
27Clasificación de los fonemas(desde el punto de
vista de la producción)
- Actividad de cuerdas vocales
- Vocales
- Consonantes sonoras
- Consonantes sordas
- Modo de articulación
- Vocales
- Consonantes
- Lugar de articulación
- Vocales
- Consonantes
28Clasificación de vocales
- Modo de articulación (formante 1)
- Cerradas (i,u)
- Medias (e,o)
- Abiertas (a)
- Lugar de articulación (formante 2)
- Anteriores (i,e)
- Centrales (a)
- Posteriores (o,u)
29Formantes 1º y 2º en vocales
30Modo de articulación (cons.)
- Oclusivas (b,d,g,p,t,k)
- Fricativas (s,f,z,x,y)
- Africadas (ch)
- Nasales (m,n,ñ)
- Líquidas
- Laterales (l, ll)
- Vibrantes (r, R)
31Lugar de articulación (cons.)
- Bilabiales (b,p,m)
- Labiodentales (f)
- Linguodentales (t,d)
- Linguointerdentales (z)
- Linguoalveolares (s,n,l,r,R)
- Linguopalatales (y,ch,ñ,ll)
- Linguovelares (k,g,x)
32Fonemas del español
33Análisis de señales de voz
- Conceptos de procesado de señales
- Transformada de Fourier
- Componentes de frecuencia
- Espectro de potencia
- Filtrado
- Ventanas
- Muestreo
- Espectrogramas
34Transformada de Fourier
- Transformada (FT)
- Cambio de representación
- Misma información (otra representación)
- Existe transformada inversa (FT-1)
- Transforma señal compleja en señal compleja
35Espectro de potencia (1)
36Espectro de potencia (2)
37Descomposición en componentes freq.
38Linealidad de la Transformada de Fourier
39Linealidad de la Transformada de Fourier
40Filtrado
excitación
señal filtrada
filtro
- Caracterización del filtro
- Tiempo respuesta impulsiva
- Frecuencia función de transferencia (o respuesta
en frecuencia)
41Filtrado en el tiempo convolución
42Filtrado en frecuencia multiplicación
43Ventanas (multiplicación en tiempo)
44Ventanas (multiplicación en tiempo)
45Transformada de un tren de pulsos
46Transformada de señal periódica
47Muestreo de señales T. de muestreo
48Transformada Fourier Resumen
49DFT y FFT
- Transformada discreta de Fourier (DFT)
- Transformada rápida de Fourier (FFT)
- Señales discretas (muestreadas)
- Ventana (resolución espectral)
- N muestras en t gt N muestras en f
- FFT Muy utilizada en procesamiento digital de
señales
50La señal de voz
/sal/
51La señal de voz
/s/
/a/
/l/
52Estacionariedad de la voz
- La señal de voz es estacionaria a trozos
- Durante la pronunciación de un fonema es
quasi-estacionaria - Velocidad cambios tracto vocal
- Velocidad cambios cuerdas vocales
- Estacionaria durante 20 40 ms
- Velocidad de pronunciación 5-20 fonemas / seg
- Análisis de trozos de voz estacionarios
ventanas
53Análisis con ventanas
54Análisis con ventanas
55Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
56Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
57Formantes 1º y 2º en vocales
58Espectro de consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
59Espectro de consonantes fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
60Fonemas no estacionarios
- Fonemas estacionarios
- vocales /a/ /e/ /i/ /o/ /u/
- consonantes sonoras /l/ /y/ /R/ /m/ /n/ /ñ/
- consonantes fricativas /s/ /sh/ /ss/ /z/ /f/ /j/
- Fonemas no estacionarios
- Plosivas sordas /p/ /t/ /k/
- Plosivas sonoras /b/ /d/ /g/
- Otras consonantes /ch/ /r/
61Espectrograma (representación tiempo -
frecuencia)
62Espectrograma (representación tiempo -
frecuencia)
m b o i a kom p r a R p a n
63Ventana en el espectrograma 64ms / 8 ms
64Información relevante de la señal de voz
- Para reconocimiento de voz
- Envolvente espectral (formantes)
- Evolución temporal de los formantes
- Información espectral de tiempo corto
- Información complementaria
- Tono fundamental
- Estructura fina del espectro
65Cómo funciona el oído
- Extrae información de la señal de audio.
- Envía la información al cerebro en forma de
estímulos nerviosos. - El implante coclear trata de imitar el mecanismo
de conversión del sonido en potenciales de acción.
66Características del oído humano
- Configuración de la cóclea
- 6.000 células ciliadas internas
- 40.000 terminaciones nerviosas
- Repolarización 2 ms (400 - 500 disparos/seg)
- Conexión sináptica sin interacción entre canales
- Capacidad de un oído entrenado
- Resolución espectral 1/9 tono
- Resolución temporal 400 - 500 Hz
- Resolución de intensidad 1 dB
67Capacidad del oído humano
- Resolución en frecuencia 1/9 tono
- fo - 1.013fo 450 Hz - 456 Hz
- rango de frecuencia 20 Hz - 20.000 Hz
- Resolución en el tiempo
- limitado por tiempo relajación de células
ciliadas y terminaciones nerviosas (400 disparos
por seg.) - Resolución en intensidad
- Mejor de 1 dB
- Mecanismos de adaptación.