Title: Aplicaciones de la Transformada de Fourier : Procesamiento de se
1Aplicaciones de la Transformada de Fourier
Procesamiento de señales de voz
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD
DE INGENIERIA
Matemáticas Avanzadas Grupo 6 Equipo
Gibbs Galicia Jimenez Jonathan Gutiérrez Vera
José Carlos Jose Silva Alma B. Semestre 2007 -
1 21/noviembre/2006
2Qué es la voz?
- Onda de sonido (onda de presión)
- Producida por el aparato fonador
- Utilizada para comunicación (para transmisión de
mensajes)
3Problemas del procesamiento de voz
- Variabilidad
- Intra-locutor (estado salud / ánimo, velocidad)
- Inter-locutor
- Adquisición
- Continuidad concatenación
- Información contenida en la señal de voz muy
redundante - Multi-interactividad entre niveles
- Nivel fonético
- Características suprasegmentales
- Nivel semántico contexto suplencia mental
- Ruido perturbación efecto Lombard
4- Variabilidad de las señales de voz
- 40 ms correspondientes al fonema /a/
5Modelo acústico de producción de voz
- Onda acústica onda de presión en el aire con c
350 m/s - Longitud de onda l c / f
- Para 100 Hz, l 3.5 m
- Para 4 kHz, l 8.75 cm
- Producción de sonido
- Fonemas sonoros vibración cuerdas vocales
- Fonemas sordos flujo turbulento
- Fonemas oclusivos obstrucción apertura
6Modelo acústico de producción de voz (II)
- Paredes no rígidas
- Pérdidas onda acústica
- Forma y sección del tracto vocal varía en el
tiempo - Se producen entre 5 y 20 fonemas por segundo
- Acoplamiento de la cavidad nasal mediante
desplazamiento del velo del paladar
7Simplificaciones
- Tracto vocal tubo rígido descrito por la función
de área A(x,t) - Como l gt radio del tubo, aproximación de onda
plana - (El problema de contorno tridimensional se puede
reducir a un problema unidimensional) - Se desprecian pérdidas por viscosidad, conducción
térmica en aire y paredes del tubo
8Función de área
9Ecuaciones de onda
es la variación de presión (respecto de la presión en el equilibrio) en el tubo, en la posición z e instante t
es el flujo del aire (volumen de aire que por unidad de tiempo atraviesa la sección del tubo en la posición z e instante t
? es la densidad del aire
c es la velocidad del sonido, aproximadamente 350 m/s
es la función de área, que describe el área en la sección transversal del tubo para la posición z e instante t
10Pérdidas por elasticidad
- mw masa/unid.long
- bw cte. amortiguación
- kw cte. recuperación elástica
- Solución para
- L 17.5 cm
- A cte 5.0 cm2
11(No Transcript)
12Formantes
- Formantes resonancias del tracto vocal
- Por las dimensiones y la velocidad de propagación
del sonido, aparece en promedio 1 formante por
cada kHz - El tracto vocal filtra la onda glotal
amplifica cada componente de frecuencia con una
determinada ganancia
13Pérdidas por radiación de onda
- p(L) 0 no es cierto
- Impedancia acústica Z
- Impedancia para abertura circular de radio a en
plano infinito - El filtrado del tracto vocal considerando las
perdidas por radiación es distinto - Caída para altas frecuencias
- 6 dB / década
14(No Transcript)
15Solución numérica para función de área
correspondiente a fonema /a/
16Modelo acústico de producción de voz
- Excitación
- Fonemas sonoros
- Fonemas sordos
- Fonemas oclusivos
- Filtrado por tracto vocal / nasal
- Formantes (1 por kHz)
- Caída 6 dB/década
17Modelo digital de producción de voz
18Características de la voz
- Excitación
- Sonoro (freq. fundamental o pitch)
- Sordo
- Oclusivo
- Combinación
- Formantes
- Cavidad buco-nasal
- Envolvente espectral
- Energía presión de aire
- Evolución en el tiempo de los parámetros
19Análisis de señales de voz
- Conceptos de procesado de señales
- Transformada de Fourier
- Componentes de frecuencia
- Espectro de potencia
- Filtrado
- Ventanas
- Muestreo
- Espectrogramas
20Transformada de Fourier
- Transformada (FT)
- Cambio de representación
- Misma información (otra representación)
- Existe transformada inversa (FT-1)
- Transforma señal compleja en señal compleja
21Espectro de potencia (1)
22Espectro de potencia (2)
23Descomposición en componentes freq.
24Linealidad de la Transformada de Fourier
25Linealidad de la Transformada de Fourier
26Filtrado
excitación
señal filtrada
filtro
- Caracterización del filtro
- Tiempo respuesta impulsiva
- Frecuencia función de transferencia (o respuesta
en frecuencia)
27Filtrado en el tiempo convolución
28Filtrado en frecuencia multiplicación
29Ventanas (multiplicación en tiempo)
30Ventanas (multiplicación en tiempo)
31Transformada de un tren de pulsos
32Transformada de señal periódica
33Muestreo de señales T. de muestreo
34DFT y FFT
- Transformada discreta de Fourier (DFT)
- Transformada rápida de Fourier (FFT)
- Señales discretas (muestreadas)
- Ventana (resolución espectral)
- N muestras en t gt N muestras en f
- FFT Muy utilizada en procesamiento digital de
señales
35La señal de voz
/sal/
36La señal de voz
/s/
/a/
/l/
37Estacionariedad de la voz
- La señal de voz es estacionaria a trozos
- Durante la pronunciación de un fonema es
quasi-estacionaria - Velocidad cambios tracto vocal
- Velocidad cambios cuerdas vocales
- Estacionaria durante 20 40 ms
- Velocidad de pronunciación 5-20 fonemas / seg
- Análisis de trozos de voz estacionarios
ventanas
38Análisis con ventanas
39Análisis con ventanas
40Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
41Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
42Formantes 1º y 2º en vocales
43Espectro de consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
44Espectro de consonantes fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
45Fonemas no estacionarios
- Fonemas estacionarios
- vocales /a/ /e/ /i/ /o/ /u/
- consonantes sonoras /l/ /y/ /R/ /m/ /n/ /ñ/
- consonantes fricativas /s/ /sh/ /ss/ /z/ /f/ /j/
- Fonemas no estacionarios
- Plosivas sordas /p/ /t/ /k/
- Plosivas sonoras /b/ /d/ /g/
- Otras consonantes /ch/ /r/
46Espectrograma (representación tiempo -
frecuencia)
47Espectrograma (representación tiempo -
frecuencia)
m b o i a kom p r a R p a n
48Ventana en el espectrograma 64ms / 8 ms
49Información relevante de la señal de voz
- Para reconocimiento de voz
- Envolvente espectral (formantes)
- Evolución temporal de los formantes
- Información espectral de tiempo corto
- Información complementaria
- Tono fundamental
- Estructura fina del espectro
50Capacidad del oído humano
- Resolución en frecuencia 1/9 tono
- fo - 1.013fo 450 Hz - 456 Hz
- rango de frecuencia 20 Hz - 20.000 Hz
- Resolución en el tiempo
- limitado por tiempo relajación de células
ciliadas y terminaciones nerviosas (400 disparos
por seg.) - Resolución en intensidad
- Mejor de 1 dB
- Mecanismos de adaptación.
51Glosario
- concatenar. (Del lat. concatenare). 1. tr. Unir o
enlazar unas cosas con otras. - efecto Lombard-. El ruido de fondo, que hace que
el esfuerzo realizado por las cuerdas vocales sea
mayor, lo que modifica el proceso de producción
de la voz. - fonema. (Del gr. f???µa, sonido de la voz). 1. m.
Fon. Cada una de las unidades fonológicas mínimas
que en el sistema de una lengua pueden oponerse a
otras en contraste significativo - tracto. (Del lat. tractus). 1. m. Espacio que
media entre dos lugares. 2. m. Lapso de tiempo.