Aplicaciones de la Transformada de Fourier : Procesamiento de se PowerPoint PPT Presentation

presentation player overlay
1 / 51
About This Presentation
Transcript and Presenter's Notes

Title: Aplicaciones de la Transformada de Fourier : Procesamiento de se


1
Aplicaciones de la Transformada de Fourier
Procesamiento de señales de voz
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD
DE INGENIERIA
Matemáticas Avanzadas Grupo 6 Equipo
Gibbs Galicia Jimenez Jonathan Gutiérrez Vera
José Carlos Jose Silva Alma B. Semestre 2007 -
1 21/noviembre/2006
2
Qué es la voz?
  • Onda de sonido (onda de presión)
  • Producida por el aparato fonador
  • Utilizada para comunicación (para transmisión de
    mensajes)

3
Problemas del procesamiento de voz
  • Variabilidad
  • Intra-locutor (estado salud / ánimo, velocidad)
  • Inter-locutor
  • Adquisición
  • Continuidad concatenación
  • Información contenida en la señal de voz muy
    redundante
  • Multi-interactividad entre niveles
  • Nivel fonético
  • Características suprasegmentales
  • Nivel semántico contexto suplencia mental
  • Ruido perturbación efecto Lombard

4
  • Variabilidad de las señales de voz
  • 40 ms correspondientes al fonema /a/

5
Modelo acústico de producción de voz
  • Onda acústica onda de presión en el aire con c
    350 m/s
  • Longitud de onda l c / f
  • Para 100 Hz, l 3.5 m
  • Para 4 kHz, l 8.75 cm
  • Producción de sonido
  • Fonemas sonoros vibración cuerdas vocales
  • Fonemas sordos flujo turbulento
  • Fonemas oclusivos obstrucción apertura

6
Modelo acústico de producción de voz (II)
  • Paredes no rígidas
  • Pérdidas onda acústica
  • Forma y sección del tracto vocal varía en el
    tiempo
  • Se producen entre 5 y 20 fonemas por segundo
  • Acoplamiento de la cavidad nasal mediante
    desplazamiento del velo del paladar

7
Simplificaciones
  • Tracto vocal tubo rígido descrito por la función
    de área A(x,t)
  • Como l gt radio del tubo, aproximación de onda
    plana
  • (El problema de contorno tridimensional se puede
    reducir a un problema unidimensional)
  • Se desprecian pérdidas por viscosidad, conducción
    térmica en aire y paredes del tubo

8
Función de área
9
Ecuaciones de onda
es la variación de presión (respecto de la presión en el equilibrio) en el tubo, en la posición z e instante t
es el flujo del aire (volumen de aire que por unidad de tiempo atraviesa la sección del tubo en la posición z e instante t
? es la densidad del aire
c es la velocidad del sonido, aproximadamente 350 m/s
es la función de área, que describe el área en la sección transversal del tubo para la posición z e instante t
10
Pérdidas por elasticidad
  • mw masa/unid.long
  • bw cte. amortiguación
  • kw cte. recuperación elástica
  • Solución para
  • L 17.5 cm
  • A cte 5.0 cm2

11
(No Transcript)
12
Formantes
  • Formantes resonancias del tracto vocal
  • Por las dimensiones y la velocidad de propagación
    del sonido, aparece en promedio 1 formante por
    cada kHz
  • El tracto vocal filtra la onda glotal
    amplifica cada componente de frecuencia con una
    determinada ganancia

13
Pérdidas por radiación de onda
  • p(L) 0 no es cierto
  • Impedancia acústica Z
  • Impedancia para abertura circular de radio a en
    plano infinito
  • El filtrado del tracto vocal considerando las
    perdidas por radiación es distinto
  • Caída para altas frecuencias
  • 6 dB / década

14
(No Transcript)
15
Solución numérica para función de área
correspondiente a fonema /a/
16
Modelo acústico de producción de voz
  • Excitación
  • Fonemas sonoros
  • Fonemas sordos
  • Fonemas oclusivos
  • Filtrado por tracto vocal / nasal
  • Formantes (1 por kHz)
  • Caída 6 dB/década

17
Modelo digital de producción de voz
18
Características de la voz
  • Excitación
  • Sonoro (freq. fundamental o pitch)
  • Sordo
  • Oclusivo
  • Combinación
  • Formantes
  • Cavidad buco-nasal
  • Envolvente espectral
  • Energía presión de aire
  • Evolución en el tiempo de los parámetros

19
Análisis de señales de voz
  • Conceptos de procesado de señales
  • Transformada de Fourier
  • Componentes de frecuencia
  • Espectro de potencia
  • Filtrado
  • Ventanas
  • Muestreo
  • Espectrogramas

20
Transformada de Fourier
  • Transformada (FT)
  • Cambio de representación
  • Misma información (otra representación)
  • Existe transformada inversa (FT-1)
  • Transforma señal compleja en señal compleja

21
Espectro de potencia (1)
22
Espectro de potencia (2)
23
Descomposición en componentes freq.
24
Linealidad de la Transformada de Fourier
25
Linealidad de la Transformada de Fourier
26
Filtrado
excitación
señal filtrada
filtro
  • Caracterización del filtro
  • Tiempo respuesta impulsiva
  • Frecuencia función de transferencia (o respuesta
    en frecuencia)

27
Filtrado en el tiempo convolución
28
Filtrado en frecuencia multiplicación
29
Ventanas (multiplicación en tiempo)
30
Ventanas (multiplicación en tiempo)
31
Transformada de un tren de pulsos
32
Transformada de señal periódica
33
Muestreo de señales T. de muestreo
34
DFT y FFT
  • Transformada discreta de Fourier (DFT)
  • Transformada rápida de Fourier (FFT)
  • Señales discretas (muestreadas)
  • Ventana (resolución espectral)
  • N muestras en t gt N muestras en f
  • FFT Muy utilizada en procesamiento digital de
    señales

35
La señal de voz
/sal/
36
La señal de voz
/s/
/a/
/l/
37
Estacionariedad de la voz
  • La señal de voz es estacionaria a trozos
  • Durante la pronunciación de un fonema es
    quasi-estacionaria
  • Velocidad cambios tracto vocal
  • Velocidad cambios cuerdas vocales
  • Estacionaria durante 20 40 ms
  • Velocidad de pronunciación 5-20 fonemas / seg
  • Análisis de trozos de voz estacionarios
    ventanas

38
Análisis con ventanas
39
Análisis con ventanas
40
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
41
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
42
Formantes 1º y 2º en vocales
43
Espectro de consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
44
Espectro de consonantes fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
45
Fonemas no estacionarios
  • Fonemas estacionarios
  • vocales /a/ /e/ /i/ /o/ /u/
  • consonantes sonoras /l/ /y/ /R/ /m/ /n/ /ñ/
  • consonantes fricativas /s/ /sh/ /ss/ /z/ /f/ /j/
  • Fonemas no estacionarios
  • Plosivas sordas /p/ /t/ /k/
  • Plosivas sonoras /b/ /d/ /g/
  • Otras consonantes /ch/ /r/

46
Espectrograma (representación tiempo -
frecuencia)
47
Espectrograma (representación tiempo -
frecuencia)
m b o i a kom p r a R p a n
48
Ventana en el espectrograma 64ms / 8 ms
49
Información relevante de la señal de voz
  • Para reconocimiento de voz
  • Envolvente espectral (formantes)
  • Evolución temporal de los formantes
  • Información espectral de tiempo corto
  • Información complementaria
  • Tono fundamental
  • Estructura fina del espectro

50
Capacidad del oído humano
  • Resolución en frecuencia 1/9 tono
  • fo - 1.013fo 450 Hz - 456 Hz
  • rango de frecuencia 20 Hz - 20.000 Hz
  • Resolución en el tiempo
  • limitado por tiempo relajación de células
    ciliadas y terminaciones nerviosas (400 disparos
    por seg.)
  • Resolución en intensidad
  • Mejor de 1 dB
  • Mecanismos de adaptación.

51
Glosario
  • concatenar. (Del lat. concatenare). 1. tr. Unir o
    enlazar unas cosas con otras.
  • efecto Lombard-. El ruido de fondo, que hace que
    el esfuerzo realizado por las cuerdas vocales sea
    mayor, lo que modifica el proceso de producción
    de la voz.
  • fonema. (Del gr. f???µa, sonido de la voz). 1. m.
    Fon. Cada una de las unidades fonológicas mínimas
    que en el sistema de una lengua pueden oponerse a
    otras en contraste significativo
  • tracto. (Del lat. tractus). 1. m. Espacio que
    media entre dos lugares. 2. m. Lapso de tiempo.
Write a Comment
User Comments (0)
About PowerShow.com