Title: Modelado de la seal de voz Grupo PAS Universidad de Deusto
1Modelado de la señal de vozGrupo PAS
Universidad de Deusto
2Indice
- Introducción
- Modelado de la voz
- Resumen de modelos
- LPC
- Cepstrum
- Percepción de la voz.
- Compresión y codificación de la voz.
- Reconocimiento y extracción de características.
- Conclusiones.
- Agracecimientos
- Bibliografía.
31. Introducción
- Su objetivo es
- analizar cómo se produce la voz
- reproducir este proceso de forma que puedan
realizarse transformaciones y operaciones
41.1 Modelado de la Señal
- El modelado de señal es un tipo de representación
que persigue principalmente conseguir una mayor
eficiencia y flexibilidad al transmitir o
almacenar señales. - La naturaleza del modelo depende de su objetivo
- Si es clasificar señales, se concentrara en
eliminar detalles irrelevantes. - Si es la codificación y transmisión, se
concentrará en eliminar las partes de la señal
que no son perceptibles. - Si es modificar la señal, se concentrará en
aislar parámetros de control dentro de ella.
Auque existen procesos comunes para todos los
objetivos.
51.2 La voz humana (I)
- Qué es la voz?
- Onda de sonido (onda de presión) producida por el
aparato fonador utilizada para comunicación. - Desde la Antigua Grecia se han realizado intentos
por generar voces artificiales. - Desarrollo de la telefonía a principios del siglo
XX investigaciones sobre las propiedades de la
voz -gt mejorar la calidad de la comunicación
telefónica.
61.2 La voz humana (II)
- Sistema de comunicación
- Objetivos representación, análisis,
modificación, mejora de la relación señal/ruido,
generación artificial de mensajes vocales
inteligibles para el ser humano y el
reconocimiento automático de mensajes vocales
pronunciados por seres humanos. - Componentes
- Emisor
- Receptor
- Mensaje
- Código
- Canal medio en el cual se propaga la onda sonora
- La combinación del mensaje y el código
constituyen la señal.
71.3 Información relevante de la señal de voz
- Para reconocimiento de voz
- Envolvente espectral (formantes)
- Evolución temporal de los formantes
- Información complementaria
- Tono fundamental y sus variaciones
- Estructura fina del espectro
81.4 Estacionariedad de la voz
- La señal de voz es estacionaria a trozos
- Durante la pronunciación de un fonema es
cuasi-estacionaria - Velocidad cambios tracto vocal
- Velocidad cambios cuerdas vocales
- Estacionaria durante 20 40 ms
- Velocidad de pronunciación 5-20 fonemas / seg
- Análisis de trozos de voz estacionarios
ventanas
91.5 Análisis de señales de voz
- Conceptos de procesado de señales
- Transformada de Fourier
- Componentes de frecuencia
- Espectro de potencia
- Filtrado
- Ventanas
- Muestreo
- Espectrogramas
102. Modelado de la voz
- Las ecuaciones fundamentales que se aplican a la
acústica son lineales ? se pueden utilizar
sistemas lineales en el modelado consiguiendo una
precisión considerable. - Estos modelos lineales siempre serán
aproximaciones, pero utilizar modelos no lineales
es extremadamente complejo.
112. Modelado de la Voz
- La tensión de las cuerdas vocales se gobierna por
la musculatura, que funciona como un control de
entrada. - En este caso la tensión de las cuerdas afecta a
la frecuencia de la señal de voz (el tono de
voz), por lo que la señal de control será
parecida a la portadora en una modulación. - En el habla, el tono de voz no es estrictamente
necesario para saber la información que se esta
transmitiendo, pero en ocasiones puede ser muy
útil, como por ejemplo para distinguir entre una
afirmación y una pregunta. - Los modelos suelen formarse utilizando un filtro
para separar las partes trascendentales de la
señal de voz en cada momento.
122.1 ESQUEMA CONDUCTO TRAQUEO-LARINGEO-VOCAL
132.2 MODELO LINEAL INESTACIONARIO
- El tracto vocal es modelado como la concatenación
de tubos acústicos de distinto diámetro (con o
sin pérdidas). - Esto deriva en un modelo lineal inestacionario
(ya que las secciones de los tubos van cambiando
de acuerdo al fonema que se está emitiendo).
142.3 MODELO DEL TRACTO VOCAL
152.4 MODELO PRODUCCIÓN/SÍNTESIS DE VOZ
162.5 MODELO DE RADIACIÓN
- El modelo de radiación describe la impedancia de
radiación vista por la presión de aire cuando
abandona los labios.
172.6 MODELO DE GLOTIS
- Existen diferentes modelos de la respuesta de la
glotis, cuando es excitada por un tren de pulsos.
182.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL
- Para intervalos cortos de tiempo (10 a 30 ms)
puede pensarse que el tracto vocal es un sistema
estacionario y que se puede predecir la señal de
voz en el instante n a partir de los valores de
la señal en p instantes anteriores.
192.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL
- Si se incluye un término de excitación se obtiene
el Modelo Predictivo Lineal donde ak son los
denominados Coeficientes de Predicción Lineal
(LPC Linear Predictive Coefficients).
202.8 Modelo digital de producción de voz
- Producción de sonido
- fuente de ondas de presión del aire -gt vibración
de las cuerdas vocales (caso sonoro), o por una
fricación o aspiración (caso sordo). - Este mecanismo acústico sugiere enseguida un
modelo de entrada-salida (sistema lineal o
filtro) - Salida señal de la voz.
- Entrada fuente acústica antes mencionada.
21Modelo digital de producción de voz
22Modelo digital de producción de voz
- Basa su sencillez en la separación que realiza
entre - el filtro, que simula el funcionamiento del
tracto vocal, el cual a su vez confiere a cada
sonido su timbre característico - la excitación o entrada, que da cuenta del tipo
de fuente acústica (sorda o sonora) - En el caso sonoro, de la frecuencia de
- vibración de las cuerdas
vocales, denominada frecuencia fundamental o tono
de la voz.
233. Resumen de modelos
- Los diferentes modelos se concentran en
diferentes aspectos representativos - LPC (Coeficientes de Predicción Lineal) se
concentra en modelar las resonancias de la
garganta al generar la voz. - Los modelos cespectrales y sinusoidal se
concentran en hacer explícitos aspectos
particulares de la voz.
243.1 LPC
- Siglas Linear Predictive Coding
- Su función es representar la envolvente espectral
de una señal digital de voz de forma comprimida,
utilizando la información de un modelo lineal. - Se trata de una de las técnicas más potentes de
análisis de voz, y uno de los métodos más útiles
para codificar voz con buena calidad a una tasa
de bits relativamente baja. - Proporciona unas aproximaciones a los parámetros
de la voz muy precisas.
25LPC Funcionamiento
- LPC analiza el habla estimando los formantes,
eliminando sus efectos de la señal, y a
continuación estimando la intensidad y frecuencia
de la señal restante.
26LPC Funcionamiento
- Como las señales de voz varían con el tiempo,
este proceso se realiza en pequeños segmentos de
la señal de voz, llamados frames - En general, 30 a 50 frames por segundo resultan
en una señal de voz inteligible y con una buena
compresión
27Modelo LPC
- La función transferencia
- que se denomina todo polos (all pole).
28MODELO LPC DEL TRACTO VOCAL RADIACIÓN
29ESTIMACIÓN DE LOS LPC
- Un predictor de la señal de salida en el instante
n puede calcularse comopor lo que el error de
predicción resulta
30ESTIMACIÓN DE LOS LPC
31LPC Aplicaciones
- LPC se utiliza generalmente para el sintetizado
de voz. - También se utiliza por las compañías telefónicas
como método de compresión de voz, como por
ejemplo en el estándar GSM. - Otra aplicación es en redes wireless con
seguridad, donde la voz debe digitalizarse, y
encriptarse para ser enviada por un canal de
capacidad limitada. - En la música para combinar el sonido de
instrumentos con la voz, en la que una señal
enviada por un instrumento se combina con un
filtro estimado a partir de la voz del cantante.
323.2 Modelo Cepstrum
- Los sonidos de la voz se pueden representar
mediante un espectrograma, que indica las
componentes frecuenciales de la señal de voz. - El espectro nos proporciona información acerca de
los parámetros del modelo de producción de voz,
tanto de la excitación (tono) como del filtro que
representa el tracto vocal (formantes).
333.2.1 Ejemplo de espectrograma
343.2.2 Modelo Cepstrum
- El cepstrum es el resultado que tomar la
transformada de Fourier del espectrograma como si
fuera una señal. - Existen dos cepstrums, el real y el complejo.
- El proceso es el siguiente
- señal ? FT ? log ? FT ? cepstrum
- Se define por la ecuación
- Cepstrum de una señal FT(log(FT(la señal)))
35Modelo Cepstrum
- El cepstrum real utiliza la función logarítmica
para valores reales, y el complejo utiliza la
función logarítmica para valores complejos. - El cepstrum complejo contiene la información de
la magnitud y fase del espectro inicial, por lo
que la señal se puede reconstruir. - El cepstrum real solo utiliza la información de
la magnitud del espectro.
36Modelo Cepstrum
- El espectro normalmente es transformado
utilizando las bandas de frecuencia de la escala
Mel. Ésta es una escala de tonos de sonido. - Para convertir de Hz a Mels, se utiliza la
siguiente ecuación - m 1127.01048loge(1 f / 700)
- El resultado de aplicar esta escala al espectro
nos da los MFCCs (Mel Frequency Central
Coefficients)
37Aplicaciones
- Esta función se creó inicialmente para
caracterizar ecos sísmicos provocados por
terremotos. - En la actualidad se utiliza principalmente para
modelar la voz humana y señales musicales. - Dentro de este campo sus propósitos principales
son la identificación del hablante analizando su
voz, el análisis de el tono (frecuencia), así
como aplicaciones musicales.
384. Percepción de la voz
- Las características de la señal estarán en
función no sólo del aparato productor sino
también del receptor, el oído. - Propiedades del aparato auditivo humano
- efecto de enmascaramiento un sonido puede dejar
de oírse cuando está situado frecuencialmente (o
temporalmente) cerca de otro sonido de intensidad
suficientemente alta. - la cóclea del oído funciona como un analizador
espectral, trabajando en bandas frecuenciales no
uniformes que se hacen sucesivamente más anchas a
medida que crece la frecuencia. La técnica basada
en sub-bandas imita de algún modo el análisis
frecuencial realizado por la cóclea.
395. Compresión y codificación de la voz
- Si se busca alta calidad ? ADPCM (Adaptive
Differential Pulse Code Modulation), trabaja a 32
000 bits por segundo. - La señal excitación que se usa para reconstruir
la voz consiste en el error de la predicción
codificado con un número de bits por muestra
suficiente para no perder casi información.
40Compresión y codificación de la voz
- Si el objetivo es reducir al máximo la velocidad
de transmisión (a menos de un bit por muestra de
señal ? CELP (Code-Excited Linear Prediction) - velocidades de 5 o 6 bits por segundo.
- El codificador CELP almacena varias excitaciones
posibles en una tabla de códigos de excitaciones
(codebook), de forma que tiene lugar un proceso
de optimización en lazo cerrado para determinar
la señal de excitación que se escogerá. - Empleada en transmisión de voz en telefonía móvil
GSM.
416. Reconocimiento y Extracción de características
- Una vez digitalizada la señal, se produce una
nueva representación de la voz en forma de
secuencia de vectores o agrupaciones de unos
valores ? parámetros. - Etapas del proceso de parametrización
- En primer lugar, se aísla el tramo bajo análisis
multiplicando la señal por una secuencia en forma
de arco (ventana de Hamming) cuya longitud suele
ser de 25 o 30 milisegundos y que se desplaza
unos 10 milisegundos entre un tramo y el
siguiente.
426.1 Ejemplo Espectro de las vocales
436.2 Ejemplo Espectro de consonantes sonoras
446.3 Ejemplo Espectro de consonantes fricativas
456.4 Ejemplo Espectrograma (representación
tiempo - frecuencia)
467. Bibliografía
- Voice representation in speech recognition -
Climent Nadeu. - Procesamiento de señales de voz ATV 2002 Dpto.
Electrónica y Tecn. Computadores UGR. - http//www.eie.fceia.unr.edu.ar/acustica/
- APLICACIONES DEL PROCESAMIENTO NO LINEAL DE VOZ -
M. Faúndez-Zanuy, W. B. Kleijn, G. Kubin, P.
Maragos, S. McLaughlin - Escuela Universitaria
Politécnica de Mataró (E), KTH Royal inst. of
Technology Stockholm (SE), Vienna
Telecommunications Research (AT), National
technical university of Athens (GR), University
of Edinburgh (UK). - La voz Humana federico Miyara
- Aplicaciones del tratamiento de voz compresión -
Marcos Faúndez Zanuy - Escola Universitària
Politècnica de Mataró (EUPMT) adscrita a la UPC. - http//en.wikipedia.org/wiki/Linear_predictive_cod
ing - http//en.wikipedia.org/wiki/Cepstrum
- http//cnx.rice.edu/content/m0049/latest/
- http//www.ee.columbia.edu/dpwe/e6820/lectures/E6
820-L05-speechmodels.pdf - Nuestro agradecimiento a los alumnos de Ing. de
Telecomunicación en la recopilación de
información