Modelado de la seal de voz Grupo PAS Universidad de Deusto - PowerPoint PPT Presentation

1 / 46

About This Presentation

Title:

Modelado de la seal de voz Grupo PAS Universidad de Deusto

Description:

Percepci n de la voz. Compresi n y codificaci n de la voz. ... (a menos de un bit por muestra de se al CELP (Code-Excited Linear Prediction) ... – PowerPoint PPT presentation

Number of Views:101

Avg rating:3.0/5.0

Slides: 47

Provided by: Osc90

Category:

more less

Transcript and Presenter's Notes

Title: Modelado de la seal de voz Grupo PAS Universidad de Deusto

1
Modelado de la señal de vozGrupo PAS
Universidad de Deusto
2
Indice

Introducción
Modelado de la voz
Resumen de modelos
LPC
Cepstrum
Percepción de la voz.
Compresión y codificación de la voz.
Reconocimiento y extracción de características.
Conclusiones.
Agracecimientos
Bibliografía.

3
1. Introducción

Su objetivo es
analizar cómo se produce la voz
reproducir este proceso de forma que puedan
realizarse transformaciones y operaciones

4
1.1 Modelado de la Señal

El modelado de señal es un tipo de representación
que persigue principalmente conseguir una mayor
eficiencia y flexibilidad al transmitir o
almacenar señales.
La naturaleza del modelo depende de su objetivo
Si es clasificar señales, se concentrara en
eliminar detalles irrelevantes.
Si es la codificación y transmisión, se
concentrará en eliminar las partes de la señal
que no son perceptibles.
Si es modificar la señal, se concentrará en
aislar parámetros de control dentro de ella.
Auque existen procesos comunes para todos los
objetivos.

5
1.2 La voz humana (I)

Qué es la voz?
Onda de sonido (onda de presión) producida por el
aparato fonador utilizada para comunicación.
Desde la Antigua Grecia se han realizado intentos
por generar voces artificiales.
Desarrollo de la telefonía a principios del siglo
XX investigaciones sobre las propiedades de la
voz -gt mejorar la calidad de la comunicación
telefónica.

6
1.2 La voz humana (II)

Sistema de comunicación
Objetivos representación, análisis,
modificación, mejora de la relación señal/ruido,
generación artificial de mensajes vocales
inteligibles para el ser humano y el
reconocimiento automático de mensajes vocales
pronunciados por seres humanos.
Componentes
Emisor
Receptor
Mensaje
Código
Canal medio en el cual se propaga la onda sonora
La combinación del mensaje y el código
constituyen la señal.

7
1.3 Información relevante de la señal de voz

Para reconocimiento de voz
Envolvente espectral (formantes)
Evolución temporal de los formantes
Información complementaria
Tono fundamental y sus variaciones
Estructura fina del espectro

8
1.4 Estacionariedad de la voz

La señal de voz es estacionaria a trozos
Durante la pronunciación de un fonema es
cuasi-estacionaria
Velocidad cambios tracto vocal
Velocidad cambios cuerdas vocales
Estacionaria durante 20 40 ms
Velocidad de pronunciación 5-20 fonemas / seg
Análisis de trozos de voz estacionarios
ventanas

9
1.5 Análisis de señales de voz

Conceptos de procesado de señales
Transformada de Fourier
Componentes de frecuencia
Espectro de potencia
Filtrado
Ventanas
Muestreo
Espectrogramas

10
2. Modelado de la voz

Las ecuaciones fundamentales que se aplican a la
acústica son lineales ? se pueden utilizar
sistemas lineales en el modelado consiguiendo una
precisión considerable.
Estos modelos lineales siempre serán
aproximaciones, pero utilizar modelos no lineales
es extremadamente complejo.

11
2. Modelado de la Voz

La tensión de las cuerdas vocales se gobierna por
la musculatura, que funciona como un control de
entrada.
En este caso la tensión de las cuerdas afecta a
la frecuencia de la señal de voz (el tono de
voz), por lo que la señal de control será
parecida a la portadora en una modulación.
En el habla, el tono de voz no es estrictamente
necesario para saber la información que se esta
transmitiendo, pero en ocasiones puede ser muy
útil, como por ejemplo para distinguir entre una
afirmación y una pregunta.
Los modelos suelen formarse utilizando un filtro
para separar las partes trascendentales de la
señal de voz en cada momento.

12
2.1 ESQUEMA CONDUCTO TRAQUEO-LARINGEO-VOCAL
13
2.2 MODELO LINEAL INESTACIONARIO

El tracto vocal es modelado como la concatenación
de tubos acústicos de distinto diámetro (con o
sin pérdidas).
Esto deriva en un modelo lineal inestacionario
(ya que las secciones de los tubos van cambiando
de acuerdo al fonema que se está emitiendo).

14
2.3 MODELO DEL TRACTO VOCAL
15
2.4 MODELO PRODUCCIÓN/SÍNTESIS DE VOZ
16
2.5 MODELO DE RADIACIÓN

El modelo de radiación describe la impedancia de
radiación vista por la presión de aire cuando
abandona los labios.

17
2.6 MODELO DE GLOTIS

Existen diferentes modelos de la respuesta de la
glotis, cuando es excitada por un tren de pulsos.

18
2.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL

Para intervalos cortos de tiempo (10 a 30 ms)
puede pensarse que el tracto vocal es un sistema
estacionario y que se puede predecir la señal de
voz en el instante n a partir de los valores de
la señal en p instantes anteriores.

19
2.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL

Si se incluye un término de excitación se obtiene
el Modelo Predictivo Lineal donde ak son los
denominados Coeficientes de Predicción Lineal
(LPC Linear Predictive Coefficients).

20
2.8 Modelo digital de producción de voz

Producción de sonido
fuente de ondas de presión del aire -gt vibración
de las cuerdas vocales (caso sonoro), o por una
fricación o aspiración (caso sordo).
Este mecanismo acústico sugiere enseguida un
modelo de entrada-salida (sistema lineal o
filtro)
Salida señal de la voz.
Entrada fuente acústica antes mencionada.

21
Modelo digital de producción de voz
22
Modelo digital de producción de voz

Basa su sencillez en la separación que realiza
entre
el filtro, que simula el funcionamiento del
tracto vocal, el cual a su vez confiere a cada
sonido su timbre característico
la excitación o entrada, que da cuenta del tipo
de fuente acústica (sorda o sonora)
En el caso sonoro, de la frecuencia de
vibración de las cuerdas
vocales, denominada frecuencia fundamental o tono
de la voz.

23
3. Resumen de modelos

Los diferentes modelos se concentran en
diferentes aspectos representativos
LPC (Coeficientes de Predicción Lineal) se
concentra en modelar las resonancias de la
garganta al generar la voz.
Los modelos cespectrales y sinusoidal se
concentran en hacer explícitos aspectos
particulares de la voz.

24
3.1 LPC

Siglas Linear Predictive Coding
Su función es representar la envolvente espectral
de una señal digital de voz de forma comprimida,
utilizando la información de un modelo lineal.
Se trata de una de las técnicas más potentes de
análisis de voz, y uno de los métodos más útiles
para codificar voz con buena calidad a una tasa
de bits relativamente baja.
Proporciona unas aproximaciones a los parámetros
de la voz muy precisas.

25
LPC Funcionamiento

LPC analiza el habla estimando los formantes,
eliminando sus efectos de la señal, y a
continuación estimando la intensidad y frecuencia
de la señal restante.

26
LPC Funcionamiento

Como las señales de voz varían con el tiempo,
este proceso se realiza en pequeños segmentos de
la señal de voz, llamados frames
En general, 30 a 50 frames por segundo resultan
en una señal de voz inteligible y con una buena
compresión

27
Modelo LPC

La función transferencia
que se denomina todo polos (all pole).

28
MODELO LPC DEL TRACTO VOCAL RADIACIÓN
29
ESTIMACIÓN DE LOS LPC

Un predictor de la señal de salida en el instante
n puede calcularse comopor lo que el error de
predicción resulta

30
ESTIMACIÓN DE LOS LPC

Definiendoresulta

31
LPC Aplicaciones

LPC se utiliza generalmente para el sintetizado
de voz.
También se utiliza por las compañías telefónicas
como método de compresión de voz, como por
ejemplo en el estándar GSM.
Otra aplicación es en redes wireless con
seguridad, donde la voz debe digitalizarse, y
encriptarse para ser enviada por un canal de
capacidad limitada.
En la música para combinar el sonido de
instrumentos con la voz, en la que una señal
enviada por un instrumento se combina con un
filtro estimado a partir de la voz del cantante.

32
3.2 Modelo Cepstrum

Los sonidos de la voz se pueden representar
mediante un espectrograma, que indica las
componentes frecuenciales de la señal de voz.
El espectro nos proporciona información acerca de
los parámetros del modelo de producción de voz,
tanto de la excitación (tono) como del filtro que
representa el tracto vocal (formantes).

33
3.2.1 Ejemplo de espectrograma
34
3.2.2 Modelo Cepstrum

El cepstrum es el resultado que tomar la
transformada de Fourier del espectrograma como si
fuera una señal.
Existen dos cepstrums, el real y el complejo.
El proceso es el siguiente
señal ? FT ? log ? FT ? cepstrum
Se define por la ecuación
Cepstrum de una señal FT(log(FT(la señal)))

35
Modelo Cepstrum

El cepstrum real utiliza la función logarítmica
para valores reales, y el complejo utiliza la
función logarítmica para valores complejos.
El cepstrum complejo contiene la información de
la magnitud y fase del espectro inicial, por lo
que la señal se puede reconstruir.
El cepstrum real solo utiliza la información de
la magnitud del espectro.

36
Modelo Cepstrum

El espectro normalmente es transformado
utilizando las bandas de frecuencia de la escala
Mel. Ésta es una escala de tonos de sonido.
Para convertir de Hz a Mels, se utiliza la
siguiente ecuación
m 1127.01048loge(1 f / 700)
El resultado de aplicar esta escala al espectro
nos da los MFCCs (Mel Frequency Central
Coefficients)

37
Aplicaciones

Esta función se creó inicialmente para
caracterizar ecos sísmicos provocados por
terremotos.
En la actualidad se utiliza principalmente para
modelar la voz humana y señales musicales.
Dentro de este campo sus propósitos principales
son la identificación del hablante analizando su
voz, el análisis de el tono (frecuencia), así
como aplicaciones musicales.

38
4. Percepción de la voz

Las características de la señal estarán en
función no sólo del aparato productor sino
también del receptor, el oído.
Propiedades del aparato auditivo humano
efecto de enmascaramiento un sonido puede dejar
de oírse cuando está situado frecuencialmente (o
temporalmente) cerca de otro sonido de intensidad
suficientemente alta.
la cóclea del oído funciona como un analizador
espectral, trabajando en bandas frecuenciales no
uniformes que se hacen sucesivamente más anchas a
medida que crece la frecuencia. La técnica basada
en sub-bandas imita de algún modo el análisis
frecuencial realizado por la cóclea.

39
5. Compresión y codificación de la voz

Si se busca alta calidad ? ADPCM (Adaptive
Differential Pulse Code Modulation), trabaja a 32
000 bits por segundo.
La señal excitación que se usa para reconstruir
la voz consiste en el error de la predicción
codificado con un número de bits por muestra
suficiente para no perder casi información.

40
Compresión y codificación de la voz

Si el objetivo es reducir al máximo la velocidad
de transmisión (a menos de un bit por muestra de
señal ? CELP (Code-Excited Linear Prediction)
velocidades de 5 o 6 bits por segundo.
El codificador CELP almacena varias excitaciones
posibles en una tabla de códigos de excitaciones
(codebook), de forma que tiene lugar un proceso
de optimización en lazo cerrado para determinar
la señal de excitación que se escogerá.
Empleada en transmisión de voz en telefonía móvil
GSM.

41
6. Reconocimiento y Extracción de características

Una vez digitalizada la señal, se produce una
nueva representación de la voz en forma de
secuencia de vectores o agrupaciones de unos
valores ? parámetros.
Etapas del proceso de parametrización
En primer lugar, se aísla el tramo bajo análisis
multiplicando la señal por una secuencia en forma
de arco (ventana de Hamming) cuya longitud suele
ser de 25 o 30 milisegundos y que se desplaza
unos 10 milisegundos entre un tramo y el
siguiente.

42
6.1 Ejemplo Espectro de las vocales
43
6.2 Ejemplo Espectro de consonantes sonoras
44
6.3 Ejemplo Espectro de consonantes fricativas
45
6.4 Ejemplo Espectrograma (representación
tiempo - frecuencia)
46
7. Bibliografía

Voice representation in speech recognition -
Climent Nadeu.
Procesamiento de señales de voz ATV 2002 Dpto.
Electrónica y Tecn. Computadores UGR.
http//www.eie.fceia.unr.edu.ar/acustica/
APLICACIONES DEL PROCESAMIENTO NO LINEAL DE VOZ -
M. Faúndez-Zanuy, W. B. Kleijn, G. Kubin, P.
Maragos, S. McLaughlin - Escuela Universitaria
Politécnica de Mataró (E), KTH Royal inst. of
Technology Stockholm (SE), Vienna
Telecommunications Research (AT), National
technical university of Athens (GR), University
of Edinburgh (UK).
La voz Humana federico Miyara
Aplicaciones del tratamiento de voz compresión -
Marcos Faúndez Zanuy - Escola Universitària
Politècnica de Mataró (EUPMT) adscrita a la UPC.
http//en.wikipedia.org/wiki/Linear_predictive_cod
ing
http//en.wikipedia.org/wiki/Cepstrum
http//cnx.rice.edu/content/m0049/latest/
http//www.ee.columbia.edu/dpwe/e6820/lectures/E6
820-L05-speechmodels.pdf
Nuestro agradecimiento a los alumnos de Ing. de
Telecomunicación en la recopilación de
información