Modelado de la seal de voz Grupo PAS Universidad de Deusto - PowerPoint PPT Presentation

1 / 46
About This Presentation
Title:

Modelado de la seal de voz Grupo PAS Universidad de Deusto

Description:

Percepci n de la voz. Compresi n y codificaci n de la voz. ... (a menos de un bit por muestra de se al CELP (Code-Excited Linear Prediction) ... – PowerPoint PPT presentation

Number of Views:101
Avg rating:3.0/5.0
Slides: 47
Provided by: Osc90
Category:

less

Transcript and Presenter's Notes

Title: Modelado de la seal de voz Grupo PAS Universidad de Deusto


1
Modelado de la señal de vozGrupo PAS
Universidad de Deusto
2
Indice
  • Introducción
  • Modelado de la voz
  • Resumen de modelos
  • LPC
  • Cepstrum
  • Percepción de la voz.
  • Compresión y codificación de la voz.
  • Reconocimiento y extracción de características.
  • Conclusiones.
  • Agracecimientos
  • Bibliografía.

3
1. Introducción
  • Su objetivo es
  • analizar cómo se produce la voz
  • reproducir este proceso de forma que puedan
    realizarse transformaciones y operaciones

4
1.1 Modelado de la Señal
  • El modelado de señal es un tipo de representación
    que persigue principalmente conseguir una mayor
    eficiencia y flexibilidad al transmitir o
    almacenar señales.
  • La naturaleza del modelo depende de su objetivo
  • Si es clasificar señales, se concentrara en
    eliminar detalles irrelevantes.
  • Si es la codificación y transmisión, se
    concentrará en eliminar las partes de la señal
    que no son perceptibles.
  • Si es modificar la señal, se concentrará en
    aislar parámetros de control dentro de ella.
    Auque existen procesos comunes para todos los
    objetivos.

5
1.2 La voz humana (I)
  • Qué es la voz?
  • Onda de sonido (onda de presión) producida por el
    aparato fonador utilizada para comunicación.
  • Desde la Antigua Grecia se han realizado intentos
    por generar voces artificiales.
  • Desarrollo de la telefonía a principios del siglo
    XX investigaciones sobre las propiedades de la
    voz -gt mejorar la calidad de la comunicación
    telefónica.

6
1.2 La voz humana (II)
  • Sistema de comunicación
  • Objetivos representación, análisis,
    modificación, mejora de la relación señal/ruido,
    generación artificial de mensajes vocales
    inteligibles para el ser humano y el
    reconocimiento automático de mensajes vocales
    pronunciados por seres humanos.
  • Componentes
  • Emisor
  • Receptor
  • Mensaje
  • Código
  • Canal medio en el cual se propaga la onda sonora
  • La combinación del mensaje y el código
    constituyen la señal.

7
1.3 Información relevante de la señal de voz
  • Para reconocimiento de voz
  • Envolvente espectral (formantes)
  • Evolución temporal de los formantes
  • Información complementaria
  • Tono fundamental y sus variaciones
  • Estructura fina del espectro

8
1.4 Estacionariedad de la voz
  • La señal de voz es estacionaria a trozos
  • Durante la pronunciación de un fonema es
    cuasi-estacionaria
  • Velocidad cambios tracto vocal
  • Velocidad cambios cuerdas vocales
  • Estacionaria durante 20 40 ms
  • Velocidad de pronunciación 5-20 fonemas / seg
  • Análisis de trozos de voz estacionarios
    ventanas

9
1.5 Análisis de señales de voz
  • Conceptos de procesado de señales
  • Transformada de Fourier
  • Componentes de frecuencia
  • Espectro de potencia
  • Filtrado
  • Ventanas
  • Muestreo
  • Espectrogramas

10
2. Modelado de la voz
  • Las ecuaciones fundamentales que se aplican a la
    acústica son lineales ? se pueden utilizar
    sistemas lineales en el modelado consiguiendo una
    precisión considerable.
  • Estos modelos lineales siempre serán
    aproximaciones, pero utilizar modelos no lineales
    es extremadamente complejo.

11
2. Modelado de la Voz
  • La tensión de las cuerdas vocales se gobierna por
    la musculatura, que funciona como un control de
    entrada.
  • En este caso la tensión de las cuerdas afecta a
    la frecuencia de la señal de voz (el tono de
    voz), por lo que la señal de control será
    parecida a la portadora en una modulación.
  • En el habla, el tono de voz no es estrictamente
    necesario para saber la información que se esta
    transmitiendo, pero en ocasiones puede ser muy
    útil, como por ejemplo para distinguir entre una
    afirmación y una pregunta.
  • Los modelos suelen formarse utilizando un filtro
    para separar las partes trascendentales de la
    señal de voz en cada momento.

12
2.1 ESQUEMA CONDUCTO TRAQUEO-LARINGEO-VOCAL
13
2.2 MODELO LINEAL INESTACIONARIO
  • El tracto vocal es modelado como la concatenación
    de tubos acústicos de distinto diámetro (con o
    sin pérdidas).
  • Esto deriva en un modelo lineal inestacionario
    (ya que las secciones de los tubos van cambiando
    de acuerdo al fonema que se está emitiendo).

14
2.3 MODELO DEL TRACTO VOCAL
15
2.4 MODELO PRODUCCIÓN/SÍNTESIS DE VOZ
16
2.5 MODELO DE RADIACIÓN
  • El modelo de radiación describe la impedancia de
    radiación vista por la presión de aire cuando
    abandona los labios.

17
2.6 MODELO DE GLOTIS
  • Existen diferentes modelos de la respuesta de la
    glotis, cuando es excitada por un tren de pulsos.

18
2.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL
  • Para intervalos cortos de tiempo (10 a 30 ms)
    puede pensarse que el tracto vocal es un sistema
    estacionario y que se puede predecir la señal de
    voz en el instante n a partir de los valores de
    la señal en p instantes anteriores.

19
2.7 MODELO PREDICTIVO LINEAL DEL TRACTO VOCAL
  • Si se incluye un término de excitación se obtiene
    el Modelo Predictivo Lineal donde ak son los
    denominados Coeficientes de Predicción Lineal
    (LPC Linear Predictive Coefficients).

20
2.8 Modelo digital de producción de voz
  • Producción de sonido
  • fuente de ondas de presión del aire -gt vibración
    de las cuerdas vocales (caso sonoro), o por una
    fricación o aspiración (caso sordo).
  • Este mecanismo acústico sugiere enseguida un
    modelo de entrada-salida (sistema lineal o
    filtro)
  • Salida señal de la voz.
  • Entrada fuente acústica antes mencionada.

21
Modelo digital de producción de voz
22
Modelo digital de producción de voz
  • Basa su sencillez en la separación que realiza
    entre
  • el filtro, que simula el funcionamiento del
    tracto vocal, el cual a su vez confiere a cada
    sonido su timbre característico
  • la excitación o entrada, que da cuenta del tipo
    de fuente acústica (sorda o sonora)
  • En el caso sonoro, de la frecuencia de
  • vibración de las cuerdas
    vocales, denominada frecuencia fundamental o tono
    de la voz.

23
3. Resumen de modelos
  • Los diferentes modelos se concentran en
    diferentes aspectos representativos
  • LPC (Coeficientes de Predicción Lineal) se
    concentra en modelar las resonancias de la
    garganta al generar la voz.
  • Los modelos cespectrales y sinusoidal se
    concentran en hacer explícitos aspectos
    particulares de la voz.

24
3.1 LPC
  • Siglas Linear Predictive Coding
  • Su función es representar la envolvente espectral
    de una señal digital de voz de forma comprimida,
    utilizando la información de un modelo lineal.
  • Se trata de una de las técnicas más potentes de
    análisis de voz, y uno de los métodos más útiles
    para codificar voz con buena calidad a una tasa
    de bits relativamente baja.
  • Proporciona unas aproximaciones a los parámetros
    de la voz muy precisas.

25
LPC Funcionamiento
  • LPC analiza el habla estimando los formantes,
    eliminando sus efectos de la señal, y a
    continuación estimando la intensidad y frecuencia
    de la señal restante.

26
LPC Funcionamiento
  • Como las señales de voz varían con el tiempo,
    este proceso se realiza en pequeños segmentos de
    la señal de voz, llamados frames
  • En general, 30 a 50 frames por segundo resultan
    en una señal de voz inteligible y con una buena
    compresión

27
Modelo LPC
  • La función transferencia
  • que se denomina todo polos (all pole).

28
MODELO LPC DEL TRACTO VOCAL RADIACIÓN
29
ESTIMACIÓN DE LOS LPC
  • Un predictor de la señal de salida en el instante
    n puede calcularse comopor lo que el error de
    predicción resulta

30
ESTIMACIÓN DE LOS LPC
  • Definiendoresulta

31
LPC Aplicaciones
  • LPC se utiliza generalmente para el sintetizado
    de voz.
  • También se utiliza por las compañías telefónicas
    como método de compresión de voz, como por
    ejemplo en el estándar GSM.
  • Otra aplicación es en redes wireless con
    seguridad, donde la voz debe digitalizarse, y
    encriptarse para ser enviada por un canal de
    capacidad limitada.
  • En la música para combinar el sonido de
    instrumentos con la voz, en la que una señal
    enviada por un instrumento se combina con un
    filtro estimado a partir de la voz del cantante.

32
3.2 Modelo Cepstrum
  • Los sonidos de la voz se pueden representar
    mediante un espectrograma, que indica las
    componentes frecuenciales de la señal de voz.
  • El espectro nos proporciona información acerca de
    los parámetros del modelo de producción de voz,
    tanto de la excitación (tono) como del filtro que
    representa el tracto vocal (formantes).

33
3.2.1 Ejemplo de espectrograma
34
3.2.2 Modelo Cepstrum
  • El cepstrum es el resultado que tomar la
    transformada de Fourier del espectrograma como si
    fuera una señal.
  • Existen dos cepstrums, el real y el complejo.
  • El proceso es el siguiente
  • señal ? FT ? log ? FT ? cepstrum
  • Se define por la ecuación
  • Cepstrum de una señal FT(log(FT(la señal)))

35
Modelo Cepstrum
  • El cepstrum real utiliza la función logarítmica
    para valores reales, y el complejo utiliza la
    función logarítmica para valores complejos.
  • El cepstrum complejo contiene la información de
    la magnitud y fase del espectro inicial, por lo
    que la señal se puede reconstruir.
  • El cepstrum real solo utiliza la información de
    la magnitud del espectro.

36
Modelo Cepstrum
  • El espectro normalmente es transformado
    utilizando las bandas de frecuencia de la escala
    Mel. Ésta es una escala de tonos de sonido.
  • Para convertir de Hz a Mels, se utiliza la
    siguiente ecuación
  • m 1127.01048loge(1 f / 700)
  • El resultado de aplicar esta escala al espectro
    nos da los MFCCs (Mel Frequency Central
    Coefficients)

37
Aplicaciones
  • Esta función se creó inicialmente para
    caracterizar ecos sísmicos provocados por
    terremotos.
  • En la actualidad se utiliza principalmente para
    modelar la voz humana y señales musicales.
  • Dentro de este campo sus propósitos principales
    son la identificación del hablante analizando su
    voz, el análisis de el tono (frecuencia), así
    como aplicaciones musicales.

38
4. Percepción de la voz
  • Las características de la señal estarán en
    función no sólo del aparato productor sino
    también del receptor, el oído.
  • Propiedades del aparato auditivo humano
  • efecto de enmascaramiento un sonido puede dejar
    de oírse cuando está situado frecuencialmente (o
    temporalmente) cerca de otro sonido de intensidad
    suficientemente alta.
  • la cóclea del oído funciona como un analizador
    espectral, trabajando en bandas frecuenciales no
    uniformes que se hacen sucesivamente más anchas a
    medida que crece la frecuencia. La técnica basada
    en sub-bandas imita de algún modo el análisis
    frecuencial realizado por la cóclea.

39
5. Compresión y codificación de la voz
  • Si se busca alta calidad ? ADPCM (Adaptive
    Differential Pulse Code Modulation), trabaja a 32
    000 bits por segundo.
  • La señal excitación que se usa para reconstruir
    la voz consiste en el error de la predicción
    codificado con un número de bits por muestra
    suficiente para no perder casi información.

40
Compresión y codificación de la voz
  • Si el objetivo es reducir al máximo la velocidad
    de transmisión (a menos de un bit por muestra de
    señal ? CELP (Code-Excited Linear Prediction)
  • velocidades de 5 o 6 bits por segundo.
  • El codificador CELP almacena varias excitaciones
    posibles en una tabla de códigos de excitaciones
    (codebook), de forma que tiene lugar un proceso
    de optimización en lazo cerrado para determinar
    la señal de excitación que se escogerá.
  • Empleada en transmisión de voz en telefonía móvil
    GSM.

41
6. Reconocimiento y Extracción de características
  • Una vez digitalizada la señal, se produce una
    nueva representación de la voz en forma de
    secuencia de vectores o agrupaciones de unos
    valores ? parámetros.
  • Etapas del proceso de parametrización
  • En primer lugar, se aísla el tramo bajo análisis
    multiplicando la señal por una secuencia en forma
    de arco (ventana de Hamming) cuya longitud suele
    ser de 25 o 30 milisegundos y que se desplaza
    unos 10 milisegundos entre un tramo y el
    siguiente.

42
6.1 Ejemplo Espectro de las vocales
43
6.2 Ejemplo Espectro de consonantes sonoras
44
6.3 Ejemplo Espectro de consonantes fricativas
45
6.4 Ejemplo Espectrograma (representación
tiempo - frecuencia)
46
7. Bibliografía
  • Voice representation in speech recognition -
    Climent Nadeu.
  • Procesamiento de señales de voz ATV 2002 Dpto.
    Electrónica y Tecn. Computadores UGR.
  • http//www.eie.fceia.unr.edu.ar/acustica/
  • APLICACIONES DEL PROCESAMIENTO NO LINEAL DE VOZ -
    M. Faúndez-Zanuy, W. B. Kleijn, G. Kubin, P.
    Maragos, S. McLaughlin - Escuela Universitaria
    Politécnica de Mataró (E), KTH Royal inst. of
    Technology Stockholm (SE), Vienna
    Telecommunications Research (AT), National
    technical university of Athens (GR), University
    of Edinburgh (UK).
  • La voz Humana federico Miyara
  • Aplicaciones del tratamiento de voz compresión -
    Marcos Faúndez Zanuy - Escola Universitària
    Politècnica de Mataró (EUPMT) adscrita a la UPC.
  • http//en.wikipedia.org/wiki/Linear_predictive_cod
    ing
  • http//en.wikipedia.org/wiki/Cepstrum
  • http//cnx.rice.edu/content/m0049/latest/
  • http//www.ee.columbia.edu/dpwe/e6820/lectures/E6
    820-L05-speechmodels.pdf
  • Nuestro agradecimiento a los alumnos de Ing. de
    Telecomunicación en la recopilación de
    información
Write a Comment
User Comments (0)
About PowerShow.com