PPT – An PowerPoint presentation | free to download

About This Presentation

Title:

An

Description:

Tener una idea b sica sobre en que se basa el reconocimiento del habla y que ... En 1779, el cient fico dan s Christian Gottlieb Kratzenstein, construy modelos ... – PowerPoint PPT presentation

Number of Views:119

Avg rating:3.0/5.0

Slides: 47

Provided by: lpiTe

Category:

Tags: danes

more less

Transcript and Presenter's Notes

Title: An

1
Análisis y síntesis de voz mediante ordenador
2
Objetivos

Aprender como se forma la voz y sus
características principales.
Tener una idea básica sobre en que se basa el
reconocimiento del habla y que técnicas son
utilizadas para llevarlo a cabo.
Conocer el estado actual de tecnologías de
interacción como la síntesis o el reconocimiento
de voz.
Ver las aplicaciones actuales de esta tecnología.

3
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

4
Contenidos

Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones

5
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

6
Historia del reconocimiento

Los inicios años 50Bell Labs ....
Reconocimiento de dígitos aislados monolocutor
Los fundamentos años 60Comienzo en Japón (NEC
labs)
Las primeras soluciones años 70, el mundo
probabilísticoReconocimiento de palabras
aisladasLPC, programación dinámicaIBM inicio
proyecto reconocimiento de grandes
vocabulariosGran inversión en los USA
proyectos DARPA

7
Historia del reconocimiento

Reconocimiento del Habla Continua años 80,
expansión
Explosión de los métodos estadísticos Modelos
Ocultos de MarkovIntroducción de las Redes
Neuronales en el reconocimiento de voz
Empieza el negocio años 90, primeras
aplicacionesOrdenadores y procesadores baratos
y rápidosSistemas de dictado
Actualidad, integración en el S.O.VoiceXML
standardSistema V2C (interacción voz-radio,
voz-teléfono, voz-navegador)

8
Historia de la síntesis

Síntesis del Habla Comienzos tempranosEl Papa
Silvestre II (1003), Alberto Magno (1198-1280) y
Roger Bacon (1214-1294) crearon ejemplos
tempranos de 'cabezas parlantes'.
Fijación de las bases siglo XIX, modelado de la
vozEn 1779, el científico danés Christian
Gottlieb Kratzenstein, construyó modelos del
tracto vocal que podían producir las cinco
vocales largas (a, e, i, o, u).
Y por fin siglo XX, síntesis mediante
computadorEn los años 30, los laboratorios Bell
Labs desarrollaron el VOCODER, un analizador y un
sintetizador del habla operado por teclado.
Años 90 grandes avances en la síntesis debido
principalmente al rápido desarrollo de los
ordenadores.

9
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

10
El concepto de voz

Sistema fonador humano
Onda de presión acústica.
Los distintos sonidos se producen al pasar el
aire emitido por los pulmones, a través de todo
el sistema de producción.

11
El concepto de voz

Clasificación de sonidos
Sonidos sonoros En ellos las cuerdas vocales
vibran y el aire pasa a través del tracto vocal
sin impedimentos importantes.
Sonidos sordos En ellos las cuerdas vocales no
vibran y existen restricciones importantes al
paso del aire que proviene de los pulmones, por
lo que son de amplitud menor y normalmente de
naturaleza más ruidosa que los sonoros.

12
El concepto de voz

Análisis frecuencial (I)
La mayor parte de la información de la señal de
voz se encuentra en los primeros 4 kHz.

Sonido sonoro
Sonido sordo
13
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

14
Procesamiento digital

El procesamiento digital de señal mediante un
DSP, ordenador, etc.
Fase 1ª - Digitalización de voz
Etapas de digitalización
Recogida de información mediante un transductor.
Filtrado antialiasing.
Muestreo (Teorema de Nyquist).

15
Procesamiento digital

Fase 2ª - Codificación de voz
Pretenden reducir el volumen de información
necesario para almacenar o transmitir una señal
de voz.
Minimizar la pérdida de calidad de la señal
decodificada respecto a la señal original.
Tipos de codificación
Codificación de forma de onda intentan
reproducir fielmente la forma de la onda de la
señal a codificar
Codificación paramétrica() se basan en un
modelo de producción del habla, e intentan
reproducir en el proceso de decodificación una
señal que al escucharla se parezca a la original,
aunque existan distorsiones en la forma de onda
generada.
()Nota en el reconocimiento de voz, la
codificación paramétrica es ampliamente
utilizada.

16
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

17
Reconocimiento de voz

Introducción
El reconocimiento de la voz constituye una parte
importante del tratamiento del habla.
Técnicas de reconocimiento utilizadas
Análisis de Predicción Lineal (LPC)
Alineamiento Temporal (DTW)
Modelos ocultos de Markov
Tipos de enfoque en el reconocimiento
Reconocer palabras aislados
Reconocer palabras conectadas
Reconocer fonemas y difonos (reconocimiento
continuo de voz)

18
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

19
Reconocimiento de voz

Modelado del tracto vocal (I)
Como ya se vio, existen dos tipos de señales, que
pueden describir el proceso del habla
Sonidos sonoros
Alta energía
300-4000 Hz
Cierta periodicidad
Matemáticamente modelables como un tren de
impulsos
Sonidos sordos
Baja energía
Componente frecuencial uniforme
Cierta aleatoriedad
Matemáticamente modelables como un ruido blanco

20
Reconocimiento de voz

Modelado del tracto vocal (II)
Teniendo presente la clasificación anterior y que
el tracto vocal modelado se manifiesta como un
filtro variable en el tiempo, en el que
únicamente existen dos posibles señales de
entrada (sonoras o sordas), se puede hacer el
siguiente sistema

21
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

22
Reconocimiento de voz

Preprocesado de la señal de voz
1ª- Preénfasis
La etapa de preénfasis se realiza con el
propósito de suavizar el espectro y reducir las
inestabilidades del cálculo asociadas con las
operaciones aritméticas de precisión finita.
Básicamente esta etapa consiste en un filtro
digital de primer orden, cuya ecuación y repuesta
en frecuencia corresponde a

23
Reconocimiento de voz

Preprocesado de la señal de voz
2ª- Segmentación y enventanado
La siguiente etapa del preprocesado, consiste en
la segmentación de la señal de voz en tramas de
20 ó 30 mseg, con un desplazamiento típico de 10
mseg.

24
Reconocimiento de voz

Preprocesado de la señal de voz
2ª- Segmentación y enventanado
Por último a cada trama generada se le aplica una
ventana de Hamming, que elimina los problemas
causados por los cambios rápidos de la señal en
los extremos de cada trama de voz.

25
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

26
Reconocimiento de voz

Procesamiento mediante LPC
Permite parametrizar una señal con un número
pequeño de patrones.
Coste computacional pequeño.

?
?Problema No sabemos como calcular los
coeficientes ak del filtro
27
Reconocimiento de voz

Procesamiento mediante LPC
Autocorrelación en combinación con algoritmo de
Levinson-Durbin

Cálculo de los coeficientes del filtro FIR
28
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

29
Reconocimiento de voz

Alineamiento temporal (DTW)
La siguiente etapa del análisis viene a ser la
que se encarga de realizar la comparación de
patrones acústicos. Esta técnica tiene en cuenta
la variación en la escala de tiempo de dos
palabras a comparar.
Que problema se intenta resolver con el DTW?
El problema que se presenta cuando se pronuncia
una palabra es que esta no siempre se realiza a
la misma velocidad, lo que produce importantes
distorsiones.
Como resolverlo?
La forma de resolver este problema se realiza
mediante algoritmos de programación dinámica.

30
Contenidos

Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial

31
Reconocimiento de voz

Cuantificación vectorial
Particionar el espacio vectorial en sectores,
cada uno de los cuales será representado por un
solo vector que puede ser el centroide. El
conjunto de centroides viene a ser el libro
índice (codebook) que conforman los niveles de
cuantificación y a cada una se le asignará una
etiqueta o una dirección.
Decisión
El funcionamiento básico de esta técnica se basa
en la comparación de un vector de entrada, con
los vectores del codebook, intentando minimizar
la distancia entre ambos vectores. La decisión se
toma según un umbral de distorsión. Si resulta
mayor se vuelve a comparar hasta que la de
distancia total sea inferior al umbral.

32
Reconocimiento de voz

Esquema de un reconocedor de cuantificación
vectorial

33
Contenidos

Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones

34
Síntesis de la voz

Introducción
Características a tener en cuenta de un
sintetizador
Inteligibilidad Está relacionada con la
facilidad para comprender la señal oral.
Calidad Es un indicador de la naturalidad de
los sonidos.

35
Contenidos

Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones

36
Síntesis de la voz

Sistemas de respuesta oral vs convertidores
texto-voz
Tipos
Sistemas de respuesta oral
Basados en la reproducción de segmentos de voz
grabados previamente. Por ejemplo, en el caso de
información de telefónica.
Convertidores texto-voz
Sistemas capaces de convertir cualquier cadena de
texto de entrada a una señal de voz.
Ventajas/Desventajas
Los sistemas de respuesta oral solo permiten
sintetizar un número muy limitado de frases,
mientras que los sintetizadores permiten un
cualquier frase de entrada.
Los convertidores texto-voz son más complejos,
pero ofrecen una mayor flexibilidad.
Los sistemas de respuesta oral requieren un
menor gasto de memoria.

37
Contenidos

Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones

38
Síntesis de la voz

Conversión texto-voz. Esquema del sintetizador

39
Síntesis de la voz

Conversión texto-voz. 1ª - Etapa Análisis del
texto
Función
Realiza la conversión de los símbolos fonéticos
que integran el texto escrito, usando reglas
gramaticales propias del lenguaje.

40
Síntesis de la voz

Conversión texto-voz. 2ª - Etapa Generación de
prosodia
Función
Se divide en dos bloques
Control suprasegmental Trata la entonación de la
frase en su conjunto.
Control segmental controla la micromelodía, o
fenómenos locales de coarticulación,
acentuación,...

41
Síntesis de la voz