Title: An
1Análisis y síntesis de voz mediante ordenador
2Objetivos
- Aprender como se forma la voz y sus
características principales. - Adquirir una idea básica del procesamiento
mediante computador. - Tener una idea básica sobre en que se basa el
reconocimiento del habla y que técnicas son
utilizadas para llevarlo a cabo. - Conocer el estado actual de tecnologías de
interacción como la síntesis o el reconocimiento
de voz. - Ver las aplicaciones actuales de esta tecnología
y sus futuros usos.
3Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
4Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
5Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
6Historia del reconocimiento
- Los inicios años 50Bell Labs ....
Reconocimiento de dígitos aislados
monolocutorRCA Labs .... Reconocimiento de 10
sílabas monolocutorUniversity College in
England .... Reconocedor fonéticoMIT Lincoln
Lab .... Reconocedor de vocales independiente del
hablante - Los fundamentos años 60Comienzo en Japón (NEC
labs) - Las primeras soluciones años 70, el mundo
probabilísticoReconocimiento de palabras
aisladasLPC, programación dinámicaIBM inicio
proyecto reconocimiento de grandes
vocabulariosGran inversión en los USA
proyectos DARPA
7Historia del reconocimiento
- Reconocimiento del Habla Continua años 80,
expansiónAlgoritmos para el habla continua y
grandes vocabulariosExplosión de los métodos
estadísticos Modelos Ocultos de
MarkovIntroducción de las Redes Neuronales en
el reconocimiento de voz - Empieza el negocio años 90, primeras
aplicacionesOrdenadores y procesadores baratos
y rápidosSistemas de dictadoIntegración entre
reconocimiento de voz y procesado del lenguaje
natural - Actualidad, integración en el S.O.Integración
teléfono y Voice Web browsers VoiceXML
estandardSistema V2C (interacción voz-radio,
voz-teléfono, voz-navegador)
8Historia de la síntesis
- Síntesis del Habla Comienzos tempranosEl Papa
Silvestre II (1003), Alberto Magno (1198-1280) y
Roger Bacon (1214-1294) crearon ejemplos
tempranos de 'cabezas parlantes'. - Fijación de las bases siglo XIX, modelado de la
vozEn 1779, el científico danés Christian
Gottlieb Kratzenstein, que trabajaba en esa época
en la Academia Rusa de las Ciencias, construyó
modelos del tracto vocal que podían producir las
cinco vocales largas (a, e, i, o, u). - Y por fin siglo XX, síntesis mediante
computadorEn los años 30, los laboratorios Bell
Labs desarrollaron el VOCODER, un analizador y un
sintetizador del habla operado por teclado. - El primer sistema de síntesis computerizado
años 50, y el primer sistema completo texto a voz
años 60. - Años 90 grandes avances en la síntesis debido
principalmente al rápido desarrollo de los
ordenadores.
9Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
10El concepto de voz
- Sistema fonador humano
- Onda de presión acústica originada
voluntariamente a partir de los movimientos de la
estructura anatómica del sistema fonador. - Los distintos sonidos se producen al pasar el
aire emitido por los pulmones, a través de todo
el sistema de producción, en una determinada
posición de cada parámetro articulatorio. - Este sistema puede modelarse como un filtro, cuya
función de transferencia depende del sonido
articulado. La entrada al filtro se puede modelar
mediante una señal de excitación, que se
corresponde con el paso del aire generado por los
pulmones a través de la tráquea y las cuerdas
vocales, y también será dependiente del sonido
generado.
11El concepto de voz
- Clasificación de sonidos
- Sonidos sonoros En ellos las cuerdas vocales
vibran y el aire pasa a través del tracto vocal
sin impedimentos importantes. - Sonidos sordos En ellos las cuerdas vocales no
vibran y existen restricciones importantes al
paso del aire que proviene de los pulmones, por
lo que son de amplitud menor y normalmente de
naturaleza más ruidosa que los sonoros.
12El concepto de voz
- Análisis frecuencial (I)
- La señal de voz es limitada en banda, a unos 8
kHz. Sin embargo, la mayor parte de la
información se encuentra en los primeros 4 kHz,
que es aproximadamente el ancho de banda
utilizado en las comunicaciones por vía
telefónica.
Sonido sordo
Sonido sonoro
13El concepto de voz
- Análisis frecuencial (II)
- De las figuras de antes se pueden sacar varias
conclusiones - La periodicidad del fonema /u/. (Hay que recordar
que la presencia de armónicos en el espectro
indica cierta periodicidad de la señal). - El margen habitual del valor del pitch para
locutores masculinos adultos del valor del pitch
es de 50 a 250 Hz, mientras que para locutoras se
encuentra entre 120 y 500 Hz. - Existencia de resonancias o zonas enfatizadas
(formantes), en el espectro de los sonidos
sonoros, por ejemplo las vocales, esto permite
identificar a la vocal a partir de sus formantes. - Nota para formar el triángulo vocálico solo se
requiere dos formantes.
14El concepto de voz
- Análisis frecuencial (II)
- Triángulo vocálico castellano
Vocal\Formante (Hz) F1 F2
/i/ 284 2430
/e/ 527 2025
/a/ 689 1458
/o/ 608 1215
/u/ 243 770
15Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
16Procesamiento digital
- Fase 1ª - Digitalización de voz
- El procesamiento digital de señal mediante un
DSP, ordenador, etc., requiere previamente la
conversión de la señal acústica a eléctrica
mediante un micrófono, y la conversión de la
señal analógica resultante a señal digital. Por
otra parte, para restaurar o generar señal
audible a partir de un sistema digital, será
necesaria la conversión digital a analógica, su
amplificación, y su radiación mediante un
altavoz. - Etapas de digitalización
- Recogida de información mediante un transductor.
- Filtrado antialiasing.
- Muestreo (Teorema de Nyquist).
17Procesamiento digital
- Fase 2ª - Codificación de voz
- Las técnicas de codificación de voz pretenden
reducir el volumen de información necesario para
almacenar o transmitir una señal de voz, de forma
que la pérdida de calidad de la señal
decodificada respecto a la señal sin comprimir
sea lo menor posible. Por supuesto, deberá
mantenerse la inteligibilidad del mensaje, y
existirá un compromiso calidad versus tabla de
compresión, complejidad computacional, etc. - Tipos de codificación
- Codificación de forma de onda intentan
reproducir fielmente la forma de la onda de la
señal a codificar - Codificación paramétrica() se basan en un
modelo de producción del habla, e intentan
reproducir en el proceso de decodificación una
señal que al escucharla se parezca a la original,
aunque existan distorsiones en la forma de onda
generada. - ()Nota en el reconocimiento de voz, la
codificación paramétrica es ampliamente
utilizada.
18Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
19Reconocimiento de voz
- Introducción
- El reconocimiento de la voz constituye una parte
importante del tratamiento del habla. - Las técnicas de reconocimiento más desarrolladas
son aquellas comúnmente usadas para el idioma
inglés, las cuales incluyen el Análisis de
Predicción Lineal (LPC) y el Alineamiento
Temporal (DTW) - Tipos de enfoque en el reconocimiento
- Reconocer palabras aislados las palabras se
pronuncian entre pausas pequeñas de tal forma que
el procesamiento se realiza teniendo como
unidades lingüísticas las palabras de un
vocabulario específico. - Reconocer palabras conectadas las palabras se
pronuncian sin pausas (habla normal) de tal forma
que el reconocimiento se lleva a cabo basándose
en la coincidencia de palabras aisladas de
referencia. - Reconocer fonemas y difonos (reconocimiento
continuo de voz) basada en la separación de la
señal de voz en estas unidades lingüísticas, para
su posterior análisis.
20Reconocimiento de voz
- Introducción
- Ventajas/Desventajas de los diferentes tipos de
reconocedores - La complejidad de los reconocedores mediante
fonemas es bastante mayor en comparación con los
de palabras aisladas. - Los reconocedores de palabras aisladas no
permiten vocabularios medianamente extensos (lt50
palabras), debido principalmente al alto coste de
memoria, que esta técnica requiere. Mientras que
los reconocedores de fonemas permiten una mayor
extensión del vocabulario a reconocer. - Palabras del vocabulario castellano 300000
palabras - Fonemas existentes en el castellano 37 fonemas
- Una limitación del reconocedor de palabras
aisladas es tener que dictar, de forma aislada,
cada palabra del texto a reconocer.
21Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
22Reconocimiento de voz
- Modelado del tracto vocal (I)
- Como ya se vio, existen dos tipos de señales, que
pueden describir el proceso del habla - Sonidos sonoros
- Alta energía
- 300-4000 Hz
- Cierta periodicidad
- Matemáticamente modelables como un tren de
impulsos - Sonidos sordos
- Baja energía
- Componente frecuencial uniforme
- Cierta aleatoriedad
- Matemáticamente modelables como un ruido blanco
23Reconocimiento de voz
- Modelado del tracto vocal (II)
- Teniendo presente la clasificación anterior y que
el tracto vocal modelado se manifiesta como un
filtro variable en el tiempo, en el que
únicamente existen dos posibles señales de
entrada (sonoras o sordas), se puede hacer el
siguiente sistema
24Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
25Reconocimiento de voz
- Preprocesado de la señal de voz
- En esta fase se modifica a la señal de voz para
facilitar su posterior análisis. - Etapas
- 1ª - Preénfasis
- 2ª - Segmentación y enventanado
26Reconocimiento de voz
- Preprocesado de la señal de voz
- 1ª- Preénfasis
- La etapa de preénfasis se realiza con el
propósito de suavizar el espectro y reducir las
inestabilidades del cálculo asociadas con las
operaciones aritméticas de precisión finita. - Básicamente esta etapa consiste en un filtro
digital de primer orden, cuya ecuación y repuesta
en frecuencia corresponde a
27Reconocimiento de voz
- Preprocesado de la señal de voz
- 2ª- Segmentación y enventanado
- La siguiente etapa del preprocesado, consiste en
la segmentación de la señal de voz en tramas de
20 ó 30 mseg, con un desplazamiento típico de 10
mseg. -
28Reconocimiento de voz
- Preprocesado de la señal de voz
- 2ª- Segmentación y enventanado
- Por último a cada trama generada se le aplica una
ventana de Hamming, que elimina los problemas
causados por los cambios rápidos de la señal en
los extremos de cada trama de voz. -
29Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
30Reconocimiento de voz
- Análisis de predicción lineal (LPC)
- Una de las técnicas más usadas en el
procesamiento de señales de voz viene a ser el
análisis de predicción lineal. Esta técnica
permite parametrizar una señal con un número
pequeño de patrones, además de no requerir
demasiado tiempo de procesamiento, con lo que
hace de este análisis una herramienta bastante
potente. - Ecuación del filtro FIR (I)
- Donde
- xn corresponde a la señal de entrada del
filtro, que podrá ser un tren de impulsos o
ruido. - G ganancia del filtro
- yn salida del filtro.
31Reconocimiento de voz
- Análisis de predicción lineal (LPC)
- Ecuación del filtro FIR (II)
- Observaciones de importancia
- El modelo matemático expuesto establece que el
tracto vocal puede modelarse mediante un filtro
digital siendo los parámetros los que determinan
la función de transferencia. El problema consiste
en, dado un segmento de palabra, extraerle sus
parámetros que en este caso vienen a ser los
coeficientes del filtro. - También hay que tener en cuenta que un tren de
impulsos a la entrada, producirá señales sonoras
mientras que un ruido aleatorio producirá señales
no sonoras a la salida del filtro. - El filtro viene a representar el modelo del
tracto vocal. - Función de transferencia del filtro FIR
32Reconocimiento de voz
- Análisis de predicción lineal (LPC)
- Función de transferencia del filtro FIR
- Donde
- xn corresponde a la señal de entrada del
filtro, que podrá ser un tren de impulsos o
ruido. - G ganancia del filtro
- yn salida del filtro.
33Reconocimiento de voz
- Análisis de predicción lineal (LPC)
- Autocorrelación
- La función de autocorrelación proporciona una
medida de la correlación de la señal con una
copia desfasada en el tiempo de si mismo. De aquí
se extraen los p coeficientes de autocorrelación. - Estos coeficientes son utilizados para calcular
los coeficientes ak del filtro FIR descrito
antes. Para calcularlos se utiliza el algoritmo
de Levinson-Durbin, que permite resolver estas
ecuaciones de forma eficiente.
34Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
35Reconocimiento de voz
- Alineamiento temporal (DTW)
- La siguiente etapa del análisis viene a ser la
que se encarga se realizar la comparación de
patrones acústicos. Esta técnica tiene en cuenta
la variación en la escala de tiempo de dos
palabras a comparar. - Que problema se intenta resolver con el DTW?
- El problema que se presenta cuando se pronuncia
una palabra es que esta no siempre se realiza a
la misma velocidad, lo que produce importantes
distorsiones. - Como resolverlo?
- La forma de resolver este problema se realiza
mediante algoritmos de programación dinámica.
36Contenidos
- Historia de estas tecnologías
- El concepto de voz
- Procesamiento digital
- Reconocimiento de voz
- Introducción
- Modelado del tracto vocal
- Preprocesado de la señal de voz
- Análisis de predicción lineal (LPC)
- Alineamiento temporal (DTW)
- Cuantificación vectorial
37Reconocimiento de voz
- Cuantificación vectorial
- Las técnicas de parametrización de la señal vocal
se realizan tomando una secuencia de ventanas de
tiempo, cada una de las cuales es representada
por un número p de parámetros. - La idea principal de la cuantificación vectorial
es particionar el espacio vectorial en sectores,
cada uno de los cuales será representado por un
solo vector que puede ser el centroide. El
conjunto de centroides viene a ser el libro
índice (codebook) que conforman los niveles de
cuantificación y a cada una se le asignará una
etiqueta o una dirección. - El funcionamiento básico de esta técnica se basa
en la comparación de un vector de entrada, con
los vectores del codebook, intentando minimizar
la distancia entre ambos vectores. La decisión se
toma según un umbral de distorsión. Si resulta
mayor se vuelve a comparar hasta que la de
distancia total sea inferior al umbral.
38Reconocimiento de voz
- Esquema de un reconocedor de cuantificación
vectorial
39Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
40Síntesis de la voz
- Introducción
- La forma más habitual de comunicación entre las
personas y las máquinas suele ser a través de una
pantalla o visualizador, en la que el usuario lee
una determinada información. Sin embargo, resulta
más agradable poder recibir ciertas informaciones
de la misma manera que nos comunicamos entre
personas mediante una comunicación oral en
nuestro propio idioma. - Características a tener en cuenta de un
sintetizador - Inteligibilidad Está relacionada con la
facilidad para comprender la señal oral.
Normalmente se acostumbra a relacionar la
inteligibilidad con el procesado segmental. - Calidad Es un indicador de la naturalidad de
los sonidos. Se acostumbra a relacionar con el
procesado prosódico o suprasegmental (conjunto
factores que afectan la pronunciación de una
manera global, como la entonación, el ritmo y la
intensidad del habla).
41Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
42Síntesis de la voz
- Sistemas de respuesta oral versus convertidores
texto-voz - Tipos
- Sistemas de respuesta oral
- Basados en la reproducción de segmentos de voz
grabados previamente. Por ejemplo, en el caso de
información de telefónica. - Convertidores texto-voz
- Sistemas capaces de convertir cualquier cadena de
texto de entrada a una señal de voz. - Ventajas/Desventajas
- Los sistemas de respuesta oral solo permiten
sintetizar un número muy limitado de frases,
mientras que los sintetizadores permiten un
cualquier frase de entrada. - Los convertidores texto-voz son más complejos,
pero ofrecen una mayor flexibilidad. - Los sistemas de respuesta oral requieren un
menor gasto de memoria.
43Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
44Síntesis de la voz
- Conversión texto-voz
- Consideraciones a tener en cuenta
- La redundancia del lenguaje, facilita la
comprensión global del mensaje. - Se busca que la voz sintetizada tenga una buena
entonación y ritmo, para que sea agradable
escucharla. - Cada idioma presenta diferentes módulos
lingüísticos y bases de unidades.
45Síntesis de la voz
- Conversión texto-voz. Esquema del sintetizador
46Síntesis de la voz
- Conversión texto-voz. 1ª - Etapa Análisis del
texto - Función
- Realiza la conversión de los símbolos fonéticos
que integran el texto escrito, usando reglas
gramaticales propias del lenguaje.
47Síntesis de la voz
- Conversión texto-voz. 2ª - Etapa Generación de
prosodia - Función
- Genera la señal acústica a partir de los
parámetros extraídos en los bloques anteriores.
48Síntesis de la voz
- Conversión texto-voz. 3ª - Etapa Síntesis de la
voz - Función
- Se divide en dos bloques
- Control suprasegmental Trata la entonación de la
frase en su conjunto. - Control segmental controla la micromelodía, o
fenómenos locales de coarticulación,
acentuación,...
49Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
50Síntesis de la voz
- Generación de las bases de unidades. Unidades
Unidad Cantidad Descripción
Palabras 300000 Unidades fundamentales de las frases.
Sílabas 20000 Consta de un núcleo (vocal o diptongo) más algunas consonantes vecinas.
Semisílabas 4500 Se obtiene dividiendo la sílaba por la mitad, con el corte en el centro de la vocal.
Difonemas 1500 Se obtiene dividiendo la señal en fragmentos de tamaño un fonema. El corte se hace en el centro de cada fonema.
Alófonos 250 Se forman agrupando fonemas.
Fonemas 37 Es la unidad fundamental en fonética.
51Síntesis de la voz
- Generación de las bases de unidades. Unidades.
Ejemplo
52Síntesis de la voz
- Generación de las bases de unidades
- Existen dos maneras de obtenerlas
- Circuitos integrados (SP0256-AL2), que incorporan
una serie de alófonos en una memoria ROM. - Mediante registros propios consiste en la
grabación de un conjunto de unidades para
utilizarlas posteriormente. (Demasiado tiempo y
bastante trabajo).
53Contenidos
- Síntesis de la voz
- Introducción
- Sistemas de respuesta oral Vs convertidores
texto-voz - Conversión texto-voz
- Generación de la base de unidades
- Aplicaciones
- Aplicaciones
54Aplicaciones
- Aplicaciones del reconocimiento de la voz
- Dictado automático
- Control por comandos
- Sistemas portátiles
- Sistemas diseñados para discapacitados
55Aplicaciones
- Aplicaciones de la síntesis
- Revisar grandes volúmenes de texto
- Confirmación de órdenes y selecciones
- Operar bajo condiciones en las que una
visualización no es práctica - Oír el correo electrónico por teléfono