An - PowerPoint PPT Presentation

About This Presentation
Title:

An

Description:

Aprender como 'se forma' la voz y sus caracter sticas principales. ... En 1779, el cient fico dan s Christian Gottlieb Kratzenstein, que trabajaba en ... – PowerPoint PPT presentation

Number of Views:150
Avg rating:3.0/5.0
Slides: 56
Provided by: lpiTe
Category:
Tags: danes

less

Transcript and Presenter's Notes

Title: An


1
Análisis y síntesis de voz mediante ordenador
2
Objetivos
  • Aprender como se forma la voz y sus
    características principales.
  • Adquirir una idea básica del procesamiento
    mediante computador.
  • Tener una idea básica sobre en que se basa el
    reconocimiento del habla y que técnicas son
    utilizadas para llevarlo a cabo.
  • Conocer el estado actual de tecnologías de
    interacción como la síntesis o el reconocimiento
    de voz.
  • Ver las aplicaciones actuales de esta tecnología
    y sus futuros usos.

3
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

4
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

5
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

6
Historia del reconocimiento
  • Los inicios años 50Bell Labs ....
    Reconocimiento de dígitos aislados
    monolocutorRCA Labs .... Reconocimiento de 10
    sílabas monolocutorUniversity College in
    England .... Reconocedor fonéticoMIT Lincoln
    Lab .... Reconocedor de vocales independiente del
    hablante
  • Los fundamentos años 60Comienzo en Japón (NEC
    labs)
  • Las primeras soluciones años 70, el mundo
    probabilísticoReconocimiento de palabras
    aisladasLPC, programación dinámicaIBM inicio
    proyecto reconocimiento de grandes
    vocabulariosGran inversión en los USA
    proyectos DARPA

7
Historia del reconocimiento
  • Reconocimiento del Habla Continua años 80,
    expansiónAlgoritmos para el habla continua y
    grandes vocabulariosExplosión de los métodos
    estadísticos Modelos Ocultos de
    MarkovIntroducción de las Redes Neuronales en
    el reconocimiento de voz
  • Empieza el negocio años 90, primeras
    aplicacionesOrdenadores y procesadores baratos
    y rápidosSistemas de dictadoIntegración entre
    reconocimiento de voz y procesado del lenguaje
    natural
  • Actualidad, integración en el S.O.Integración
    teléfono y Voice Web browsers VoiceXML
    estandardSistema V2C (interacción voz-radio,
    voz-teléfono, voz-navegador)

8
Historia de la síntesis
  • Síntesis del Habla Comienzos tempranosEl Papa
    Silvestre II (1003), Alberto Magno (1198-1280) y
    Roger Bacon (1214-1294) crearon ejemplos
    tempranos de 'cabezas parlantes'.
  • Fijación de las bases siglo XIX, modelado de la
    vozEn 1779, el científico danés Christian
    Gottlieb Kratzenstein, que trabajaba en esa época
    en la Academia Rusa de las Ciencias, construyó
    modelos del tracto vocal que podían producir las
    cinco vocales largas (a, e, i, o, u).
  • Y por fin siglo XX, síntesis mediante
    computadorEn los años 30, los laboratorios Bell
    Labs desarrollaron el VOCODER, un analizador y un
    sintetizador del habla operado por teclado.
  • El primer sistema de síntesis computerizado
    años 50, y el primer sistema completo texto a voz
    años 60.
  • Años 90 grandes avances en la síntesis debido
    principalmente al rápido desarrollo de los
    ordenadores.

9
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

10
El concepto de voz
  • Sistema fonador humano
  • Onda de presión acústica originada
    voluntariamente a partir de los movimientos de la
    estructura anatómica del sistema fonador.
  • Los distintos sonidos se producen al pasar el
    aire emitido por los pulmones, a través de todo
    el sistema de producción, en una determinada
    posición de cada parámetro articulatorio.
  • Este sistema puede modelarse como un filtro, cuya
    función de transferencia depende del sonido
    articulado. La entrada al filtro se puede modelar
    mediante una señal de excitación, que se
    corresponde con el paso del aire generado por los
    pulmones a través de la tráquea y las cuerdas
    vocales, y también será dependiente del sonido
    generado.

11
El concepto de voz
  • Clasificación de sonidos
  • Sonidos sonoros En ellos las cuerdas vocales
    vibran y el aire pasa a través del tracto vocal
    sin impedimentos importantes.
  • Sonidos sordos En ellos las cuerdas vocales no
    vibran y existen restricciones importantes al
    paso del aire que proviene de los pulmones, por
    lo que son de amplitud menor y normalmente de
    naturaleza más ruidosa que los sonoros.

12
El concepto de voz
  • Análisis frecuencial (I)
  • La señal de voz es limitada en banda, a unos 8
    kHz. Sin embargo, la mayor parte de la
    información se encuentra en los primeros 4 kHz,
    que es aproximadamente el ancho de banda
    utilizado en las comunicaciones por vía
    telefónica.

Sonido sordo
Sonido sonoro
13
El concepto de voz
  • Análisis frecuencial (II)
  • De las figuras de antes se pueden sacar varias
    conclusiones
  • La periodicidad del fonema /u/. (Hay que recordar
    que la presencia de armónicos en el espectro
    indica cierta periodicidad de la señal).
  • El margen habitual del valor del pitch para
    locutores masculinos adultos del valor del pitch
    es de 50 a 250 Hz, mientras que para locutoras se
    encuentra entre 120 y 500 Hz.
  • Existencia de resonancias o zonas enfatizadas
    (formantes), en el espectro de los sonidos
    sonoros, por ejemplo las vocales, esto permite
    identificar a la vocal a partir de sus formantes.
  • Nota para formar el triángulo vocálico solo se
    requiere dos formantes.

14
El concepto de voz
  • Análisis frecuencial (II)
  • Triángulo vocálico castellano

Vocal\Formante (Hz) F1 F2
/i/ 284 2430
/e/ 527 2025
/a/ 689 1458
/o/ 608 1215
/u/ 243 770
15
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

16
Procesamiento digital
  • Fase 1ª - Digitalización de voz
  • El procesamiento digital de señal mediante un
    DSP, ordenador, etc., requiere previamente la
    conversión de la señal acústica a eléctrica
    mediante un micrófono, y la conversión de la
    señal analógica resultante a señal digital. Por
    otra parte, para restaurar o generar señal
    audible a partir de un sistema digital, será
    necesaria la conversión digital a analógica, su
    amplificación, y su radiación mediante un
    altavoz.
  • Etapas de digitalización
  • Recogida de información mediante un transductor.
  • Filtrado antialiasing.
  • Muestreo (Teorema de Nyquist).

17
Procesamiento digital
  • Fase 2ª - Codificación de voz
  • Las técnicas de codificación de voz pretenden
    reducir el volumen de información necesario para
    almacenar o transmitir una señal de voz, de forma
    que la pérdida de calidad de la señal
    decodificada respecto a la señal sin comprimir
    sea lo menor posible. Por supuesto, deberá
    mantenerse la inteligibilidad del mensaje, y
    existirá un compromiso calidad versus tabla de
    compresión, complejidad computacional, etc.
  • Tipos de codificación
  • Codificación de forma de onda intentan
    reproducir fielmente la forma de la onda de la
    señal a codificar
  • Codificación paramétrica() se basan en un
    modelo de producción del habla, e intentan
    reproducir en el proceso de decodificación una
    señal que al escucharla se parezca a la original,
    aunque existan distorsiones en la forma de onda
    generada.
  • ()Nota en el reconocimiento de voz, la
    codificación paramétrica es ampliamente
    utilizada.

18
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

19
Reconocimiento de voz
  • Introducción
  • El reconocimiento de la voz constituye una parte
    importante del tratamiento del habla.
  • Las técnicas de reconocimiento más desarrolladas
    son aquellas comúnmente usadas para el idioma
    inglés, las cuales incluyen el Análisis de
    Predicción Lineal (LPC) y el Alineamiento
    Temporal (DTW)
  • Tipos de enfoque en el reconocimiento
  • Reconocer palabras aislados las palabras se
    pronuncian entre pausas pequeñas de tal forma que
    el procesamiento se realiza teniendo como
    unidades lingüísticas las palabras de un
    vocabulario específico.
  • Reconocer palabras conectadas las palabras se
    pronuncian sin pausas (habla normal) de tal forma
    que el reconocimiento se lleva a cabo basándose
    en la coincidencia de palabras aisladas de
    referencia.
  • Reconocer fonemas y difonos (reconocimiento
    continuo de voz) basada en la separación de la
    señal de voz en estas unidades lingüísticas, para
    su posterior análisis.

20
Reconocimiento de voz
  • Introducción
  • Ventajas/Desventajas de los diferentes tipos de
    reconocedores
  • La complejidad de los reconocedores mediante
    fonemas es bastante mayor en comparación con los
    de palabras aisladas.
  • Los reconocedores de palabras aisladas no
    permiten vocabularios medianamente extensos (lt50
    palabras), debido principalmente al alto coste de
    memoria, que esta técnica requiere. Mientras que
    los reconocedores de fonemas permiten una mayor
    extensión del vocabulario a reconocer.
  • Palabras del vocabulario castellano 300000
    palabras
  • Fonemas existentes en el castellano 37 fonemas
  • Una limitación del reconocedor de palabras
    aisladas es tener que dictar, de forma aislada,
    cada palabra del texto a reconocer.

21
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

22
Reconocimiento de voz
  • Modelado del tracto vocal (I)
  • Como ya se vio, existen dos tipos de señales, que
    pueden describir el proceso del habla
  • Sonidos sonoros
  • Alta energía
  • 300-4000 Hz
  • Cierta periodicidad
  • Matemáticamente modelables como un tren de
    impulsos
  • Sonidos sordos
  • Baja energía
  • Componente frecuencial uniforme
  • Cierta aleatoriedad
  • Matemáticamente modelables como un ruido blanco

23
Reconocimiento de voz
  • Modelado del tracto vocal (II)
  • Teniendo presente la clasificación anterior y que
    el tracto vocal modelado se manifiesta como un
    filtro variable en el tiempo, en el que
    únicamente existen dos posibles señales de
    entrada (sonoras o sordas), se puede hacer el
    siguiente sistema

24
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

25
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • En esta fase se modifica a la señal de voz para
    facilitar su posterior análisis.
  • Etapas
  • 1ª - Preénfasis
  • 2ª - Segmentación y enventanado

26
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 1ª- Preénfasis
  • La etapa de preénfasis se realiza con el
    propósito de suavizar el espectro y reducir las
    inestabilidades del cálculo asociadas con las
    operaciones aritméticas de precisión finita.
  • Básicamente esta etapa consiste en un filtro
    digital de primer orden, cuya ecuación y repuesta
    en frecuencia corresponde a

27
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 2ª- Segmentación y enventanado
  • La siguiente etapa del preprocesado, consiste en
    la segmentación de la señal de voz en tramas de
    20 ó 30 mseg, con un desplazamiento típico de 10
    mseg.

28
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 2ª- Segmentación y enventanado
  • Por último a cada trama generada se le aplica una
    ventana de Hamming, que elimina los problemas
    causados por los cambios rápidos de la señal en
    los extremos de cada trama de voz.

29
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

30
Reconocimiento de voz
  • Análisis de predicción lineal (LPC)
  • Una de las técnicas más usadas en el
    procesamiento de señales de voz viene a ser el
    análisis de predicción lineal. Esta técnica
    permite parametrizar una señal con un número
    pequeño de patrones, además de no requerir
    demasiado tiempo de procesamiento, con lo que
    hace de este análisis una herramienta bastante
    potente.
  • Ecuación del filtro FIR (I)
  • Donde
  • xn corresponde a la señal de entrada del
    filtro, que podrá ser un tren de impulsos o
    ruido.
  • G ganancia del filtro
  • yn salida del filtro.

31
Reconocimiento de voz
  • Análisis de predicción lineal (LPC)
  • Ecuación del filtro FIR (II)
  • Observaciones de importancia
  • El modelo matemático expuesto establece que el
    tracto vocal puede modelarse mediante un filtro
    digital siendo los parámetros los que determinan
    la función de transferencia. El problema consiste
    en, dado un segmento de palabra, extraerle sus
    parámetros que en este caso vienen a ser los
    coeficientes del filtro.
  • También hay que tener en cuenta que un tren de
    impulsos a la entrada, producirá señales sonoras
    mientras que un ruido aleatorio producirá señales
    no sonoras a la salida del filtro.
  • El filtro viene a representar el modelo del
    tracto vocal.
  • Función de transferencia del filtro FIR

32
Reconocimiento de voz
  • Análisis de predicción lineal (LPC)
  • Función de transferencia del filtro FIR
  • Donde
  • xn corresponde a la señal de entrada del
    filtro, que podrá ser un tren de impulsos o
    ruido.
  • G ganancia del filtro
  • yn salida del filtro.

33
Reconocimiento de voz
  • Análisis de predicción lineal (LPC)
  • Autocorrelación
  • La función de autocorrelación proporciona una
    medida de la correlación de la señal con una
    copia desfasada en el tiempo de si mismo. De aquí
    se extraen los p coeficientes de autocorrelación.
  • Estos coeficientes son utilizados para calcular
    los coeficientes ak del filtro FIR descrito
    antes. Para calcularlos se utiliza el algoritmo
    de Levinson-Durbin, que permite resolver estas
    ecuaciones de forma eficiente.

34
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

35
Reconocimiento de voz
  • Alineamiento temporal (DTW)
  • La siguiente etapa del análisis viene a ser la
    que se encarga se realizar la comparación de
    patrones acústicos. Esta técnica tiene en cuenta
    la variación en la escala de tiempo de dos
    palabras a comparar.
  • Que problema se intenta resolver con el DTW?
  • El problema que se presenta cuando se pronuncia
    una palabra es que esta no siempre se realiza a
    la misma velocidad, lo que produce importantes
    distorsiones.
  • Como resolverlo?
  • La forma de resolver este problema se realiza
    mediante algoritmos de programación dinámica.

36
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Análisis de predicción lineal (LPC)
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

37
Reconocimiento de voz
  • Cuantificación vectorial
  • Las técnicas de parametrización de la señal vocal
    se realizan tomando una secuencia de ventanas de
    tiempo, cada una de las cuales es representada
    por un número p de parámetros.
  • La idea principal de la cuantificación vectorial
    es particionar el espacio vectorial en sectores,
    cada uno de los cuales será representado por un
    solo vector que puede ser el centroide. El
    conjunto de centroides viene a ser el libro
    índice (codebook) que conforman los niveles de
    cuantificación y a cada una se le asignará una
    etiqueta o una dirección.
  • El funcionamiento básico de esta técnica se basa
    en la comparación de un vector de entrada, con
    los vectores del codebook, intentando minimizar
    la distancia entre ambos vectores. La decisión se
    toma según un umbral de distorsión. Si resulta
    mayor se vuelve a comparar hasta que la de
    distancia total sea inferior al umbral.

38
Reconocimiento de voz
  • Esquema de un reconocedor de cuantificación
    vectorial

39
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

40
Síntesis de la voz
  • Introducción
  • La forma más habitual de comunicación entre las
    personas y las máquinas suele ser a través de una
    pantalla o visualizador, en la que el usuario lee
    una determinada información. Sin embargo, resulta
    más agradable poder recibir ciertas informaciones
    de la misma manera que nos comunicamos entre
    personas mediante una comunicación oral en
    nuestro propio idioma.
  • Características a tener en cuenta de un
    sintetizador
  • Inteligibilidad Está relacionada con la
    facilidad para comprender la señal oral.
    Normalmente se acostumbra a relacionar la
    inteligibilidad con el procesado segmental.
  • Calidad Es un indicador de la naturalidad de
    los sonidos. Se acostumbra a relacionar con el
    procesado prosódico o suprasegmental (conjunto
    factores que afectan la pronunciación de una
    manera global, como la entonación, el ritmo y la
    intensidad del habla).

41
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

42
Síntesis de la voz
  • Sistemas de respuesta oral versus convertidores
    texto-voz
  • Tipos
  • Sistemas de respuesta oral
  • Basados en la reproducción de segmentos de voz
    grabados previamente. Por ejemplo, en el caso de
    información de telefónica.
  • Convertidores texto-voz
  • Sistemas capaces de convertir cualquier cadena de
    texto de entrada a una señal de voz.
  • Ventajas/Desventajas
  • Los sistemas de respuesta oral solo permiten
    sintetizar un número muy limitado de frases,
    mientras que los sintetizadores permiten un
    cualquier frase de entrada.
  • Los convertidores texto-voz son más complejos,
    pero ofrecen una mayor flexibilidad.
  • Los sistemas de respuesta oral requieren un
    menor gasto de memoria.

43
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

44
Síntesis de la voz
  • Conversión texto-voz
  • Consideraciones a tener en cuenta
  • La redundancia del lenguaje, facilita la
    comprensión global del mensaje.
  • Se busca que la voz sintetizada tenga una buena
    entonación y ritmo, para que sea agradable
    escucharla.
  • Cada idioma presenta diferentes módulos
    lingüísticos y bases de unidades.

45
Síntesis de la voz
  • Conversión texto-voz. Esquema del sintetizador

46
Síntesis de la voz
  • Conversión texto-voz. 1ª - Etapa Análisis del
    texto
  • Función
  • Realiza la conversión de los símbolos fonéticos
    que integran el texto escrito, usando reglas
    gramaticales propias del lenguaje.

47
Síntesis de la voz
  • Conversión texto-voz. 2ª - Etapa Generación de
    prosodia
  • Función
  • Genera la señal acústica a partir de los
    parámetros extraídos en los bloques anteriores.

48
Síntesis de la voz
  • Conversión texto-voz. 3ª - Etapa Síntesis de la
    voz
  • Función
  • Se divide en dos bloques
  • Control suprasegmental Trata la entonación de la
    frase en su conjunto.
  • Control segmental controla la micromelodía, o
    fenómenos locales de coarticulación,
    acentuación,...

49
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

50
Síntesis de la voz
  • Generación de las bases de unidades. Unidades

Unidad Cantidad Descripción
Palabras 300000 Unidades fundamentales de las frases.
Sílabas 20000 Consta de un núcleo (vocal o diptongo) más algunas consonantes vecinas.
Semisílabas 4500 Se obtiene dividiendo la sílaba por la mitad, con el corte en el centro de la vocal.
Difonemas 1500 Se obtiene dividiendo la señal en fragmentos de tamaño un fonema. El corte se hace en el centro de cada fonema.
Alófonos 250 Se forman agrupando fonemas.
Fonemas 37 Es la unidad fundamental en fonética.
51
Síntesis de la voz
  • Generación de las bases de unidades. Unidades.
    Ejemplo

52
Síntesis de la voz
  • Generación de las bases de unidades
  • Existen dos maneras de obtenerlas
  • Circuitos integrados (SP0256-AL2), que incorporan
    una serie de alófonos en una memoria ROM.
  • Mediante registros propios consiste en la
    grabación de un conjunto de unidades para
    utilizarlas posteriormente. (Demasiado tiempo y
    bastante trabajo).

53
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Generación de la base de unidades
  • Aplicaciones
  • Aplicaciones

54
Aplicaciones
  • Aplicaciones del reconocimiento de la voz
  • Dictado automático
  • Control por comandos
  • Sistemas portátiles
  • Sistemas diseñados para discapacitados

55
Aplicaciones
  • Aplicaciones de la síntesis
  • Revisar grandes volúmenes de texto
  • Confirmación de órdenes y selecciones
  • Operar bajo condiciones en las que una
    visualización no es práctica
  • Oír el correo electrónico por teléfono
Write a Comment
User Comments (0)
About PowerShow.com