An - PowerPoint PPT Presentation

About This Presentation
Title:

An

Description:

Tener una idea b sica sobre en que se basa el reconocimiento del habla y que ... En 1779, el cient fico dan s Christian Gottlieb Kratzenstein, construy modelos ... – PowerPoint PPT presentation

Number of Views:119
Avg rating:3.0/5.0
Slides: 47
Provided by: lpiTe
Category:
Tags: danes

less

Transcript and Presenter's Notes

Title: An


1
Análisis y síntesis de voz mediante ordenador
2
Objetivos
  • Aprender como se forma la voz y sus
    características principales.
  • Tener una idea básica sobre en que se basa el
    reconocimiento del habla y que técnicas son
    utilizadas para llevarlo a cabo.
  • Conocer el estado actual de tecnologías de
    interacción como la síntesis o el reconocimiento
    de voz.
  • Ver las aplicaciones actuales de esta tecnología.

3
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

4
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Aplicaciones
  • Aplicaciones

5
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

6
Historia del reconocimiento
  • Los inicios años 50Bell Labs ....
    Reconocimiento de dígitos aislados monolocutor
  • Los fundamentos años 60Comienzo en Japón (NEC
    labs)
  • Las primeras soluciones años 70, el mundo
    probabilísticoReconocimiento de palabras
    aisladasLPC, programación dinámicaIBM inicio
    proyecto reconocimiento de grandes
    vocabulariosGran inversión en los USA
    proyectos DARPA

7
Historia del reconocimiento
  • Reconocimiento del Habla Continua años 80,
    expansión
  • Explosión de los métodos estadísticos Modelos
    Ocultos de MarkovIntroducción de las Redes
    Neuronales en el reconocimiento de voz
  • Empieza el negocio años 90, primeras
    aplicacionesOrdenadores y procesadores baratos
    y rápidosSistemas de dictado
  • Actualidad, integración en el S.O.VoiceXML
    standardSistema V2C (interacción voz-radio,
    voz-teléfono, voz-navegador)

8
Historia de la síntesis
  • Síntesis del Habla Comienzos tempranosEl Papa
    Silvestre II (1003), Alberto Magno (1198-1280) y
    Roger Bacon (1214-1294) crearon ejemplos
    tempranos de 'cabezas parlantes'.
  • Fijación de las bases siglo XIX, modelado de la
    vozEn 1779, el científico danés Christian
    Gottlieb Kratzenstein, construyó modelos del
    tracto vocal que podían producir las cinco
    vocales largas (a, e, i, o, u).
  • Y por fin siglo XX, síntesis mediante
    computadorEn los años 30, los laboratorios Bell
    Labs desarrollaron el VOCODER, un analizador y un
    sintetizador del habla operado por teclado.
  • Años 90 grandes avances en la síntesis debido
    principalmente al rápido desarrollo de los
    ordenadores.

9
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

10
El concepto de voz
  • Sistema fonador humano
  • Onda de presión acústica.
  • Los distintos sonidos se producen al pasar el
    aire emitido por los pulmones, a través de todo
    el sistema de producción.

11
El concepto de voz
  • Clasificación de sonidos
  • Sonidos sonoros En ellos las cuerdas vocales
    vibran y el aire pasa a través del tracto vocal
    sin impedimentos importantes.
  • Sonidos sordos En ellos las cuerdas vocales no
    vibran y existen restricciones importantes al
    paso del aire que proviene de los pulmones, por
    lo que son de amplitud menor y normalmente de
    naturaleza más ruidosa que los sonoros.

12
El concepto de voz
  • Análisis frecuencial (I)
  • La mayor parte de la información de la señal de
    voz se encuentra en los primeros 4 kHz.

Sonido sonoro
Sonido sordo
13
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

14
Procesamiento digital
  • El procesamiento digital de señal mediante un
    DSP, ordenador, etc.
  • Fase 1ª - Digitalización de voz
  • Etapas de digitalización
  • Recogida de información mediante un transductor.
  • Filtrado antialiasing.
  • Muestreo (Teorema de Nyquist).

15
Procesamiento digital
  • Fase 2ª - Codificación de voz
  • Pretenden reducir el volumen de información
    necesario para almacenar o transmitir una señal
    de voz.
  • Minimizar la pérdida de calidad de la señal
    decodificada respecto a la señal original.
  • Tipos de codificación
  • Codificación de forma de onda intentan
    reproducir fielmente la forma de la onda de la
    señal a codificar
  • Codificación paramétrica() se basan en un
    modelo de producción del habla, e intentan
    reproducir en el proceso de decodificación una
    señal que al escucharla se parezca a la original,
    aunque existan distorsiones en la forma de onda
    generada.
  • ()Nota en el reconocimiento de voz, la
    codificación paramétrica es ampliamente
    utilizada.

16
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

17
Reconocimiento de voz
  • Introducción
  • El reconocimiento de la voz constituye una parte
    importante del tratamiento del habla.
  • Técnicas de reconocimiento utilizadas
  • Análisis de Predicción Lineal (LPC)
  • Alineamiento Temporal (DTW)
  • Modelos ocultos de Markov
  • Tipos de enfoque en el reconocimiento
  • Reconocer palabras aislados
  • Reconocer palabras conectadas
  • Reconocer fonemas y difonos (reconocimiento
    continuo de voz)

18
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

19
Reconocimiento de voz
  • Modelado del tracto vocal (I)
  • Como ya se vio, existen dos tipos de señales, que
    pueden describir el proceso del habla
  • Sonidos sonoros
  • Alta energía
  • 300-4000 Hz
  • Cierta periodicidad
  • Matemáticamente modelables como un tren de
    impulsos
  • Sonidos sordos
  • Baja energía
  • Componente frecuencial uniforme
  • Cierta aleatoriedad
  • Matemáticamente modelables como un ruido blanco

20
Reconocimiento de voz
  • Modelado del tracto vocal (II)
  • Teniendo presente la clasificación anterior y que
    el tracto vocal modelado se manifiesta como un
    filtro variable en el tiempo, en el que
    únicamente existen dos posibles señales de
    entrada (sonoras o sordas), se puede hacer el
    siguiente sistema

21
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

22
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 1ª- Preénfasis
  • La etapa de preénfasis se realiza con el
    propósito de suavizar el espectro y reducir las
    inestabilidades del cálculo asociadas con las
    operaciones aritméticas de precisión finita.
  • Básicamente esta etapa consiste en un filtro
    digital de primer orden, cuya ecuación y repuesta
    en frecuencia corresponde a

23
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 2ª- Segmentación y enventanado
  • La siguiente etapa del preprocesado, consiste en
    la segmentación de la señal de voz en tramas de
    20 ó 30 mseg, con un desplazamiento típico de 10
    mseg.

24
Reconocimiento de voz
  • Preprocesado de la señal de voz
  • 2ª- Segmentación y enventanado
  • Por último a cada trama generada se le aplica una
    ventana de Hamming, que elimina los problemas
    causados por los cambios rápidos de la señal en
    los extremos de cada trama de voz.

25
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

26
Reconocimiento de voz
  • Procesamiento mediante LPC
  • Permite parametrizar una señal con un número
    pequeño de patrones.
  • Coste computacional pequeño.

?
?Problema No sabemos como calcular los
coeficientes ak del filtro
27
Reconocimiento de voz
  • Procesamiento mediante LPC
  • Autocorrelación en combinación con algoritmo de
    Levinson-Durbin

Cálculo de los coeficientes del filtro FIR
28
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

29
Reconocimiento de voz
  • Alineamiento temporal (DTW)
  • La siguiente etapa del análisis viene a ser la
    que se encarga de realizar la comparación de
    patrones acústicos. Esta técnica tiene en cuenta
    la variación en la escala de tiempo de dos
    palabras a comparar.
  • Que problema se intenta resolver con el DTW?
  • El problema que se presenta cuando se pronuncia
    una palabra es que esta no siempre se realiza a
    la misma velocidad, lo que produce importantes
    distorsiones.
  • Como resolverlo?
  • La forma de resolver este problema se realiza
    mediante algoritmos de programación dinámica.

30
Contenidos
  • Historia de estas tecnologías
  • El concepto de voz
  • Procesamiento digital
  • Reconocimiento de voz
  • Introducción
  • Modelado del tracto vocal
  • Preprocesado de la señal de voz
  • Procesamiento mediante LPC
  • Alineamiento temporal (DTW)
  • Cuantificación vectorial

31
Reconocimiento de voz
  • Cuantificación vectorial
  • Particionar el espacio vectorial en sectores,
    cada uno de los cuales será representado por un
    solo vector que puede ser el centroide. El
    conjunto de centroides viene a ser el libro
    índice (codebook) que conforman los niveles de
    cuantificación y a cada una se le asignará una
    etiqueta o una dirección.
  • Decisión
  • El funcionamiento básico de esta técnica se basa
    en la comparación de un vector de entrada, con
    los vectores del codebook, intentando minimizar
    la distancia entre ambos vectores. La decisión se
    toma según un umbral de distorsión. Si resulta
    mayor se vuelve a comparar hasta que la de
    distancia total sea inferior al umbral.

32
Reconocimiento de voz
  • Esquema de un reconocedor de cuantificación
    vectorial

33
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Aplicaciones
  • Aplicaciones

34
Síntesis de la voz
  • Introducción
  • Características a tener en cuenta de un
    sintetizador
  • Inteligibilidad Está relacionada con la
    facilidad para comprender la señal oral.
  • Calidad Es un indicador de la naturalidad de
    los sonidos.

35
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Aplicaciones
  • Aplicaciones

36
Síntesis de la voz
  • Sistemas de respuesta oral vs convertidores
    texto-voz
  • Tipos
  • Sistemas de respuesta oral
  • Basados en la reproducción de segmentos de voz
    grabados previamente. Por ejemplo, en el caso de
    información de telefónica.
  • Convertidores texto-voz
  • Sistemas capaces de convertir cualquier cadena de
    texto de entrada a una señal de voz.
  • Ventajas/Desventajas
  • Los sistemas de respuesta oral solo permiten
    sintetizar un número muy limitado de frases,
    mientras que los sintetizadores permiten un
    cualquier frase de entrada.
  • Los convertidores texto-voz son más complejos,
    pero ofrecen una mayor flexibilidad.
  • Los sistemas de respuesta oral requieren un
    menor gasto de memoria.

37
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Aplicaciones
  • Aplicaciones

38
Síntesis de la voz
  • Conversión texto-voz. Esquema del sintetizador

39
Síntesis de la voz
  • Conversión texto-voz. 1ª - Etapa Análisis del
    texto
  • Función
  • Realiza la conversión de los símbolos fonéticos
    que integran el texto escrito, usando reglas
    gramaticales propias del lenguaje.

40
Síntesis de la voz
  • Conversión texto-voz. 2ª - Etapa Generación de
    prosodia
  • Función
  • Se divide en dos bloques
  • Control suprasegmental Trata la entonación de la
    frase en su conjunto.
  • Control segmental controla la micromelodía, o
    fenómenos locales de coarticulación,
    acentuación,...

41
Síntesis de la voz
  • Conversión texto-voz. 3ª - Etapa Síntesis de la
    voz
  • Función
  • Genera la señal acústica a partir de los
    parámetros extraídos en los bloques anteriores.

42
Unidades lingüísticas
43
Contenidos
  • Síntesis de la voz
  • Introducción
  • Sistemas de respuesta oral Vs convertidores
    texto-voz
  • Conversión texto-voz
  • Aplicaciones
  • Aplicaciones

44
Aplicaciones
  • Aplicaciones del reconocimiento de la voz
  • Dictado automático
  • Control por comandos
  • Sistemas diseñados para discapacitados
  • etc

45
Aplicaciones
  • Aplicaciones de la síntesis
  • Revisar grandes volúmenes de texto
  • Confirmación de órdenes y selecciones
  • Operar bajo condiciones en las que una
    visualización no es práctica
  • Oír el correo electrónico por teléfono
  • etc

46
Conclusiones
  • Obteniendo varios ejemplos de diferentes
    programas de síntesis
  • Software 2000-2001
  • Software 2005-2006
  • Universidad de Vigo
  • Basada en técnica de corpus
  • Basada en técnica de difonemas
Write a Comment
User Comments (0)
About PowerShow.com