Sistemas de Interacci - PowerPoint PPT Presentation

About This Presentation
Title:

Sistemas de Interacci

Description:

Sistemas de Interacci n Natural (4e) Luis Hern ndez G mez luis_at_gaps.ssr.upm.es – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 90
Provided by: LuisHer2
Category:

less

Transcript and Presenter's Notes

Title: Sistemas de Interacci


1
Sistemas de Interacción Natural (4e)
  • Luis Hernández Gómez
  • luis_at_gaps.ssr.upm.es

2
SPEECH LANGUAGE TECHNOLOGIES
  • 4a Speech production and analysis
  • 4b Speech perception
  • 4c Speech Analysis
  • 4d Text-to-Speech
  • 4e Speech Recognition
  • 4f Dialog Systems
  • Digital Speech Processing Course
  • Prof. Lawrence Rabiner
  • http//www.caip.rutgers.edu/lrr/

3
Tratamiento Digital de Voz
  • Tema 6 Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Tecnología de Reconocimiento de Locutor
  • Tecnología de Reconocimiento de Habla

4
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla qué se dice?
  • La variedad de locutores (quién lo dice?)
    ruido
  • (Acentos, variedades dialectales, etc.)
  • Reconocimiento de Locutor quién lo dice?
  • La variedad de mensajes hablados (qué se
    dice?) ruido
  • variación intra-locutor ?variación
    inter-locutores

5
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla Características
  • Dependiente / Independiente de Locutor
  • Tamaño del Vocabulario
  • Tipos de Reconocimiento
  • Habla aislada, palabras en contexto (word
    spotting), habla natural, lenguaje natural, habla
    espontánea, ...
  • Otros
  • Entorno de Ruido móviles, cabinas, automóvil,
    ...
  • Sistema de comunicación GSM, manos-libres,
    VoIP, ...
  • Prestaciones

6
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla Dependiente/Independient
    e del Locutor
  • Dependiente de Locutor por ejemplo, sistemas de
    dictado.
  • Independiente de Locutor aplicaciones
    telefónicas.
  • Cada vez mayor importancia de las Técnicas de
    Adaptación al Locutor
  • Reducción de la cantidad de voz para la
    adaptación.
  • Adaptación supervisada / no-supervisada.
  • Adaptación también al entorno de ruido.
  • Adaptación a habla espontánea.

7
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla Tamaño del Vocabulario
  • El vocabulario DEBE estar pre-fijado (en muchas
    ocasiones es muy importante la gestión dinámica
    de vocabularios entradas variables)
  • El diseño del vocabulario puede olvidar
    palabras palabras fuera del vocabulario (OOV
    out-of-vocabulary). Cómo detectar e incorporar
    esas palabras es de gran importancia.
  • Las prestaciones del Reconocedor son
    dependientes del tamaño del vocabulario
  • Pequeño (lt 100), medio (lt1000), grande (gt1000
    -- 1M)
  • PERO es muy importante (muchas veces más que el
    número de palabras)
  • El grado de similitud acústica entre palabras
    (ej. teléfonos)
  • La GRAMÁTICA de reconocimiento. La gramática
    restringe la secuencia de palabras a reconocer.

8
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla Tipo de
    Reconocimiento
  • (terminología imprecisa)
  • Habla aislada lista de palabras (directorio de
    nombres)
  • Palabras en contexto (word spotting) con Juan
    Pérez por favor
  • Habla natural dictado natural, u órdenes
    naturales (quiero que me digas qué películas
    ponen hoy)
  • Lenguaje natural suele asociarse a la
    identificación de entidades semánticas
  • ltsolicitud de informacióngtquiero que me digas qué
  • lttipo de informacióngtpelículaslt/tipo de
    informacióngt
  • ponenlttiempogthoylt/tiempogt
  • lt/solicitud de informacióngt
  • Habla espontánea disfluencias ..eh quiero
    que me des, que me diga.. digas qué... pone...
    las películas de hoy

9
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Habla Características
  • Más otros....
  • Entorno de Ruido móviles, cabinas, automóvil,
    ...
  • Sistema de comunicación GSM, manos-libres,
    VoIP, ...
  • DIFICULTAD de medir realmente las prestaciones
    de un sistema de reconocimiento (en laboratorio
    ?en aplicaciones)
  • Errores de Reconocimiento Tasa de Error
    (Sustituciones / Inserciones / Elisiones
    (borrados))
  • Rechazo Falsa Aceptación / Falso Rechazo gt
    INFLUYE en la Tasa de Error.
  • Ruidos
  • Palabras OOV (fuera del vocabulario)
  • Medidas de Confianza seguridad del resultado
    de reconocimiento (ejemplo Adaptación
    no-supervisada)

10
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Locutor Características
  • Dependiente / Independiente de Texto
  • Población cerrada / abierta
  • Modos de Funcionamiento
  • VERIFICACIÓN
  • IDENTIFICACIÓN
  • (Detección Autenticación)
  • Otros
  • Entorno de Ruido..., Sistema de comunicaciones,
    ...
  • VARIABILIDAD ENTRE SESIONES
  • Prestaciones

11
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Rec. de Locutor Dependiente/Independiente de
    Texto
  • Dependiente Texto
  • Texto fijo locución pre-establecida (clave de
    acceso)
  • Texto variable (vocabulario fijo) se pide que
    el locutor pronuncie una clave generada
    aleatoriamente (text prompted) objetivos evitar
    grabaciones y clave en voz alta
  • Independiente de Texto el locutor puede emplear
    cualquier locución, sin restricciones (duración,
    riqueza fonética ? Imaginación ? gt tipo de
    aplicación Acústica Forense)
  • Importancia de la estrategia de diálogo
    (factores humanos) preguntas sucesivas (nombre,
    apellidos, fecha de nacimiento, ...)
  • Reconocimiento de Locutor ?Sistemas de
    Verificación de Información Verbal
    (complementarios? Fases diferentes ?)

12
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Locutor Población
    cerrada/abierta
  • Población cerrada reconocimiento entre un
    conjunto cerrado de usuarios el impostor está
    en casa.
  • Población abierta reconocimiento abierto a
    impostores externos a los locutores
    reconocibles

13
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Locutor Modos de
    funcionamiento
  • VERIFICACIÓN decidir si una persona es quien
    dice ser utilizando su huella vocal (ej.
    tecleo mi password y el sistema me pide que hable
    para comprobar que soy yo se contrasta la voz
    dubitada contra una sola huella vocal la del
    password-)
  • IDENTIFICACIÓN decidir si la voz de una persona
    pertenece a algun locutor de una población de
    locutores identificados. (se compara la voz
    dubitada con todas las huellas vocales de la
    población indubitada)
  • (DETECCIÓN localización de un locutor en una
    grabación de audio AUTENTICACIÓN mediante
    verificación/identificación)

14
Reconocimiento de Voz
  • Principios de Reconocimiento de Habla y de
    Locutor
  • Reconocimiento de Locutor Prestaciones
  • Otros
  • Entorno de Ruido... Sistema de comunicación...
  • VARIABILIDAD ENTRE SESIONES
  • Errores de Reconocimiento tasas de
  • Falsa Aceptación FA un impostor vulnera el
    sistema
  • Falso Rechazo FR un usuario no es reconocido
  • Aciertos de Reconocimiento
  • Rechazo correcta un impostor es rechazado
  • Aceptación correcta un usuario es reconocido
  • El coste de cada tipo de error depende de la
    aplicación (por ejemplo mayor, menor seguridad)
  • TAMBIÉN en aplicaciones reales FTE
    Fail-to-enroll imposibilidad de entrenarse en el
    sistema

15
Four conditional probabilitiesin speaker
verification
0012-09
Input utterance Decision condition condition s n (customer) (impostor)
S (accept) N (reject) P(S s) P(S n) P(N s) P(N n)
16
Relationship between error rate and decision
criterion (threshold) in speaker verification
0012-10
Equal Error Rate EER
17
Receiver operating characteristic (ROC) curves
performance examples of three speaker
verification systems A, B, and D
0012-11
18
Reconocimiento de Voz
  • Reconocimiento de Locutor Prestaciones
    (http//www.nist.gov/speech)
  • Curvas ROC Curvas DEC

19
Reconocimiento de Voz
  • Reconocimiento de Locutor Prestaciones
    (http//www.nist.gov/speech)

We have found it useful in speech applications to
use a variant of this which we call the DET
(Detection Error Tradeoff) Curve, described
below. In the DET curve we plot error rates on
both axes, giving uniform treatment to both types
of error, and use a scale for both axes which
spreads out the plot and better distinguishes
different well performing systems and usually
produces plots that are close to linear.
20
Recognition error rates as a function of
population size in speaker identification and
verification
0103-23
21
Reconocimiento de Voz
  • Reconocimiento de Locutor Prestaciones (La
    Granja)
  • SHEEP, GOATS, LAMBS and WOLVES
  • A Statistical Analysis of Speaker Performance
  • in the NIST 1998 Speaker Recognition Evaluation
  • George Doddington 1,2,3,5, Walter Liggett1, Alvin
    Martin1, Mark Przybocki1, Douglas Reynolds 3,4,
  • 1 National Institute of Standards and Technology,
    2 The Johns Hopkins University
  • 3 U.S. Department of Defense, 4 MIT Lincoln
    Laboratory, 5 SRI International

22
Reconocimiento de Voz
  • Reconocimiento de Locutor Prestaciones (La
    Granja)
  • Sheep (ovejas) Sheep comprise our default
    speaker type. In our model, sheep dominate the
    population and systems perform nominally well for
    them.
  • Goats (cabras) Goats, in our model, are those
    speakers who are particularly difficult to
    recognize. Goats tend to adversely affect the
    performance of systems by accounting for a
    disproportionate share of the missed detections.
    The goat population can be an especially
    important problem for entry control systems,
    where it is important that all users be reliably
    accepted.

23
Reconocimiento de Voz
  • Lambs (corderos) Lambs, in our model, are
    those speakers who are particularly easy to
    imitate. That is, a randomly chosen speaker is
    exceptionally likely to be accepted as a lamb.
    Lambs tend to adversely affect the performance of
    systems by accounting for a disproportionate
    share of the false alarms. This represents a
    potential system weakness, if lambs can be
    identified, either through trial and error or
    through correlation with other directly
    observable characteristics.
  • Wolves (lobos) Wolves, in our model, are those
    speakers who are particularly successful at
    imitating other speakers. That is, their speech
    is exceptionally likely to be accepted as that of
    another speaker. Wolves tend to adversely affect
    the performance of systems by accounting for a
    disproportionate share of the false alarms. This
    represents a potential system weakness, if wolves
    can be identified and recruited to defeat systems.

24
Tratamiento Digital de Voz
  • Tecnología de Reconocimiento de Locutor
  • Estructura de un Sistema de Reconocimiento de
    Locutor

Speech Recognition Technology in
theUbiquitous/Wearable Computing Environment
Sadaoki Furui http//www.furui.cs.titech.ac.jp/
25
Tratamiento Digital de Voz
  • Tecnología de Reconocimiento de Locutor
  • Otros aspectos importantes

Modelos/Patrones de referencia para cada Locutor
Cancelador De Ecos
Extracción De Características
Comparación (Distancia)
Detector de Actividad
Señal de Voz
Compensación De Ruido
Resultado Reconocimiento
26
Tecnología de Reconocimiento de Locutor
  • Identificación

27
Tecnología de Reconocimiento de Locutor
  • Verificación

28
Tecnología de Reconocimiento de Locutor
  • Decisión

29
Tecnología de Reconocimiento de Locutor
  • Objetivo obtener un modelo del locutor
  • Para discriminación, no para codificación ni
    síntesis
  • Marco de Trabajo Reconocimiento de Patrones
  • El clasificador óptimo es el clasificador de
    Bayes

30
Tecnología de Reconocimiento de Locutor
  • Todo lo necesario es conocer la función de
    probabilidad

31
Tecnología de Reconocimiento de Locutor
  • Todo lo necesario es conocer la función de
    probabilidad

Max
Rechazo
. . .
O
. . .
32
Tecnología de Reconocimiento de Locutor
  • PERO la función de probabilidad nunca se
    conoce forma paramétrica desconocida y cantidad
    de datos de estima (entrenamiento) limitados

NO UN CLASIFICADOR ÚNICO Funciones
de Discriminación
33
Tecnología de Reconocimiento de Locutor
  • De una forma simplificada podemos considerar
  • Por la técnica de clasificación
  • Clasificadores no-paramétricos
  • Clasificadores paramétricos
  • (Discriminativos)
  • Atendiendo al tipo de información empleada
  • Clasificadores a partir de información a largo
    plazo
  • Clasificadores a partir de información a corto
    plazo

34
0012-13
35
Tecnología de Reconocimiento de Locutor
  • Por la técnica de clasificación...
  • Clasificadores no-paramétricos
  • No hacen ninguna hipótesis sobre el modelo de
    distribución de la voz del locutor
  • Se basan completamente en los datos de
    entrenamiento
  • Un ejemplo típico serían los sistemas de
    Reconocimiento Independientes del Locutor basados
    en Cuantificación Vectorial

36
Vector quantization (VQ)-based text-independent
speaker recognition
0103-19
37
Tecnología de Reconocimiento de Locutor
  • Cuantificador Vectorial
  • Representa el conjunto de vectores de
    ENTRENAMIENTO Xx1,x2, ... xN por un número
    pequeño de representantes (centroides) Yy1, y2,
    ... yM (MltN)
  • Fase 1. Determinación de los representantes
  • Medida de distancia d(xi, yj)
  • Entrenamiento Codebook Y
  • Fase 2. Asignación del centroide más próximo
  • Cuantificación de una observación o

38
Tecnología de Reconocimiento de Locutor
  • Entrenamiento CV algoritmo LBG

39
Cuantificación
  • Asunción Moreno
  • Universidad Politécnica de Cataluña

40
Entrenamiento
y
x
41
Entrenamiento
y
x
42
Entrenamiento
y
x
43
Entrenamiento
y
x
44
Entrenamiento
y
x
45
Entrenamiento
y
x
46
Entrenamiento
y
x
47
Entrenamiento
y
x
48
Entrenamiento
y
x
49
Entrenamiento
y
x
50
Entrenamiento
y
x
51
Entrenamiento
y
x
52
Cuantificación
y
x
53
VQ Performance on Unseen Data
Ramachandran Mamone (eds) Modern Methods of
Speech Processing Kluer Academic, 1995
54
Reconocimiento de Voz
  • Reconocimiento de Locutor Prestaciones (La
    Granja)
  • SHEEP, GOATS, LAMBS and WOLVES
  • A Statistical Analysis of Speaker Performance
  • in the NIST 1998 Speaker Recognition Evaluation
  • George Doddington 1,2,3,5, Walter Liggett1, Alvin
    Martin1, Mark Przybocki1, Douglas Reynolds 3,4,
  • 1 National Institute of Standards and Technology,
    2 The Johns Hopkins University
  • 3 U.S. Department of Defense, 4 MIT Lincoln
    Laboratory, 5 SRI International

55
Tecnología de Reconocimiento de Locutor
Independencia de Texto Observaciones
independientes
56
Tecnología de Reconocimiento de Locutor
  • Reconocimiento de Locutor mediante CV
  • El cuantificador vectorial representa la
    distribución estadística de los datos
  • Otras técnicas de entrenamiento
  • Entrenamiento Discriminativo el objetivo no es
    el minimizar el error de cuantificación sino el
    Error de CLASIFICACIÓN
  • (técnicas de gradiente -gt Redes Neuronales)

57
Tecnología de Reconocimiento de Locutor
  • Por la técnica de clasificación...
  • Clasificadores paramétricos (I)
  • Son los más utilizados en Reconocimiento

58
Tecnología de Reconocimiento de Locutor
  • Por la técnica de clasificación...
  • Clasificadores paramétricos (II)
  • Utilizan una representación paramétrica
    explícita de la probabilidad acústica
  • Los parámetros de se estiman a
    partir de los datos de entrenamiento Xx1,x2,
    ... xN
  • Proporciona un formalismo matemático consistente
    para técnicas de adaptación a diferentes
    condiciones y entornos.

59
Tecnología de Reconocimiento de Locutor
60
Tecnología de Reconocimiento de Locutor
  • Clasificadores paramétricos GMM (Gaussian
    Mixture Models)
  • Representación paramétrica explícita de la
    probabilidad acústica como suma de fdp
    gaussianas

61
Tecnología de Reconocimiento de Locutor
  • Clasificadores paramétricos GMM (Gaussian
    Mixture Models)
  • Los parámetros de
    se estiman a
    partir de los datos de entrenamiento Xx1,x2,
    ... xN
  • La combinación de gaussianas se aproxima a la
    distribución de los datos.

62
Tecnología de Reconocimiento de Locutor
63
Tecnología de Reconocimiento de Locutor
64
Tecnología de Reconocimiento de Locutor
  • Identificación con GMMs

Maximum selection
Feature extraction
Speech wave

Identification result (Speaker ID)
65
Tecnología de Reconocimiento de Locutor
  • Verificación con GMMs Normalización
  • Likelihood ratio
  • log L(O) log p(Ol l c) - log p(O l ? l c)
  • l c identidad supuesta
  • A posteriori probability
  • log L(O) log p(O l l c) - log ? p(O l)
  • Ref locutor de referencia o cohorte de
    locutores
  • Modelo Universal
  • log L(O) log p(O l l c) - log ? p(O l
    UBM)
  • UBM Universal Background Model

S?Ref
66
Tecnología de Reconocimiento de Locutor
67
Tecnología de Reconocimiento de Locutor
  • Clasificadores paramétricos GMM (Gaussian
    Mixture Models)
  • Los parámetros de
    se estiman a
    partir de los datos de entrenamiento Xx1,x2,
    ... xN
  • IMPORTANTE!! Cantidad de datos de
    entrenamiento ? Número de Parámetros a estimar
  • Técnicas de Entrenamiento
  • ML (Maximum Likelihood)
  • MAP (Maximun a posteriori)
  • Similares resultados si no hay información a
    priori, pero MAP válida para adaptación

68
Tecnología de Reconocimiento de Locutor
  • Entrenamiento ML

69
Tecnología de Reconocimiento de Locutor
70
Tecnología de Reconocimiento de Locutor
71
Tratamiento Digital de Voz
  • Reconocimiento de Locutor gt Reconocimiento de
    Habla
  • Hasta ahora El orden de la secuencia de sonidos
    NO IMPORTABA gt Independiente de Texto
  • PERO
  • En Reconocimiento de Locutor dependiente de
    texto
  • En Reconocimiento de Habla
  • La secuencia de sonidos sí importa (casa
    saca)
  • Primera Aproximación Alineamiento Temporal
    Medida de Distancia (DTW Dynamic Time Warping)

72
Tratamiento Digital de Voz
  • Reconocimiento de Locutor gt Reconocimiento de
    Habla
  • Primera Aproximación Alineamiento Temporal
    Medida de Distancia (DTW Dynamic Time Warping)

73
Tratamiento Digital de Voz
  • Reconocimiento de Locutor gt Reconocimiento de
    Habla
  • DTW Dynamic Time Warping)
  • ENTRENAMIENTO se obtiene y almacena un patrón
    de refrencia (PRef) para cada una de las palabras
    del vocabulario
  • RECONOCIMIENTO se obtiene el patrón de la
    palabra a reconocer (PReco). La palabra
    reconocida será la correspondiente al patrón de
    referencia más parecido (menor distancia) al
    patrón a reconocer.

PROBLEMA PRef TIENE DISTINTA DURACIÓN TEMPORAL
QUE PReco SOLUCIÓN DEFORMAR EL EJE DE TIEMPOS
ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE
PROGRAMACIÓN DINÁMICA)
74
Tratamiento Digital de Voz
75
Tratamiento Digital de Voz
  • Reconocimiento de Locutor gt Reconocimiento de
    Habla
  • DTW Dynamic Time Warping

Cálculo distancia acumulada g(i,j) según el
camino óptimo (Programación Dinámica)
g(i,j) d(i,j) min g(i-1,j), g(i-1,j-1),
g(i,j-1) 1 lt i lt I ( nº tramas de Preco
) 1 lt j lt J ( nºtramas de Pref )
  • La distancia entrel el PRef y el PReco d(PRef,
    PReco) será
  • d(Preco, Pref) g(I,J) / IJ

76
Tratamiento Digital de Voz
  • Reconocimiento de Locutor gt Reconocimiento de
    Habla
  • DTW Dynamic Time Warping)

77
Reconocimiento de Habla
  • Tecnología Dominante HMM (Hidden Markov Models)
  • Clasificador Paramétrico p(O/l) con l secuencia
    de sonidos, palabras, frases,...
  • Primera Aproximación Estados GMMs por Estado

78
Reconocimiento de Habla
  • HMM (Hidden Markov Models)
  • IMPORTA la secuencia de sonidos
  • DEFINICIÓN DE UN HMM l
  • Topología (izquierda derecha saltos no.
    estados)
  • Probabilidades de transión entre estados aij
  • Probabilidades de comenzar en el estado i pi
  • Probabilidades de observación de cada estado
    bi(Ot)

Caso sencillo HMM de una palabra wL l wL
a55
79
Reconocimiento de Habla
  • HMM (Hidden Markov Models)

Caso sencillo HMM de una palabra wi l wi
a55
wi siete S1/s/ S2/i/ S3/e/ S4/t/
S5/e/
No. Estados no. sonidos ? no. Medio de tramas
/ sonido? lógica propia
del modelado HMM
80
Reconocimiento de Habla
  • HMM (Hidden Markov Models)

Caso sencillo HMM de una palabra wL l wL
a55
aij duración de los sonidos en cada estado
(?) Probabilidad de comenzar en el estado i
pi Izquierda derecha p1 1 pi 0 i ! 0
81
Reconocimiento de Habla
  • HMM (Hidden Markov Models)
  • Probabilidades de observación de cada estado
    bi(Ot)
  • Continua (mezcla de gaussianas)
  • Discreta (Cuantificador vectorial
    probabilidades centroides)
  • Semicontinua (gaussianas compartidas)

82
Reconocimiento de Habla
  • HMM (Hidden Markov Models)

DECISOR
RECONOCIMIENTO
P(O/ l w1)
l w1
P(O/ l w2)
l w2
MÁXIMO
Resultado
P(O/ l w3)
l w3 ..................... ..................... .
....................
Rechazo Confianza N-Best
P(O/ l wL)
l wL
83
Eduardo Lleida Solano Dpt. de Ingeniería
Electrónica y Comunicaciones Universidad de
Zaragoza
84
Las Bases
  • Utilizando la fórmula de Bayes
  • P(W) ... Probabilidad de que la secuencia de
    palabras W sea pronunciada
  • P(OW) ... Probabilidad de que cuando una
    persona pronuncia la secuencia de palabras W
    obtengamos la secuencia de medidas acústicas O
  • P(O) ... Probabilidad de la secuencia de medidas
    acústicas O
  • Fórmula del Reconocedor

85
(No Transcript)
86
Modelado de Lenguaje Gramáticas de Dictado
  • Punto de vista probabilístico

p( W ) p( w1 w2 ...wN ) p( w1 ) p( w2 / w1 )
... p( wN / w1 w2 ...wN-1 )
  • n-gramas

p( wi / w1 w2 ...wi-1 ) p( wi / wi-n1 ...wi-1
)
  • Clases de palabras

p( wi / w1 w2 ...wi-1 ) p( wi / C(wi) ) p(
C(wi) / C(wi-n1) ...C (wi-1) )
  • Dificultad de una tarea número promedio de
    transiciones desde una palabra Perplejidad

volver
87
(No Transcript)
88
Modelos Ocultos de Markov
Reconocimiento
Dado un Modelo Oculto de Markov (HMM) l Calcular
la probabilidad de que dicho modelo genere la
secuencia de medidas acústicas OO1, O2, O3,....
OT
89
(No Transcript)
90
(No Transcript)
91
Modelos Ocultos de Markov
  • Aproximación secuencia más probable de estados
  • Algoritmo de Viterbi

Inicialización d1(i) pi bi(O1) y1(i) 0 1 ?
i ? N
92
Algoritmo de Viterbi
Estado
3
aij
dt(j)
2
1
observación
1
2
T
dt-1(i)
Recursión dt(j) max dt-1(i) aij bj(Ot) 2 ?
t ? T 1 ? i ? N yt(j) arg max dt-1(i)
aij 1 ? j ? N 1 ? i ? N
93
Algoritmo de Viterbi
Backtraking P max dT(i)
1 ? i ? N qTarg max dT(i)
1 ? i ? N qt yt1( qt1) t T-1,
T-2, ...1
94
(No Transcript)
95
Algoritmo de Reconocimiento
Secuencia de palabras
voz
Algoritmo de Reconocimiento
W w1 w2 ... wN
O
Regla de búsqueda
Modelo de Lenguaje
Modelo Acústico
96
Word String Search
  • Maximization function
Write a Comment
User Comments (0)
About PowerShow.com