Title: Sistemas de Interacci
1Sistemas de Interacción Natural (4e)
- Luis Hernández Gómez
- luis_at_gaps.ssr.upm.es
2SPEECH LANGUAGE TECHNOLOGIES
- 4a Speech production and analysis
- 4b Speech perception
- 4c Speech Analysis
- 4d Text-to-Speech
- 4e Speech Recognition
- 4f Dialog Systems
- Digital Speech Processing Course
- Prof. Lawrence Rabiner
- http//www.caip.rutgers.edu/lrr/
3Tratamiento Digital de Voz
- Tema 6 Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Tecnología de Reconocimiento de Locutor
- Tecnología de Reconocimiento de Habla
4Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla qué se dice?
- La variedad de locutores (quién lo dice?)
ruido - (Acentos, variedades dialectales, etc.)
- Reconocimiento de Locutor quién lo dice?
- La variedad de mensajes hablados (qué se
dice?) ruido - variación intra-locutor ?variación
inter-locutores
5Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla Características
- Dependiente / Independiente de Locutor
- Tamaño del Vocabulario
- Tipos de Reconocimiento
- Habla aislada, palabras en contexto (word
spotting), habla natural, lenguaje natural, habla
espontánea, ... - Otros
- Entorno de Ruido móviles, cabinas, automóvil,
... - Sistema de comunicación GSM, manos-libres,
VoIP, ... - Prestaciones
6Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla Dependiente/Independient
e del Locutor - Dependiente de Locutor por ejemplo, sistemas de
dictado. - Independiente de Locutor aplicaciones
telefónicas. - Cada vez mayor importancia de las Técnicas de
Adaptación al Locutor - Reducción de la cantidad de voz para la
adaptación. - Adaptación supervisada / no-supervisada.
- Adaptación también al entorno de ruido.
- Adaptación a habla espontánea.
7Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla Tamaño del Vocabulario
- El vocabulario DEBE estar pre-fijado (en muchas
ocasiones es muy importante la gestión dinámica
de vocabularios entradas variables) - El diseño del vocabulario puede olvidar
palabras palabras fuera del vocabulario (OOV
out-of-vocabulary). Cómo detectar e incorporar
esas palabras es de gran importancia. - Las prestaciones del Reconocedor son
dependientes del tamaño del vocabulario - Pequeño (lt 100), medio (lt1000), grande (gt1000
-- 1M) - PERO es muy importante (muchas veces más que el
número de palabras) - El grado de similitud acústica entre palabras
(ej. teléfonos) - La GRAMÁTICA de reconocimiento. La gramática
restringe la secuencia de palabras a reconocer.
8Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla Tipo de
Reconocimiento - (terminología imprecisa)
- Habla aislada lista de palabras (directorio de
nombres) - Palabras en contexto (word spotting) con Juan
Pérez por favor - Habla natural dictado natural, u órdenes
naturales (quiero que me digas qué películas
ponen hoy) - Lenguaje natural suele asociarse a la
identificación de entidades semánticas - ltsolicitud de informacióngtquiero que me digas qué
- lttipo de informacióngtpelículaslt/tipo de
informacióngt - ponenlttiempogthoylt/tiempogt
- lt/solicitud de informacióngt
- Habla espontánea disfluencias ..eh quiero
que me des, que me diga.. digas qué... pone...
las películas de hoy
9Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Habla Características
- Más otros....
- Entorno de Ruido móviles, cabinas, automóvil,
... - Sistema de comunicación GSM, manos-libres,
VoIP, ... - DIFICULTAD de medir realmente las prestaciones
de un sistema de reconocimiento (en laboratorio
?en aplicaciones) - Errores de Reconocimiento Tasa de Error
(Sustituciones / Inserciones / Elisiones
(borrados)) - Rechazo Falsa Aceptación / Falso Rechazo gt
INFLUYE en la Tasa de Error. - Ruidos
- Palabras OOV (fuera del vocabulario)
- Medidas de Confianza seguridad del resultado
de reconocimiento (ejemplo Adaptación
no-supervisada)
10Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Locutor Características
- Dependiente / Independiente de Texto
- Población cerrada / abierta
- Modos de Funcionamiento
- VERIFICACIÓN
- IDENTIFICACIÓN
- (Detección Autenticación)
- Otros
- Entorno de Ruido..., Sistema de comunicaciones,
... - VARIABILIDAD ENTRE SESIONES
- Prestaciones
11Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Rec. de Locutor Dependiente/Independiente de
Texto - Dependiente Texto
- Texto fijo locución pre-establecida (clave de
acceso) - Texto variable (vocabulario fijo) se pide que
el locutor pronuncie una clave generada
aleatoriamente (text prompted) objetivos evitar
grabaciones y clave en voz alta - Independiente de Texto el locutor puede emplear
cualquier locución, sin restricciones (duración,
riqueza fonética ? Imaginación ? gt tipo de
aplicación Acústica Forense) - Importancia de la estrategia de diálogo
(factores humanos) preguntas sucesivas (nombre,
apellidos, fecha de nacimiento, ...) - Reconocimiento de Locutor ?Sistemas de
Verificación de Información Verbal
(complementarios? Fases diferentes ?)
12Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Locutor Población
cerrada/abierta - Población cerrada reconocimiento entre un
conjunto cerrado de usuarios el impostor está
en casa. - Población abierta reconocimiento abierto a
impostores externos a los locutores
reconocibles
13Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Locutor Modos de
funcionamiento - VERIFICACIÓN decidir si una persona es quien
dice ser utilizando su huella vocal (ej.
tecleo mi password y el sistema me pide que hable
para comprobar que soy yo se contrasta la voz
dubitada contra una sola huella vocal la del
password-) - IDENTIFICACIÓN decidir si la voz de una persona
pertenece a algun locutor de una población de
locutores identificados. (se compara la voz
dubitada con todas las huellas vocales de la
población indubitada) - (DETECCIÓN localización de un locutor en una
grabación de audio AUTENTICACIÓN mediante
verificación/identificación)
14Reconocimiento de Voz
- Principios de Reconocimiento de Habla y de
Locutor - Reconocimiento de Locutor Prestaciones
- Otros
- Entorno de Ruido... Sistema de comunicación...
- VARIABILIDAD ENTRE SESIONES
- Errores de Reconocimiento tasas de
- Falsa Aceptación FA un impostor vulnera el
sistema - Falso Rechazo FR un usuario no es reconocido
- Aciertos de Reconocimiento
- Rechazo correcta un impostor es rechazado
- Aceptación correcta un usuario es reconocido
- El coste de cada tipo de error depende de la
aplicación (por ejemplo mayor, menor seguridad) - TAMBIÉN en aplicaciones reales FTE
Fail-to-enroll imposibilidad de entrenarse en el
sistema
15Four conditional probabilitiesin speaker
verification
0012-09
Input utterance Decision condition condition s n (customer) (impostor)
S (accept) N (reject) P(S s) P(S n) P(N s) P(N n)
16Relationship between error rate and decision
criterion (threshold) in speaker verification
0012-10
Equal Error Rate EER
17Receiver operating characteristic (ROC) curves
performance examples of three speaker
verification systems A, B, and D
0012-11
18Reconocimiento de Voz
- Reconocimiento de Locutor Prestaciones
(http//www.nist.gov/speech) - Curvas ROC Curvas DEC
19Reconocimiento de Voz
- Reconocimiento de Locutor Prestaciones
(http//www.nist.gov/speech)
We have found it useful in speech applications to
use a variant of this which we call the DET
(Detection Error Tradeoff) Curve, described
below. In the DET curve we plot error rates on
both axes, giving uniform treatment to both types
of error, and use a scale for both axes which
spreads out the plot and better distinguishes
different well performing systems and usually
produces plots that are close to linear.
20Recognition error rates as a function of
population size in speaker identification and
verification
0103-23
21Reconocimiento de Voz
- Reconocimiento de Locutor Prestaciones (La
Granja) - SHEEP, GOATS, LAMBS and WOLVES
- A Statistical Analysis of Speaker Performance
- in the NIST 1998 Speaker Recognition Evaluation
- George Doddington 1,2,3,5, Walter Liggett1, Alvin
Martin1, Mark Przybocki1, Douglas Reynolds 3,4, - 1 National Institute of Standards and Technology,
2 The Johns Hopkins University - 3 U.S. Department of Defense, 4 MIT Lincoln
Laboratory, 5 SRI International
22Reconocimiento de Voz
- Reconocimiento de Locutor Prestaciones (La
Granja)
-
- Sheep (ovejas) Sheep comprise our default
speaker type. In our model, sheep dominate the
population and systems perform nominally well for
them. - Goats (cabras) Goats, in our model, are those
speakers who are particularly difficult to
recognize. Goats tend to adversely affect the
performance of systems by accounting for a
disproportionate share of the missed detections.
The goat population can be an especially
important problem for entry control systems,
where it is important that all users be reliably
accepted.
23Reconocimiento de Voz
- Lambs (corderos) Lambs, in our model, are
those speakers who are particularly easy to
imitate. That is, a randomly chosen speaker is
exceptionally likely to be accepted as a lamb.
Lambs tend to adversely affect the performance of
systems by accounting for a disproportionate
share of the false alarms. This represents a
potential system weakness, if lambs can be
identified, either through trial and error or
through correlation with other directly
observable characteristics. - Wolves (lobos) Wolves, in our model, are those
speakers who are particularly successful at
imitating other speakers. That is, their speech
is exceptionally likely to be accepted as that of
another speaker. Wolves tend to adversely affect
the performance of systems by accounting for a
disproportionate share of the false alarms. This
represents a potential system weakness, if wolves
can be identified and recruited to defeat systems.
24Tratamiento Digital de Voz
- Tecnología de Reconocimiento de Locutor
- Estructura de un Sistema de Reconocimiento de
Locutor
Speech Recognition Technology in
theUbiquitous/Wearable Computing Environment
Sadaoki Furui http//www.furui.cs.titech.ac.jp/
25Tratamiento Digital de Voz
- Tecnología de Reconocimiento de Locutor
- Otros aspectos importantes
Modelos/Patrones de referencia para cada Locutor
Cancelador De Ecos
Extracción De Características
Comparación (Distancia)
Detector de Actividad
Señal de Voz
Compensación De Ruido
Resultado Reconocimiento
26Tecnología de Reconocimiento de Locutor
27Tecnología de Reconocimiento de Locutor
28Tecnología de Reconocimiento de Locutor
29Tecnología de Reconocimiento de Locutor
- Objetivo obtener un modelo del locutor
- Para discriminación, no para codificación ni
síntesis - Marco de Trabajo Reconocimiento de Patrones
- El clasificador óptimo es el clasificador de
Bayes
30Tecnología de Reconocimiento de Locutor
- Todo lo necesario es conocer la función de
probabilidad
31Tecnología de Reconocimiento de Locutor
- Todo lo necesario es conocer la función de
probabilidad
Max
Rechazo
. . .
O
. . .
32Tecnología de Reconocimiento de Locutor
- PERO la función de probabilidad nunca se
conoce forma paramétrica desconocida y cantidad
de datos de estima (entrenamiento) limitados
NO UN CLASIFICADOR ÚNICO Funciones
de Discriminación
33Tecnología de Reconocimiento de Locutor
- De una forma simplificada podemos considerar
- Por la técnica de clasificación
- Clasificadores no-paramétricos
- Clasificadores paramétricos
- (Discriminativos)
- Atendiendo al tipo de información empleada
- Clasificadores a partir de información a largo
plazo - Clasificadores a partir de información a corto
plazo
340012-13
35Tecnología de Reconocimiento de Locutor
- Por la técnica de clasificación...
- Clasificadores no-paramétricos
- No hacen ninguna hipótesis sobre el modelo de
distribución de la voz del locutor - Se basan completamente en los datos de
entrenamiento - Un ejemplo típico serían los sistemas de
Reconocimiento Independientes del Locutor basados
en Cuantificación Vectorial
36Vector quantization (VQ)-based text-independent
speaker recognition
0103-19
37Tecnología de Reconocimiento de Locutor
- Representa el conjunto de vectores de
ENTRENAMIENTO Xx1,x2, ... xN por un número
pequeño de representantes (centroides) Yy1, y2,
... yM (MltN) - Fase 1. Determinación de los representantes
- Medida de distancia d(xi, yj)
- Entrenamiento Codebook Y
- Fase 2. Asignación del centroide más próximo
- Cuantificación de una observación o
38Tecnología de Reconocimiento de Locutor
- Entrenamiento CV algoritmo LBG
39Cuantificación
- Asunción Moreno
- Universidad Politécnica de Cataluña
40Entrenamiento
y
x
41Entrenamiento
y
x
42Entrenamiento
y
x
43Entrenamiento
y
x
44Entrenamiento
y
x
45Entrenamiento
y
x
46Entrenamiento
y
x
47Entrenamiento
y
x
48Entrenamiento
y
x
49Entrenamiento
y
x
50Entrenamiento
y
x
51Entrenamiento
y
x
52Cuantificación
y
x
53VQ Performance on Unseen Data
Ramachandran Mamone (eds) Modern Methods of
Speech Processing Kluer Academic, 1995
54Reconocimiento de Voz
- Reconocimiento de Locutor Prestaciones (La
Granja) - SHEEP, GOATS, LAMBS and WOLVES
- A Statistical Analysis of Speaker Performance
- in the NIST 1998 Speaker Recognition Evaluation
- George Doddington 1,2,3,5, Walter Liggett1, Alvin
Martin1, Mark Przybocki1, Douglas Reynolds 3,4, - 1 National Institute of Standards and Technology,
2 The Johns Hopkins University - 3 U.S. Department of Defense, 4 MIT Lincoln
Laboratory, 5 SRI International
55Tecnología de Reconocimiento de Locutor
Independencia de Texto Observaciones
independientes
56Tecnología de Reconocimiento de Locutor
- Reconocimiento de Locutor mediante CV
- El cuantificador vectorial representa la
distribución estadística de los datos - Otras técnicas de entrenamiento
- Entrenamiento Discriminativo el objetivo no es
el minimizar el error de cuantificación sino el
Error de CLASIFICACIÓN - (técnicas de gradiente -gt Redes Neuronales)
57Tecnología de Reconocimiento de Locutor
- Por la técnica de clasificación...
- Clasificadores paramétricos (I)
- Son los más utilizados en Reconocimiento
58Tecnología de Reconocimiento de Locutor
- Por la técnica de clasificación...
- Clasificadores paramétricos (II)
- Utilizan una representación paramétrica
explícita de la probabilidad acústica - Los parámetros de se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN - Proporciona un formalismo matemático consistente
para técnicas de adaptación a diferentes
condiciones y entornos.
59Tecnología de Reconocimiento de Locutor
60Tecnología de Reconocimiento de Locutor
- Clasificadores paramétricos GMM (Gaussian
Mixture Models) - Representación paramétrica explícita de la
probabilidad acústica como suma de fdp
gaussianas
61Tecnología de Reconocimiento de Locutor
- Clasificadores paramétricos GMM (Gaussian
Mixture Models) - Los parámetros de
se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN - La combinación de gaussianas se aproxima a la
distribución de los datos.
62Tecnología de Reconocimiento de Locutor
63Tecnología de Reconocimiento de Locutor
64Tecnología de Reconocimiento de Locutor
Maximum selection
Feature extraction
Speech wave
Identification result (Speaker ID)
65Tecnología de Reconocimiento de Locutor
- Verificación con GMMs Normalización
- Likelihood ratio
- log L(O) log p(Ol l c) - log p(O l ? l c)
- l c identidad supuesta
- A posteriori probability
- log L(O) log p(O l l c) - log ? p(O l)
- Ref locutor de referencia o cohorte de
locutores - Modelo Universal
- log L(O) log p(O l l c) - log ? p(O l
UBM) - UBM Universal Background Model
S?Ref
66Tecnología de Reconocimiento de Locutor
67Tecnología de Reconocimiento de Locutor
- Clasificadores paramétricos GMM (Gaussian
Mixture Models) - Los parámetros de
se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN - IMPORTANTE!! Cantidad de datos de
entrenamiento ? Número de Parámetros a estimar - Técnicas de Entrenamiento
- ML (Maximum Likelihood)
- MAP (Maximun a posteriori)
- Similares resultados si no hay información a
priori, pero MAP válida para adaptación
68Tecnología de Reconocimiento de Locutor
69Tecnología de Reconocimiento de Locutor
70Tecnología de Reconocimiento de Locutor
71Tratamiento Digital de Voz
- Reconocimiento de Locutor gt Reconocimiento de
Habla - Hasta ahora El orden de la secuencia de sonidos
NO IMPORTABA gt Independiente de Texto - PERO
- En Reconocimiento de Locutor dependiente de
texto - En Reconocimiento de Habla
- La secuencia de sonidos sí importa (casa
saca) - Primera Aproximación Alineamiento Temporal
Medida de Distancia (DTW Dynamic Time Warping)
72Tratamiento Digital de Voz
- Reconocimiento de Locutor gt Reconocimiento de
Habla - Primera Aproximación Alineamiento Temporal
Medida de Distancia (DTW Dynamic Time Warping)
73Tratamiento Digital de Voz
- Reconocimiento de Locutor gt Reconocimiento de
Habla - DTW Dynamic Time Warping)
- ENTRENAMIENTO se obtiene y almacena un patrón
de refrencia (PRef) para cada una de las palabras
del vocabulario - RECONOCIMIENTO se obtiene el patrón de la
palabra a reconocer (PReco). La palabra
reconocida será la correspondiente al patrón de
referencia más parecido (menor distancia) al
patrón a reconocer.
PROBLEMA PRef TIENE DISTINTA DURACIÓN TEMPORAL
QUE PReco SOLUCIÓN DEFORMAR EL EJE DE TIEMPOS
ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE
PROGRAMACIÓN DINÁMICA)
74Tratamiento Digital de Voz
75Tratamiento Digital de Voz
- Reconocimiento de Locutor gt Reconocimiento de
Habla - DTW Dynamic Time Warping
Cálculo distancia acumulada g(i,j) según el
camino óptimo (Programación Dinámica)
g(i,j) d(i,j) min g(i-1,j), g(i-1,j-1),
g(i,j-1) 1 lt i lt I ( nº tramas de Preco
) 1 lt j lt J ( nºtramas de Pref )
- La distancia entrel el PRef y el PReco d(PRef,
PReco) será - d(Preco, Pref) g(I,J) / IJ
76Tratamiento Digital de Voz
- Reconocimiento de Locutor gt Reconocimiento de
Habla - DTW Dynamic Time Warping)
77Reconocimiento de Habla
- Tecnología Dominante HMM (Hidden Markov Models)
- Clasificador Paramétrico p(O/l) con l secuencia
de sonidos, palabras, frases,... - Primera Aproximación Estados GMMs por Estado
78Reconocimiento de Habla
- HMM (Hidden Markov Models)
- IMPORTA la secuencia de sonidos
- DEFINICIÓN DE UN HMM l
- Topología (izquierda derecha saltos no.
estados) - Probabilidades de transión entre estados aij
- Probabilidades de comenzar en el estado i pi
- Probabilidades de observación de cada estado
bi(Ot)
Caso sencillo HMM de una palabra wL l wL
a55
79Reconocimiento de Habla
- HMM (Hidden Markov Models)
Caso sencillo HMM de una palabra wi l wi
a55
wi siete S1/s/ S2/i/ S3/e/ S4/t/
S5/e/
No. Estados no. sonidos ? no. Medio de tramas
/ sonido? lógica propia
del modelado HMM
80Reconocimiento de Habla
- HMM (Hidden Markov Models)
Caso sencillo HMM de una palabra wL l wL
a55
aij duración de los sonidos en cada estado
(?) Probabilidad de comenzar en el estado i
pi Izquierda derecha p1 1 pi 0 i ! 0
81Reconocimiento de Habla
- HMM (Hidden Markov Models)
- Probabilidades de observación de cada estado
bi(Ot) - Continua (mezcla de gaussianas)
- Discreta (Cuantificador vectorial
probabilidades centroides) - Semicontinua (gaussianas compartidas)
82Reconocimiento de Habla
- HMM (Hidden Markov Models)
DECISOR
RECONOCIMIENTO
P(O/ l w1)
l w1
P(O/ l w2)
l w2
MÁXIMO
Resultado
P(O/ l w3)
l w3 ..................... ..................... .
....................
Rechazo Confianza N-Best
P(O/ l wL)
l wL
83Eduardo Lleida Solano Dpt. de Ingeniería
Electrónica y Comunicaciones Universidad de
Zaragoza
84Las Bases
- Utilizando la fórmula de Bayes
- P(W) ... Probabilidad de que la secuencia de
palabras W sea pronunciada - P(OW) ... Probabilidad de que cuando una
persona pronuncia la secuencia de palabras W
obtengamos la secuencia de medidas acústicas O - P(O) ... Probabilidad de la secuencia de medidas
acústicas O
85(No Transcript)
86Modelado de Lenguaje Gramáticas de Dictado
- Punto de vista probabilístico
p( W ) p( w1 w2 ...wN ) p( w1 ) p( w2 / w1 )
... p( wN / w1 w2 ...wN-1 )
p( wi / w1 w2 ...wi-1 ) p( wi / wi-n1 ...wi-1
)
p( wi / w1 w2 ...wi-1 ) p( wi / C(wi) ) p(
C(wi) / C(wi-n1) ...C (wi-1) )
- Dificultad de una tarea número promedio de
transiciones desde una palabra Perplejidad
volver
87(No Transcript)
88Modelos Ocultos de Markov
Reconocimiento
Dado un Modelo Oculto de Markov (HMM) l Calcular
la probabilidad de que dicho modelo genere la
secuencia de medidas acústicas OO1, O2, O3,....
OT
89(No Transcript)
90(No Transcript)
91Modelos Ocultos de Markov
- Aproximación secuencia más probable de estados
Inicialización d1(i) pi bi(O1) y1(i) 0 1 ?
i ? N
92Algoritmo de Viterbi
Estado
3
aij
dt(j)
2
1
observación
1
2
T
dt-1(i)
Recursión dt(j) max dt-1(i) aij bj(Ot) 2 ?
t ? T 1 ? i ? N yt(j) arg max dt-1(i)
aij 1 ? j ? N 1 ? i ? N
93Algoritmo de Viterbi
Backtraking P max dT(i)
1 ? i ? N qTarg max dT(i)
1 ? i ? N qt yt1( qt1) t T-1,
T-2, ...1
94(No Transcript)
95Algoritmo de Reconocimiento
Secuencia de palabras
voz
Algoritmo de Reconocimiento
W w1 w2 ... wN
O
Regla de búsqueda
Modelo de Lenguaje
Modelo Acústico
96Word String Search