Sistemas de Interacci

About This Presentation

Title:

Sistemas de Interacci

Description:

Sistemas de Interacci n Natural (4e) Luis Hern ndez G mez luis_at_gaps.ssr.upm.es – PowerPoint PPT presentation

Number of Views:74

Avg rating:3.0/5.0

Slides: 90

Provided by: LuisHer2

Category:

more less

Transcript and Presenter's Notes

Title: Sistemas de Interacci

1
Sistemas de Interacción Natural (4e)

Luis Hernández Gómez
luis_at_gaps.ssr.upm.es

2
SPEECH LANGUAGE TECHNOLOGIES

4a Speech production and analysis
4b Speech perception
4c Speech Analysis
4d Text-to-Speech
4e Speech Recognition
4f Dialog Systems
Digital Speech Processing Course
Prof. Lawrence Rabiner
http//www.caip.rutgers.edu/lrr/

3
Tratamiento Digital de Voz

Tema 6 Reconocimiento de Voz
Principios de Reconocimiento de Habla y de
Locutor
Tecnología de Reconocimiento de Locutor
Tecnología de Reconocimiento de Habla

4
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla qué se dice?
La variedad de locutores (quién lo dice?)
ruido
(Acentos, variedades dialectales, etc.)
Reconocimiento de Locutor quién lo dice?
La variedad de mensajes hablados (qué se
dice?) ruido
variación intra-locutor ?variación
inter-locutores

5
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla Características
Dependiente / Independiente de Locutor
Tamaño del Vocabulario
Tipos de Reconocimiento
Habla aislada, palabras en contexto (word
spotting), habla natural, lenguaje natural, habla
espontánea, ...
Otros
Entorno de Ruido móviles, cabinas, automóvil,
...
Sistema de comunicación GSM, manos-libres,
VoIP, ...
Prestaciones

6
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla Dependiente/Independient
e del Locutor
Dependiente de Locutor por ejemplo, sistemas de
dictado.
Independiente de Locutor aplicaciones
telefónicas.
Cada vez mayor importancia de las Técnicas de
Adaptación al Locutor
Reducción de la cantidad de voz para la
adaptación.
Adaptación supervisada / no-supervisada.
Adaptación también al entorno de ruido.
Adaptación a habla espontánea.

7
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla Tamaño del Vocabulario
El vocabulario DEBE estar pre-fijado (en muchas
ocasiones es muy importante la gestión dinámica
de vocabularios entradas variables)
El diseño del vocabulario puede olvidar
palabras palabras fuera del vocabulario (OOV
out-of-vocabulary). Cómo detectar e incorporar
esas palabras es de gran importancia.
Las prestaciones del Reconocedor son
dependientes del tamaño del vocabulario
Pequeño (lt 100), medio (lt1000), grande (gt1000
-- 1M)
PERO es muy importante (muchas veces más que el
número de palabras)
El grado de similitud acústica entre palabras
(ej. teléfonos)
La GRAMÁTICA de reconocimiento. La gramática
restringe la secuencia de palabras a reconocer.

8
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla Tipo de
Reconocimiento
(terminología imprecisa)
Habla aislada lista de palabras (directorio de
nombres)
Palabras en contexto (word spotting) con Juan
Pérez por favor
Habla natural dictado natural, u órdenes
naturales (quiero que me digas qué películas
ponen hoy)
Lenguaje natural suele asociarse a la
identificación de entidades semánticas
ltsolicitud de informacióngtquiero que me digas qué
lttipo de informacióngtpelículaslt/tipo de
informacióngt
ponenlttiempogthoylt/tiempogt
lt/solicitud de informacióngt
Habla espontánea disfluencias ..eh quiero
que me des, que me diga.. digas qué... pone...
las películas de hoy

9
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Habla Características
Más otros....
Entorno de Ruido móviles, cabinas, automóvil,
...
Sistema de comunicación GSM, manos-libres,
VoIP, ...
DIFICULTAD de medir realmente las prestaciones
de un sistema de reconocimiento (en laboratorio
?en aplicaciones)
Errores de Reconocimiento Tasa de Error
(Sustituciones / Inserciones / Elisiones
(borrados))
Rechazo Falsa Aceptación / Falso Rechazo gt
INFLUYE en la Tasa de Error.
Ruidos
Palabras OOV (fuera del vocabulario)
Medidas de Confianza seguridad del resultado
de reconocimiento (ejemplo Adaptación
no-supervisada)

10
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Locutor Características
Dependiente / Independiente de Texto
Población cerrada / abierta
Modos de Funcionamiento
VERIFICACIÓN
IDENTIFICACIÓN
(Detección Autenticación)
Otros
Entorno de Ruido..., Sistema de comunicaciones,
...
VARIABILIDAD ENTRE SESIONES
Prestaciones

11
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Rec. de Locutor Dependiente/Independiente de
Texto
Dependiente Texto
Texto fijo locución pre-establecida (clave de
acceso)
Texto variable (vocabulario fijo) se pide que
el locutor pronuncie una clave generada
aleatoriamente (text prompted) objetivos evitar
grabaciones y clave en voz alta
Independiente de Texto el locutor puede emplear
cualquier locución, sin restricciones (duración,
riqueza fonética ? Imaginación ? gt tipo de
aplicación Acústica Forense)
Importancia de la estrategia de diálogo
(factores humanos) preguntas sucesivas (nombre,
apellidos, fecha de nacimiento, ...)
Reconocimiento de Locutor ?Sistemas de
Verificación de Información Verbal
(complementarios? Fases diferentes ?)

12
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Locutor Población
cerrada/abierta
Población cerrada reconocimiento entre un
conjunto cerrado de usuarios el impostor está
en casa.
Población abierta reconocimiento abierto a
impostores externos a los locutores
reconocibles

13
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Locutor Modos de
funcionamiento
VERIFICACIÓN decidir si una persona es quien
dice ser utilizando su huella vocal (ej.
tecleo mi password y el sistema me pide que hable
para comprobar que soy yo se contrasta la voz
dubitada contra una sola huella vocal la del
password-)
IDENTIFICACIÓN decidir si la voz de una persona
pertenece a algun locutor de una población de
locutores identificados. (se compara la voz
dubitada con todas las huellas vocales de la
población indubitada)
(DETECCIÓN localización de un locutor en una
grabación de audio AUTENTICACIÓN mediante
verificación/identificación)

14
Reconocimiento de Voz

Principios de Reconocimiento de Habla y de
Locutor
Reconocimiento de Locutor Prestaciones
Otros
Entorno de Ruido... Sistema de comunicación...
VARIABILIDAD ENTRE SESIONES
Errores de Reconocimiento tasas de
Falsa Aceptación FA un impostor vulnera el
sistema
Falso Rechazo FR un usuario no es reconocido
Aciertos de Reconocimiento
Rechazo correcta un impostor es rechazado
Aceptación correcta un usuario es reconocido
El coste de cada tipo de error depende de la
aplicación (por ejemplo mayor, menor seguridad)
TAMBIÉN en aplicaciones reales FTE
Fail-to-enroll imposibilidad de entrenarse en el
sistema

15
Four conditional probabilitiesin speaker
verification
0012-09
Input utterance Decision condition condition s n (customer) (impostor)
S (accept) N (reject) P(S s) P(S n) P(N s) P(N n)
16
Relationship between error rate and decision
criterion (threshold) in speaker verification
0012-10
Equal Error Rate EER
17
Receiver operating characteristic (ROC) curves
performance examples of three speaker
verification systems A, B, and D
0012-11
18
Reconocimiento de Voz

Reconocimiento de Locutor Prestaciones
(http//www.nist.gov/speech)
Curvas ROC Curvas DEC

19
Reconocimiento de Voz

Reconocimiento de Locutor Prestaciones
(http//www.nist.gov/speech)

We have found it useful in speech applications to
use a variant of this which we call the DET
(Detection Error Tradeoff) Curve, described
below. In the DET curve we plot error rates on
both axes, giving uniform treatment to both types
of error, and use a scale for both axes which
spreads out the plot and better distinguishes
different well performing systems and usually
produces plots that are close to linear.
20
Recognition error rates as a function of
population size in speaker identification and
verification
0103-23
21
Reconocimiento de Voz

Reconocimiento de Locutor Prestaciones (La
Granja)
SHEEP, GOATS, LAMBS and WOLVES
A Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin
Martin1, Mark Przybocki1, Douglas Reynolds 3,4,
1 National Institute of Standards and Technology,
2 The Johns Hopkins University
3 U.S. Department of Defense, 4 MIT Lincoln
Laboratory, 5 SRI International

22
Reconocimiento de Voz

Reconocimiento de Locutor Prestaciones (La
Granja)

Sheep (ovejas) Sheep comprise our default
speaker type. In our model, sheep dominate the
population and systems perform nominally well for
them.
Goats (cabras) Goats, in our model, are those
speakers who are particularly difficult to
recognize. Goats tend to adversely affect the
performance of systems by accounting for a
disproportionate share of the missed detections.
The goat population can be an especially
important problem for entry control systems,
where it is important that all users be reliably
accepted.

23
Reconocimiento de Voz

Lambs (corderos) Lambs, in our model, are
those speakers who are particularly easy to
imitate. That is, a randomly chosen speaker is
exceptionally likely to be accepted as a lamb.
Lambs tend to adversely affect the performance of
systems by accounting for a disproportionate
share of the false alarms. This represents a
potential system weakness, if lambs can be
identified, either through trial and error or
through correlation with other directly
observable characteristics.
Wolves (lobos) Wolves, in our model, are those
speakers who are particularly successful at
imitating other speakers. That is, their speech
is exceptionally likely to be accepted as that of
another speaker. Wolves tend to adversely affect
the performance of systems by accounting for a
disproportionate share of the false alarms. This
represents a potential system weakness, if wolves
can be identified and recruited to defeat systems.

24
Tratamiento Digital de Voz

Tecnología de Reconocimiento de Locutor
Estructura de un Sistema de Reconocimiento de
Locutor

Speech Recognition Technology in
theUbiquitous/Wearable Computing Environment
Sadaoki Furui http//www.furui.cs.titech.ac.jp/
25
Tratamiento Digital de Voz

Tecnología de Reconocimiento de Locutor
Otros aspectos importantes

Modelos/Patrones de referencia para cada Locutor
Cancelador De Ecos
Extracción De Características
Comparación (Distancia)
Detector de Actividad
Señal de Voz
Compensación De Ruido
Resultado Reconocimiento
26
Tecnología de Reconocimiento de Locutor

Identificación

27
Tecnología de Reconocimiento de Locutor

Verificación

28
Tecnología de Reconocimiento de Locutor

Decisión

29
Tecnología de Reconocimiento de Locutor

Objetivo obtener un modelo del locutor
Para discriminación, no para codificación ni
síntesis
Marco de Trabajo Reconocimiento de Patrones
El clasificador óptimo es el clasificador de
Bayes

30
Tecnología de Reconocimiento de Locutor

Todo lo necesario es conocer la función de
probabilidad

31
Tecnología de Reconocimiento de Locutor

Todo lo necesario es conocer la función de
probabilidad

Max
Rechazo
. . .
O
. . .
32
Tecnología de Reconocimiento de Locutor

PERO la función de probabilidad nunca se
conoce forma paramétrica desconocida y cantidad
de datos de estima (entrenamiento) limitados

NO UN CLASIFICADOR ÚNICO Funciones
de Discriminación
33
Tecnología de Reconocimiento de Locutor

De una forma simplificada podemos considerar
Por la técnica de clasificación
Clasificadores no-paramétricos
Clasificadores paramétricos
(Discriminativos)
Atendiendo al tipo de información empleada
Clasificadores a partir de información a largo
plazo
Clasificadores a partir de información a corto
plazo

34
0012-13
35
Tecnología de Reconocimiento de Locutor

Por la técnica de clasificación...
Clasificadores no-paramétricos
No hacen ninguna hipótesis sobre el modelo de
distribución de la voz del locutor
Se basan completamente en los datos de
entrenamiento
Un ejemplo típico serían los sistemas de
Reconocimiento Independientes del Locutor basados
en Cuantificación Vectorial

36
Vector quantization (VQ)-based text-independent
speaker recognition
0103-19
37
Tecnología de Reconocimiento de Locutor

Cuantificador Vectorial

Representa el conjunto de vectores de
ENTRENAMIENTO Xx1,x2, ... xN por un número
pequeño de representantes (centroides) Yy1, y2,
... yM (MltN)
Fase 1. Determinación de los representantes
Medida de distancia d(xi, yj)
Entrenamiento Codebook Y
Fase 2. Asignación del centroide más próximo
Cuantificación de una observación o

38
Tecnología de Reconocimiento de Locutor

Entrenamiento CV algoritmo LBG

39
Cuantificación

Asunción Moreno
Universidad Politécnica de Cataluña

40
Entrenamiento
y
x
41
Entrenamiento
y
x
42
Entrenamiento
y
x
43
Entrenamiento
y
x
44
Entrenamiento
y
x
45
Entrenamiento
y
x
46
Entrenamiento
y
x
47
Entrenamiento
y
x
48
Entrenamiento
y
x
49
Entrenamiento
y
x
50
Entrenamiento
y
x
51
Entrenamiento
y
x
52
Cuantificación
y
x
53
VQ Performance on Unseen Data
Ramachandran Mamone (eds) Modern Methods of
Speech Processing Kluer Academic, 1995
54
Reconocimiento de Voz

Reconocimiento de Locutor Prestaciones (La
Granja)
SHEEP, GOATS, LAMBS and WOLVES
A Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin
Martin1, Mark Przybocki1, Douglas Reynolds 3,4,
1 National Institute of Standards and Technology,
2 The Johns Hopkins University
3 U.S. Department of Defense, 4 MIT Lincoln
Laboratory, 5 SRI International

55
Tecnología de Reconocimiento de Locutor
Independencia de Texto Observaciones
independientes
56
Tecnología de Reconocimiento de Locutor

Reconocimiento de Locutor mediante CV
El cuantificador vectorial representa la
distribución estadística de los datos
Otras técnicas de entrenamiento
Entrenamiento Discriminativo el objetivo no es
el minimizar el error de cuantificación sino el
Error de CLASIFICACIÓN
(técnicas de gradiente -gt Redes Neuronales)

57
Tecnología de Reconocimiento de Locutor

Por la técnica de clasificación...
Clasificadores paramétricos (I)
Son los más utilizados en Reconocimiento

58
Tecnología de Reconocimiento de Locutor

Por la técnica de clasificación...
Clasificadores paramétricos (II)
Utilizan una representación paramétrica
explícita de la probabilidad acústica
Los parámetros de se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN
Proporciona un formalismo matemático consistente
para técnicas de adaptación a diferentes
condiciones y entornos.

59
Tecnología de Reconocimiento de Locutor
60
Tecnología de Reconocimiento de Locutor

Clasificadores paramétricos GMM (Gaussian
Mixture Models)
Representación paramétrica explícita de la
probabilidad acústica como suma de fdp
gaussianas

61
Tecnología de Reconocimiento de Locutor

Clasificadores paramétricos GMM (Gaussian
Mixture Models)
Los parámetros de
se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN
La combinación de gaussianas se aproxima a la
distribución de los datos.

62
Tecnología de Reconocimiento de Locutor
63
Tecnología de Reconocimiento de Locutor
64
Tecnología de Reconocimiento de Locutor

Identificación con GMMs

Maximum selection
Feature extraction
Speech wave

Identification result (Speaker ID)
65
Tecnología de Reconocimiento de Locutor

Verificación con GMMs Normalización

Likelihood ratio
log L(O) log p(Ol l c) - log p(O l ? l c)
l c identidad supuesta
A posteriori probability
log L(O) log p(O l l c) - log ? p(O l)
Ref locutor de referencia o cohorte de
locutores
Modelo Universal
log L(O) log p(O l l c) - log ? p(O l
UBM)
UBM Universal Background Model

S?Ref
66
Tecnología de Reconocimiento de Locutor
67
Tecnología de Reconocimiento de Locutor

Clasificadores paramétricos GMM (Gaussian
Mixture Models)
Los parámetros de
se estiman a
partir de los datos de entrenamiento Xx1,x2,
... xN
IMPORTANTE!! Cantidad de datos de
entrenamiento ? Número de Parámetros a estimar
Técnicas de Entrenamiento
ML (Maximum Likelihood)
MAP (Maximun a posteriori)
Similares resultados si no hay información a
priori, pero MAP válida para adaptación

68
Tecnología de Reconocimiento de Locutor

Entrenamiento ML

69
Tecnología de Reconocimiento de Locutor
70
Tecnología de Reconocimiento de Locutor
71
Tratamiento Digital de Voz

Reconocimiento de Locutor gt Reconocimiento de
Habla
Hasta ahora El orden de la secuencia de sonidos
NO IMPORTABA gt Independiente de Texto
PERO
En Reconocimiento de Locutor dependiente de
texto
En Reconocimiento de Habla
La secuencia de sonidos sí importa (casa
saca)
Primera Aproximación Alineamiento Temporal
Medida de Distancia (DTW Dynamic Time Warping)

72
Tratamiento Digital de Voz

Reconocimiento de Locutor gt Reconocimiento de
Habla
Primera Aproximación Alineamiento Temporal
Medida de Distancia (DTW Dynamic Time Warping)

73
Tratamiento Digital de Voz

Reconocimiento de Locutor gt Reconocimiento de
Habla
DTW Dynamic Time Warping)
ENTRENAMIENTO se obtiene y almacena un patrón
de refrencia (PRef) para cada una de las palabras
del vocabulario
RECONOCIMIENTO se obtiene el patrón de la
palabra a reconocer (PReco). La palabra
reconocida será la correspondiente al patrón de
referencia más parecido (menor distancia) al
patrón a reconocer.

PROBLEMA PRef TIENE DISTINTA DURACIÓN TEMPORAL
QUE PReco SOLUCIÓN DEFORMAR EL EJE DE TIEMPOS
ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE
PROGRAMACIÓN DINÁMICA)
74
Tratamiento Digital de Voz
75
Tratamiento Digital de Voz

Reconocimiento de Locutor gt Reconocimiento de
Habla
DTW Dynamic Time Warping

Cálculo distancia acumulada g(i,j) según el
camino óptimo (Programación Dinámica)
g(i,j) d(i,j) min g(i-1,j), g(i-1,j-1),
g(i,j-1) 1 lt i lt I ( nº tramas de Preco
) 1 lt j lt J ( nºtramas de Pref )

La distancia entrel el PRef y el PReco d(PRef,
PReco) será
d(Preco, Pref) g(I,J) / IJ

76
Tratamiento Digital de Voz

Reconocimiento de Locutor gt Reconocimiento de
Habla
DTW Dynamic Time Warping)

77
Reconocimiento de Habla

Tecnología Dominante HMM (Hidden Markov Models)
Clasificador Paramétrico p(O/l) con l secuencia
de sonidos, palabras, frases,...
Primera Aproximación Estados GMMs por Estado

78
Reconocimiento de Habla

HMM (Hidden Markov Models)
IMPORTA la secuencia de sonidos
DEFINICIÓN DE UN HMM l
Topología (izquierda derecha saltos no.
estados)
Probabilidades de transión entre estados aij
Probabilidades de comenzar en el estado i pi
Probabilidades de observación de cada estado
bi(Ot)

Caso sencillo HMM de una palabra wL l wL
a55
79
Reconocimiento de Habla

HMM (Hidden Markov Models)

Caso sencillo HMM de una palabra wi l wi
a55
wi siete S1/s/ S2/i/ S3/e/ S4/t/
S5/e/
No. Estados no. sonidos ? no. Medio de tramas
/ sonido? lógica propia
del modelado HMM
80
Reconocimiento de Habla

HMM (Hidden Markov Models)

Caso sencillo HMM de una palabra wL l wL
a55
aij duración de los sonidos en cada estado
(?) Probabilidad de comenzar en el estado i
pi Izquierda derecha p1 1 pi 0 i ! 0
81
Reconocimiento de Habla

HMM (Hidden Markov Models)

Probabilidades de observación de cada estado
bi(Ot)
Continua (mezcla de gaussianas)
Discreta (Cuantificador vectorial
probabilidades centroides)
Semicontinua (gaussianas compartidas)

82
Reconocimiento de Habla

HMM (Hidden Markov Models)

DECISOR
RECONOCIMIENTO
P(O/ l w1)
l w1
P(O/ l w2)
l w2
MÁXIMO
Resultado
P(O/ l w3)
l w3 ..................... ..................... .
....................
Rechazo Confianza N-Best
P(O/ l wL)
l wL
83
Eduardo Lleida Solano Dpt. de Ingeniería
Electrónica y Comunicaciones Universidad de
Zaragoza
84
Las Bases

Utilizando la fórmula de Bayes

P(W) ... Probabilidad de que la secuencia de
palabras W sea pronunciada
P(OW) ... Probabilidad de que cuando una
persona pronuncia la secuencia de palabras W
obtengamos la secuencia de medidas acústicas O
P(O) ... Probabilidad de la secuencia de medidas
acústicas O

Fórmula del Reconocedor

85
(No Transcript)
86
Modelado de Lenguaje Gramáticas de Dictado

Punto de vista probabilístico

p( W ) p( w1 w2 ...wN ) p( w1 ) p( w2 / w1 )
... p( wN / w1 w2 ...wN-1 )

n-gramas

p( wi / w1 w2 ...wi-1 ) p( wi / wi-n1 ...wi-1
)

Clases de palabras

p( wi / w1 w2 ...wi-1 ) p( wi / C(wi) ) p(
C(wi) / C(wi-n1) ...C (wi-1) )

Dificultad de una tarea número promedio de
transiciones desde una palabra Perplejidad

volver
87
(No Transcript)
88
Modelos Ocultos de Markov
Reconocimiento
Dado un Modelo Oculto de Markov (HMM) l Calcular
la probabilidad de que dicho modelo genere la
secuencia de medidas acústicas OO1, O2, O3,....
OT
89
(No Transcript)
90
(No Transcript)
91
Modelos Ocultos de Markov

Aproximación secuencia más probable de estados

Algoritmo de Viterbi

Inicialización d1(i) pi bi(O1) y1(i) 0 1 ?
i ? N
92
Algoritmo de Viterbi
Estado
3
aij
dt(j)
2
1
observación
1
2
T
dt-1(i)
Recursión dt(j) max dt-1(i) aij bj(Ot) 2 ?
t ? T 1 ? i ? N yt(j) arg max dt-1(i)
aij 1 ? j ? N 1 ? i ? N
93
Algoritmo de Viterbi
Backtraking P max dT(i)
1 ? i ? N qTarg max dT(i)
1 ? i ? N qt yt1( qt1) t T-1,
T-2, ...1
94
(No Transcript)
95
Algoritmo de Reconocimiento
Secuencia de palabras
voz
Algoritmo de Reconocimiento
W w1 w2 ... wN
O
Regla de búsqueda
Modelo de Lenguaje
Modelo Acústico
96
Word String Search

Maximization function

Write a Comment

User Comments (0)

About PowerShow.com

Sistemas de Interacci - PowerPoint PPT Presentation

Sistemas de Interacci

Sistemas de Interacci n Natural (4e) Luis Hern ndez G mez luis_at_gaps.ssr.upm.es – PowerPoint PPT presentation