Title: Grupo de Ing. Electr
1Grupo de Ing. Electrónica aplicada a Espacios
INteligentes y TRAnsporte Área Audio-Visual
SD-TEAM UAH Tecnologías de fusión sensorial
audio-visual para sistemas de diálogo hablado
multidominio Reunión Valencia 24 y 25 de
noviembre de 2011
Javier Macías Guarasa Departamento de Electrónica
Universidad de Alcalá email macias_at_depeca.uah.e
s
2Índice
- Introducción
- Revisión de tareas UAH en curso
- Descripción técnica
- Localización de locutores activos usando técnicas
de compressive sensing - Mejoras en seguimiento de posición de
articulaciones basada en vídeo - Estimación de pose y movimiento de manos en
tareas de inferencia psicológica
3IntroducciónPresupuesto, personal, objetivo
- Presupuesto
- Personal
- Sistemas robustos de detección, localización,
seguimiento y estimación de pose multimodal de
múltiples locutores en espacios inteligentes
fusión sensorial
4Tareas en cursoM24-M36 Repaso general
5Tareas en cursoMódulo 1
- M1. Tecnologías para la detección de entorno, la
autoevaluación y el aprendizaje autónomo - T1.1. Tecnologías para el tratamiento de entradas
multimodales (M1-M27) - Localización audio, vídeo, audiovídeo
- Nuevo Estimación de pose movimiento manos
- T1.3. Tecnologías para la autoevaluación e
integración en el proceso de aprendizaje
(M4-M33) - Medidas fiabilidad estimación localización
6Tareas en cursoMódulos 2 y 3
- M2. Tecnologías para la interacción y
cooperación - T2.1 Tecnologías para la obtención automática de
información de la tarea y del usuario (M1-M30) - Identificación del estado emocional de los
locutores Análisis de viabilidad del uso de
información visual para identificación del
usuario y su estado emocional (capturas vídeo
buena resolución). - Nuevo Estimación de movimiento de manos para
inferencia psicológica - Pendiente evaluación con capturas de SEV No se
abordará - M3. Arquitectura
- T3.2 Integración de la multimodalidad (M9-M30)
- Pendiente consorcio (definición metodología
integración y sincronización)
7Tareas en cursoMódulo 4
- M4. Aplicaciones y demostradores
- T4.1 Desarrollo SW de la arquitectura e
integración de componentes (M1-M33) - Pendiente implementación módulos suministro
secuencias vídeo e identificación de gestos - T4.2 Sistemas de diálogo dinámicos para el acceso
a servicios desde el hogar (M13-M36) - Planificación y equipamiento de la instalación de
captura y procesamiento de audio y vídeo
multicanal para su integración en el espacio
inteligente de demostración del grupo de la UAH - Generación de demostradores de seguimiento audio
(disponible para evaluación proyecto), vídeo
(disponible para evaluación proyecto) y fusión
(disponibles dos prototipos para evaluación
proyecto) - Pendiente Integración con demostrador control
equipos multimedia
8Descripción técnicaLocalización basada en
compressive sensing
- Planteamiento
- Problema de estimación de posición de un número
reducido de locutores en un espacio puede
caracterizarse como un problema resoluble con
técnicas de compressive sensing - Evaluaremos su rendimiento en competencia con la
mejor técnica disponible SRP-PHAT - Objetivo
- Usar técnicas alternativas de estimación de
posición basadas en compressive sensing
José Velasco, Daniel Pizarro, Javier Macías
9Descripción técnicaLocalización basada en
compressive sensing
- SRP-PHAT
- Basado en la estimación de la potencia acústica
analizada en un conjunto discreto de puntos del
espacio - Posición del hablante Posición de máximo SRP
10Descripción técnicaLocalización basada en
compressive sensing
- SRP-PHAT
- Estimación genera soluciones que se organizan en
hipérbolas generadas por cada par de micros para
cada fuente activa - Ventajas
- Procesado Sencillo
- Preciso
- Desventajas
- Difícil distinguir múltiple hablantes
- Análisis local
- No aprovecha la redundancia espacial que
caracteriza al problema
11Descripción técnicaLocalización basada en
compressive sensing
- Nuevo método
- Espacio generativo de SRP
12Descripción técnicaLocalización basada en
compressive sensing
- Nuevo método
- Espacio generativo de SRP
13Descripción técnicaLocalización basada en
compressive sensing
- Nuevo método
- Espacio generativo de SRP
- Idea subyacente
- Cada fuente activa genera tantas hipérbolas como
pares de micros - Objetivo Tratar de explicar la imagen como un
conjunto de hipérbolas - Cómo?
14Descripción técnicaLocalización basada en
compressive sensing
- Antecedentes
- El desarrollo de Fourier trata de explicar una
señal a partir de sumas de sinusoidales - Misma idea para wavelets,
- Todas ellas representaciones lineales
- YAX
15Descripción técnicaLocalización basada en
compressive sensing
16Descripción técnicaLocalización basada en
compressive sensing
- Consideraciones
- El vector posición del hablante (X) toma valor no
nulo en las posiciones donde existe un locutor - En una situación real la mayor parte del espacio
está desocupado - Esto es equivalente a exigir que el vector X sea
'Sparse', es decir, pocos elementos no nulos.
17Descripción técnicaLocalización basada en
compressive sensing
- Objetivo
- Encontrar vector X lo más sparse posible que
consiga - Equivalente a minimizar la siguiente función de
coste - Costoso computacionalmente (np-hard).
18Descripción técnicaLocalización basada en
compressive sensing
- Aproximación
- Solución similar
- Problema convexo
- Existen algoritmos eficientes
- Ampliamente utilizado en Compressive Sensing
19Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema juguete
20Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema juguete
21Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema real
- AV16.3 secuencia 01
22Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema real
- AV16.3 secuencia 01
23Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema real
- AV16.3 secuencia 01
24Descripción técnicaLocalización basada en
compressive sensing
- Resultados del problema real
- AV16.3 secuencia 01
25Descripción técnicaMejoras en seguimiento
articulaciones usando vídeo
Álvaro Marcos Marta Marrón Daniel Pizarro
- Objetivos
- Capturar movimiento de múltiples personas sin
equipamiento MOCAP - Propuesta
26Descripción técnicaMejoras en seguimiento
articulaciones usando vídeo
- Seguimiento en espacio reducido
27Descripción técnicaMejoras en seguimiento
articulaciones usando vídeo
- Seguimiento en espacio reducido
- Cuánta información hace falta
28Descripción técnicaMejoras en seguimiento
articulaciones usando vídeo
29Descripción técnicaEstimación de movimiento para
inferencia psicológica
- Work in collaboration with IDIAP
- Database
- Single camera
- Long sequences (around 15 minutes each)
- Constraints
- 1 person
- Only torso
- Static background
- Objective
- We will try to find out if it is possible to
reconstruct the whole upper body in monocular
sequences - This information could be used in psicological
inference studies (emotional state, intended
attitude)
Álvaro Marcos Marta Marrón Daniel Pizarro
30Descripción técnicaEstimación de movimiento para
inferencia psicológica
- Idea
- Extremities of the human body show more movement
along a video sequence than the rest of the body. - Face localization is possible with state of the
art algorithms - A priori information about human motion is
available via dataset training data - Hand properties
- Along a sequence, they move quicker and in
different directions than the average whole body
speed vector - They are usually skin colored, but the face also
is - Assuming a static background, hands will be part
of the foreground data - Combining all this information, we build a
probability function for the hands
31Descripción técnicaEstimación de movimiento para
inferencia psicológica
- Optimization algorithm
- We have the whole sequence since the beginning
- We should take advantage of that use an
optimization algorithm to avoid local minima and
solve tracking errors. - We propose Ant Colony Optimization.
- Ant agents like in nature, they look for the
quickest route in a problem. They drop pheromone
in their path - The best path will have lots of phermone.
- Until now, only applied to discrete problems.
- We have to define a distance measure the higher
the probability of a pixel, and the nearer that
pixel is, the shorter the distance.
32Descripción técnicaEstimación de movimiento para
inferencia psicológica
- Dealing with the database
- Encode via PCA or other dimensionality reduction
algorithm the dynamics of the human movement - The more information about different movements
there are, the better - With the help of psychologists, we have defined
the most relevant movements in our job interview
situation - With the help of a range sensor (Kinect) we
obtained the information of the joint movements
in 3D
33Descripción técnicaEstimación de movimiento para
inferencia psicológica
34Descripción técnicaEstimación de movimiento para
inferencia psicológica
- Hands probability function
35Descripción técnicaEstimación de movimiento para
inferencia psicológica