Title: Centro de Aplicaciones de Tecnologas de Avanzada
1Centro de Aplicaciones de Tecnologías de Avanzada
Investigación Teórica vsInvestigación Aplicada?
Dr. José Ruiz-Shulcloper CENATAV, MINBAS,
CUBA jshulcloper_at_cenatav.co.cu
2Contenido
- Qué es el CENATAV?
- Cuál es su política científica?
- En qué consiste la modelación matemática de los
problemas de RP y MD? - Teoría vs Aplicaciones?
3El Centro de Aplicaciones de Tecnologías de
Avanzada (CENATAV) es un centro adscrito al
MINBAS, que fue creado (Fecha oficial Enero del
2004) (Fecha real Marzo del 2003) para
desarrollar investigaciones teóricas y aplicadas
en Reconocimiento de Patrones (RP) y
Minería de Datos (MD) y que funciona en un
régimen económico presupuestado no lucrativo,
financiado por la Caja Central del Estado,
sin beneficios económicos ni superávit
financiero.
4DESARROLLO MUNDIAL
CARPETA PROB.
CARPETA PROB.
NECESIDADES DEL PAÍS
5Líneas de Investigación Dpto Minería de Datos
Algoritmos de agrupamiento Objetivo general
Desarrollar algoritmos, así como componentes
y/o servicios a ser utilizados por diferentes
sistemas, que garanticen mejor eficiencia en el
agrupamiento de datos. Tema 1.1 Agrupamiento en
datos estructurados, semiestructurados y no
estructurados textos planos, documentos Web y
Bases de Datos (datos categóricos y numéricos).
Marzo 2005
6Líneas de Investigación Dpto Minería de Datos
Tema 1.2 Agrupamiento incremental. Tema 1.3
Agrupamiento no duro (difuso, etc.). Tema 1.4
Agrupamiento en grandes volúmenes de datos
aplicando procesamiento en paralelo. Tema
1.5 Agrupamiento a partir de reglas de
asociación.
Marzo 2005
7Líneas de Investigación Dpto Minería de Datos
Algoritmos de generación de reglas de
asociación Objetivo general Desarrollar
algoritmos, así como componentes y/o servicios a
ser utilizados por diferentes sistemas, que
garanticen mejor eficiencia en la generación de
Reglas de Asociación (RA). Tema 2.1 Generación
de RA en datos estructurados, semi-estructurados
y no estructurados textos planos, documentos Web
y Bases de Datos (datos categóricos y numéricos).
Marzo 2005
8Líneas de Investigación Dpto Minería de Datos
Tema 2.2 Generación incremental de RA. Tema
2.3 Generación de RA en grandes volúmenes de
datos aplicando procesamiento en
paralelo. Tema 2.4 Métodos de reducción de la
dimensionalidad de los rasgos para la
generación de reglas de asociación. Tema 2.5
Generación de RA a partir de agrupamientos. Tema
2.6 Generación de RA con diferentes medidas de
interés.
Marzo 2005
9Líneas de Investigación Dpto Minería de Datos
Caracterización de documentos Objetivo general
Evaluar las diferentes formas de representación
de los documentos, programando componentes y/o
servicios con las mejores o nuevas formas
seleccionadas. Tema 3.1 Formas de
representación que garanticen medidas superiores
de semejanza o distancia entre documentos. Tema
3.2 Métodos para reducir la cantidad de rasgos
en las representaciones de documentos.
Marzo 2005
10Líneas de Investigación Dpto Minería de Datos
Búsqueda de documentos Objetivo general
Evaluar los diferentes métodos de búsqueda de
documentos, programando componentes y/o servicios
con los mejores o nuevos métodos
seleccionados. Tema 4.1 Métodos superiores de
búsqueda en la Web o localmente. Tema 4.2
Métodos que permitan personalizar, reconocer y
generar automatizadamente los intereses de los
usuarios. Tema 4.3 Métodos de búsqueda en
ambientes paralelos o distribuidos.
Marzo 2005
11Líneas de Investigación Dpto Reconocimiento de
Patrones
- Análisis de textura
- Aplicación del análisis de texturas en Huellas
digitales. - Aplicación del análisis de texturas en Iris.
- Aplicación de la transformada de Gabor.
- Aplicación de la transformada de Wavelet.
Marzo 2005
12Líneas de Investigación Dpto Reconocimiento de
Patrones
- Macheo de grafos
- Inferencia gramatical de grafos utilizando redes
neuronales y algoritmos de estimación de
distribuciones. - Macheo inexacto de grafos utilizando redes
neuronales y algoritmos de estimación de
distribuciones.
Marzo 2005
13Líneas de Investigación Dpto Reconocimiento de
Patrones
- Máquinas de Soporte Vectorial (SVM)
- Mejoramiento de la sensibilidad y la
especificidad (precisión , recall) de los
resultados de las SVM. - Métodos de reducción del tiempo de entrenamiento.
- Generalización de las máquinas de soporte
vectorial al caso multiclase. - SVM para regresión.
- CSVM (Clifford SVM) como generalización de las
SVM usando el algebra geométrica de Clifford.
Marzo 2005
14Líneas de Investigación Dpto Reconocimiento de
Patrones
Reconocimiento Lógico Combinatorio de
Patrones Edición de matrices de
entrenamiento Desarrollo de algoritmos basados
en funciones de similaridad no duales de
distancias Esquemas de edición para datos
mezclados e incompletos Sistemas de
multiclasificadores Algoritmos conceptuales
Estas líneas de investigación son problemas
actuales de la disciplina en el nivel mundial
pero además responden a problemas prácticos que
tenemos que resolver en el país
Marzo 2005
15PLAN DE CIENCIA Y TECNOLOGÍA DEL CENATAV PARA EL
AÑO 2005
Se concluyó la primera versión del Sistema para
el procesamiento de noticias
No. PROYECTOS APLICADOS 1 Sistema para el
diseño y procesamiento de encuestas (UCLV/UO)
2 Sistema de identificación balística
(ISPJAE/UCI) 3 Sistema de identificación
dactiloscópica (ISPJAE/UCI) 4 Sistema de
lectura y comparación de perfiles de ADN (UCI)
5 Sistema para la detección de falsificación de
documentos Y otros que aún no empezamos por falta
de recursos humanos
Cómo hemos definido las investigaciones teóricas
a partir de los problemas concretos? Mediante el
proceso de modelación matemática
16En qué consiste la modelación matemática de los
problemas de RP y MD?
17Este proceso consta de 5 etapas
fundamentales Etapa 1.- Formulación del
problema Etapa 2.- Formalización del
problema Etapa 3.- Selección del modo de
solución del problema Etapa 4.- Solución del
problema expresado en términos matemáticos Etap
a 5.- Análisis e interpretación de los resultados
respecto al problema
18 Etapa 1.- Formulación del problema En esta
etapa el especialista del área de aplicación (o
los especialistas) tiene(n) una mayor
participación porque es(son) quien(es) expresa(n)
en su lenguaje el problema a resolver. Objetivo
de la investigación Objetos de investigación Propi
edades que caracterizan a los objetos Característi
cas de dichas propiedades Relaciones entre los
objetos y sus propiedades Hipótesis en que se
fundamenta el trabajo a realizar Fuentes de
información
19Qué información es relevante, si esto se
conoce? Cómo se recolecta la información? Cómo
se interpreta y manipula la información? Cómo
se requiere que se presenten los
resultados? Identificación de ruidos y
distorsiones de la información Valoración de los
errores en la información en su entrada,
procesamiento y salida Conjunto de descripciones
de los objetos a estudiar (formación de la matriz
de entrenamiento)
20Etapa 2.- Formalización del problema Esta etapa
es posible que mentalmente se lleve a cabo a
medida que el especialista del área de aplicación
formula el problema. Es compleja porque se
requiere "traducir" del lenguaje del especialista
al lenguaje formal de la Matemática, de tal
manera que de la etapa anterior queden reflejados
los objetivos, objetos, propiedades y su
escala de medición, características,
relaciones entre objetos y entre propiedades,
el concepto de clase de objetos, propiedades
de las mismas, los conceptos de analogía, la
evaluación de los errores, etc.
21En esta etapa se realiza A) la selección del
espacio de representación de los objetos de
investigación,
B) la determinación de las funciones que
modelarán los criterios de comparación de valores
de cada variable así como entre las descripciones
de los objetos. Esto es, formalizar el concepto
de analogía C) el análisis desde el punto de
vista formal de los requisitos de la solución que
el especialista del área de aplicación impone a
los resultados, D) la evaluación que dicho
especialista da a los datos.
22Etapa 3.- Selección del modo de solución del
problema (matemático) El proceso de
formalización muchas veces restringe fuertemente
el área de búsqueda de las técnicas de
solución. En esta etapa un papel decisivo lo
desempeña el análisis de la muestra de
aprendizaje, para entre otros aspectos A)
detectar errores cometidos en la formación de la
MA, B) analizar la calidad de los datos, C)
variabilidad de los datos para detectar objetos
anómalos, D) la posible necesidad de cambio de
escala, E) el posible cambio de codificación.
23- Se debe considerar que
- los modelos matemáticos tienen su área de
aplicabilidad donde resultan confiables, - B) no es fácil señalar el área de aplicación de
un modelo, - C) los modelos son consistentes, los errores se
dan por usarlos donde no se debe, - D) cualquier herramienta que se use dará una
información de salida para una cierta información
de entrada, - E) se debe evaluar el tratamiento de la ausencia
de información.
24Etapa 4.- Solución del problema expresado en
términos matemáticos (se obtiene un resultado
matemático) Tomando como base los datos
formalizados y el tipo de algoritmo a utilizar,
se elabora el sistema computarizado (si lo
amerita el caso) y se obtiene la solución del
problema matemático. Se analiza la concordancia
del resultado matemático alcanzado con los
objetivos formalizados del problema matemático
teniendo como herramienta fundamental la
formalización de los criterios para la evaluación
de resultados de la segunda etapa.
25Etapa 5.- Análisis e interpretación de los
resultados respecto al problema Los resultados
matemáticos se interpretan "traduciendo" del
lenguaje matemático al lenguaje del especialista,
en forma similar a lo que se hizo en su
contraparte en la segunda etapa. Después de la
correspondencia del resultado matemático con el
problema matemático en la etapa anterior, se hace
necesario el análisis entre la interpretación del
resultado matemático y el problema formulado por
el especialista del área de la aplicación. Las
acciones resolutivas obtenidas son variadas y
dependen de los resultados de dicho análisis. El
especialista del área de aplicación también es el
máximo responsable de esta etapa y debe ser
ejecutada en conjunto con los elementos del
equipo multidisciplinano.
26Nota aclaratoria.- Hay tres etapas más, al menos
en las Geociencias, a las que aquí no hacemos
referencia, que en buena medida son propias del
trabajo previo y posterior, a saber, la
formación del modelo del especialista no
matemático la obtención (adquisición) de los
datos necesarios para la solución del problema y
la comprobación en las condiciones de gabinete
y campo de los resultados obtenidos.
27En resumen la metodología que se ha presentado
está basada sobre los siguientes principios 1.
No se puede modelar lo que no se conoce. 2. Los
especialistas no matemáticos no tienen que
dominar el lenguaje de la Matemática. 3. El
problema no matemático se formula estrictamente
en el lenguaje de la ciencia en particular. 4. No
se va a experimentar con los datos para ver si la
respuesta le conviene. 5. La frecuencia está en
la base del conocimiento en las ciencias poco
formalizadas. 6. La analogía está en la base del
conocimiento en las ciencias poco formalizadas.
287. Debe haber una comprensión mutua de los
elementos esenciales. 8. Discutir el modelo
no-matemático es una necesidad del
matemático. 9. Discutir el modelo matemático
ayuda a que se aplique la solución que se
alcance. 10. Al modelo matemático se llega, no
se parte de él. 11. Se pretende construir un
sistema que constituya una herramienta más del
trabajo del especialista (no matemático). Lo
llamaremos sistema herramienta. 12. El sistema
herramienta no sustituye al especialista del área
de aplicación, lo potencia en su trabajo
rutinario y en sus investigaciones.
2913. Se cree en las cajas negras cuando nunca se
equivocan, pero esto no siempre ocurre. 14. Para
manejar un sistema herramienta no se necesita
saber Computación, tampoco Matemática. 15. El
sistema debe aspirar a la automatización del
proceso de modelación matemática, según las
concepciones metodológicas propuestas (eso no lo
hemos logrado aún). 16. La modelación matemática
de un fenómeno sólo puede acometerse con un
equipo multidisciplinario. 17. La regla
fundamental de un equipo multidisciplinario debe
ser la honestidad. 18. Se debe tener un lenguaje
común en el equipo multidisciplinario. 19. Se
deben definir obligaciones y funciones
específicas para cada miembro del equipo, sin
menoscabo de la responsabilidad colectiva.
30Responsablemente queremos expresar que este
proceso, que puede parecerle a algunos engorroso,
aburrido, innecesario, ha dado frutos antes de
llegar a clasificar antes de procesar los datos.
Es opinión de los geocientíficos con los que
hemos trabajado, que el proceso de modelación les
resultó beneficioso para sus hipótesis,
concepciones, para depurar e incluso aumentar la
calidad de sus modelos. Esto no significa que
no haya mucho aún por hacer en el plano
metodológico. Esta metodología de la modelación
matemática de problemas de Reconocimiento de
Patrones para ciencias poco formalizadas, es sólo
un punto de partida.
31Teoría vs Aplicaciones?
- No hay razones para plantear una dicotomía entre
un tipo y otro de investigación, por el contrario
ambas pueden y deben retroalimentarse - Quizás un problema a precisar es qué debe
considerarse una investigación aplicada y qué un
trabajo profesional - Si partimos del problema a resolver y no lo
distorsionamos para meterlo dentro de ciertos
modelos matemáticos preconcebidos, tenemos la
posibilidad de que aparezcan problemas teóricos
incluso de muy alta complejidad
32- Un levantamiento de lo que se hace, quién lo hace
y cuáles son las perspectivas de desarrollo
futuro, es una información de un alto valor
práctico en cualquier país - Análogamente, un inventario de lo que se
necesita, de lo que se podría hacer y una
proyección de lo que se necesitaría, es también
una información altamente valiosa - La combinación de estas dos informaciones podría
producir un cambio cualitativo sustancial en el
desarrollo a mediano y largo plazo en el país
33- Una dinámica que combine el acceso a la
información y experiencia mundiales, la
posibilidad de realizar el proceso de modelación
matemática de los problemas aplicados, podría ser
de alta utilidad para el desarrollo de las
investigaciones teóricas y las aplicadas y
también de la formación de nuevos especialistas
en el país - Las investigaciones aplicadas pueden constituir
una fuente inapreciable de problemas teóricos - En nuestra experiencia la conjugación de estos
dos tipos de investigaciones es la garantía de
resolver nuestros problemas concretos aplicados
y, simultáneamente, del desarrollo de la ciencia
y la técnica en el país
34MUCHAS GRACIAS POR SU ATENCIÓN
Alguna pregunta?