Title: Taller de Base de Datos
1Taller de Base de Datos
- Profesor Claudio Gutiérrez Soto
- página http//www.dcc.uchile.cl/clgutier
- e-mail cjoelg_at_ona.fi.umag.cl
- Fono 207 122
- Minería de Datos y OLAP
2Taller de Base de Datos
Minería de Datos Análisis de grandes volúmenes de
datos para encontrar relaciones no triviales, y
para resumirlos de manera que sean entendibles y
útiles. Hand, Mannila y Smyth Extracción de
patrones y modelos interesantes, potencialmente
útiles y datos en base de datos de gran
tamaño. Hand
3Taller de Base de Datos
- Conocimiento Modelo vs. Patrón
- Hand, Mannila y Smyth
- Modelo Habla de todo el conjunto de datos
- Patrón Habla de una región particular de datos.
4Taller de Base de Datos
- El proceso de Minería de Datos
- Proceso Iterativo
- Entendimiento del Problema
- Entendimiento de los datos
- Qué información y estructura de ella tenemos
- Qué partes y subconjuntos son relevantes
- Calidad de los datos
- Preparación de los datos
- Extracción (ej. Datawarehousing, Web crawling)
- Transformación y Limpieza.
5Taller de Base de Datos
- El proceso de Minería de Datos
- Modelación
- Explotación (visualización de datos).
- Definición de modelos y patrones a encontrar.
- Diseño, desarrollo y ejecución de algoritmos
- Evaluación de resultados
- Implementación del modelo/uso de los resultados
6Taller de Base de Datos
- Decisiones Claves etapas de Modelación/Evaluación
- 1.- Tipos de patrón/modelo (ej. Reglas de
asociación, árbol de decisión) - 2.- Algoritmo a Usar
- Como almacenar los datos estructuras de datos.
- Estrategia de búsqueda del patrón/construcción
del modelo. - Manejo de Memoria Memoria RAM limitada por
buffering - 3.- Función de Evaluación (score function)
calidad del patrón/modelo encontrado.
7Taller de Base de Datos
- Funciones de Evaluación
- Error de Predicción
8Taller de Base de Datos
- Tareas en Minería de Datos
- Hand, Mannila y Smyth( Aparecen en la etapa de
modelación de CRISP) - Análisis Exploratorio Explorar los datos sin
tener necesariamente una idea clara de lo que se
está buscando. - - Problema cómo visualizar una nube de puntos
en un espacio de miles de dimensiones? - k puntos pueden ser representados en un espacio
de n k-1 dimensiones. - -Exploración a distintos niveles de granularidad
de los datos. Ejemplo Ventas por dia y ciudad
vs. Ventas por mes y región (OLAP)
9Taller de Base de Datos
- Tareas en Minería de Datos
- Modelamiento Descriptivo Su objetivo es
construir modelos que ayuden a entender los
datos. - -Ejemplo
- Búsqueda de agrupaciones particionar los datos
(puntos) en grupos. - Estimación de distribución de probabilidades.
- Búsqueda de correlaciones entre variables
(etc.)
10Taller de Base de Datos
- Búsqueda de Agrupaciones
- Funciones de Evaluación
- C1,...,Ck grupos, mi es el centroide de Ci
- Qué limitación tiene esta función?
11Taller de Base de Datos
- Tareas en Minería de Datos
- Modelación Predictiva Su ojetivo es construir un
modelo que permita predecir el valor de una
variable. - - Ejemplo clasificación dado un conjunto de
objetos (tuplas), donde cada objeto pertenece a
una clase, construir un modelo que permita
predecir la clase de un objeto que no está en la
base de datos.
12Taller de Base de Datos
- Clasificación
- Función de Evaluación
- C(y) es uno si el árbol predice correctamente la
clase del objeto y - Qué limitación tiene esta función?
13Taller de Base de Datos
- Tareas en Minería de Datos
- Descubrimiento de patrones y Asociaciones
- -Ejemplo Descubrimiento de comportamiento
anomal para detectar fraude. - - Búsqueda de reglas de asociación
- Personas que compran productos A tienden a
comprar productos B. - Anécdota Pañales y Cerveza.
14Taller de Base de Datos
- Minería de Datos y Otras Aplicaciones
- Estadistica
- Inteligencia Artificial Machine Learning
- Base de datos
15Taller de Base de Datos
- Minería de Datos vs. Estadistica
- En qué se diferencian?
- En mineria de datos tenemos
- 1.- Mayor volúmen de los datos (diferencia
fundamental) - Estudios para hacer más eficiente la inducción de
clasificadores estadisticos (J. Cattlet, 1991)
consideran un máximo de 32.000 objetos. - 2.- Mayor complejidad de los datos (miles de
atributos o dimensiones). - 3.- Patrones/Modelos son estadísticamente
livianos fáciles de entender aunque no tan
precisos. - 4.- Enfasis está en buscar modelos más que en
verificar un modelo fijo. -
16Matemáticas para Ciencias de la
ComputaciónMCC3182
- Anécdota
- Historicamente el término Minería de datos se usó
en estadisticas para denotar el uso de datos para
derivar conclusiones erradas. - Bonferroni Muchas conjeturas triviales solo por
simple razonamiento estadístico. - Ejemplo Dr. David Rhine (ej. de Ullman)
- Parasicólogo de Duke que en 1950 testeo a
estudiantes para encontrar percepción extra
sensorial. - Descubrió que el 0.1 de ellos podían adivinar 10
cartas de 10. - Declaró a estos estudiante como poseedores de
PES. - Cuando realizó el experimento con ellos
nuevamente, descubrió que perdían su capacidad. - Conclusión al comunicar una persona que es PES,
ésta generalmente la pierde.
17Matemáticas para Ciencias de la
ComputaciónMCC3182
- Volumen de los Datos
- Escenario Común
- Dos años de transacciones en una cadena de 50
supermercados. Cada supermercado tiene un
promedio de 10.000 ventas diarias, donde cada
venta consiste de unos 20 itemes en promedio. - Supongamos que almacenamos estos datos como
tuplas de la siguiente manera - Tamaño del archivo
- Número de transacciones 50x365x10000 365
millones - Número de bytes por transacción4 bytes x 20
- Total 30660 millones, aprox. 30 GB.
18Matemáticas para Ciencias de la
ComputaciónMCC3182
- Otros Ejemplos
- Wallmart maneja aprox. 20 millones de
transacciones diarias. - - Su base de datos de transacciones de ventas
pesa 11 terabyte. - ATT tiene más de 100 millones de clientes y
almacena más de 300 millones de llamados diarios. - El sistema SKYCAT desarrollado por Fayyad et. Al
(1996) contiene más de 3 terabyte de datos.
19Matemáticas para Ciencias de la
ComputaciónMCC3182
- Complejidad de los Datos
- Cuántas canastas de productos que se venden con
frecuencia se pueden tener en un total de n
productos? - 2n
- n puede ser muy grande, para Wallmart n10000
- Si contamos la frecuencia de cada subconjunto de
ítemes, necesitamos 2n contadores.
20Matemáticas para Ciencias de la
ComputaciónMCC3182
- Aplicaciones
- SKICAT (Sky Image and Analysis Tool) desarrollado
por JPL/Caltech. Sistema que predice si un objeto
es una estrella o una galaxia. - Reglas de asociación para generar oportunidades
de ventas cruzadas. - Arboles de Decisión, los cuales son utilizados en
los bancos para determinar el otorgamiento de
crédito a un nuevo cliente. - Predicción de precios en ambientes financieros.
- Sistemas de recomendación (Ej. Amazon, Movie
Lenz) - Detección de Fraude.
- Optimización de campañas de marketing (database
marketing) - MSNBC vía agrupación de páginas se observó un
cluster con un 20 de noticias muy similares se
creó la sección living, la más visitada en la
actualidad.