Taller de Base de Datos - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Taller de Base de Datos

Description:

Taller de Base de Datos Profesor: Claudio Guti rrez Soto p gina: http://www.dcc.uchile.cl/~clgutier e-mail: cjoelg_at_ona.fi.umag.cl Fono: 207 122 – PowerPoint PPT presentation

Number of Views:82
Avg rating:3.0/5.0
Slides: 21
Provided by: serv205
Category:
Tags: base | crawling | datos | taller

less

Transcript and Presenter's Notes

Title: Taller de Base de Datos


1
Taller de Base de Datos
  • Profesor Claudio Gutiérrez Soto
  • página http//www.dcc.uchile.cl/clgutier
  • e-mail cjoelg_at_ona.fi.umag.cl
  • Fono 207 122
  • Minería de Datos y OLAP

2
Taller de Base de Datos
Minería de Datos Análisis de grandes volúmenes de
datos para encontrar relaciones no triviales, y
para resumirlos de manera que sean entendibles y
útiles. Hand, Mannila y Smyth Extracción de
patrones y modelos interesantes, potencialmente
útiles y datos en base de datos de gran
tamaño. Hand
3
Taller de Base de Datos
  • Conocimiento Modelo vs. Patrón
  • Hand, Mannila y Smyth
  • Modelo Habla de todo el conjunto de datos
  • Patrón Habla de una región particular de datos.

4
Taller de Base de Datos
  • El proceso de Minería de Datos
  • Proceso Iterativo
  • Entendimiento del Problema
  • Entendimiento de los datos
  • Qué información y estructura de ella tenemos
  • Qué partes y subconjuntos son relevantes
  • Calidad de los datos
  • Preparación de los datos
  • Extracción (ej. Datawarehousing, Web crawling)
  • Transformación y Limpieza.

5
Taller de Base de Datos
  • El proceso de Minería de Datos
  • Modelación
  • Explotación (visualización de datos).
  • Definición de modelos y patrones a encontrar.
  • Diseño, desarrollo y ejecución de algoritmos
  • Evaluación de resultados
  • Implementación del modelo/uso de los resultados

6
Taller de Base de Datos
  • Decisiones Claves etapas de Modelación/Evaluación
  • 1.- Tipos de patrón/modelo (ej. Reglas de
    asociación, árbol de decisión)
  • 2.- Algoritmo a Usar
  • Como almacenar los datos estructuras de datos.
  • Estrategia de búsqueda del patrón/construcción
    del modelo.
  • Manejo de Memoria Memoria RAM limitada por
    buffering
  • 3.- Función de Evaluación (score function)
    calidad del patrón/modelo encontrado.

7
Taller de Base de Datos
  • Funciones de Evaluación
  • Error de Predicción

8
Taller de Base de Datos
  • Tareas en Minería de Datos
  • Hand, Mannila y Smyth( Aparecen en la etapa de
    modelación de CRISP)
  • Análisis Exploratorio Explorar los datos sin
    tener necesariamente una idea clara de lo que se
    está buscando.
  • - Problema cómo visualizar una nube de puntos
    en un espacio de miles de dimensiones?
  • k puntos pueden ser representados en un espacio
    de n k-1 dimensiones.
  • -Exploración a distintos niveles de granularidad
    de los datos. Ejemplo Ventas por dia y ciudad
    vs. Ventas por mes y región (OLAP)

9
Taller de Base de Datos
  • Tareas en Minería de Datos
  • Modelamiento Descriptivo Su objetivo es
    construir modelos que ayuden a entender los
    datos.
  • -Ejemplo
  • Búsqueda de agrupaciones particionar los datos
    (puntos) en grupos.
  • Estimación de distribución de probabilidades.
  • Búsqueda de correlaciones entre variables
    (etc.)

10
Taller de Base de Datos
  • Búsqueda de Agrupaciones
  • Funciones de Evaluación
  • C1,...,Ck grupos, mi es el centroide de Ci
  • Qué limitación tiene esta función?

11
Taller de Base de Datos
  • Tareas en Minería de Datos
  • Modelación Predictiva Su ojetivo es construir un
    modelo que permita predecir el valor de una
    variable.
  • - Ejemplo clasificación dado un conjunto de
    objetos (tuplas), donde cada objeto pertenece a
    una clase, construir un modelo que permita
    predecir la clase de un objeto que no está en la
    base de datos.

12
Taller de Base de Datos
  • Clasificación
  • Función de Evaluación
  • C(y) es uno si el árbol predice correctamente la
    clase del objeto y
  • Qué limitación tiene esta función?

13
Taller de Base de Datos
  • Tareas en Minería de Datos
  • Descubrimiento de patrones y Asociaciones
  • -Ejemplo Descubrimiento de comportamiento
    anomal para detectar fraude.
  • - Búsqueda de reglas de asociación
  • Personas que compran productos A tienden a
    comprar productos B.
  • Anécdota Pañales y Cerveza.

14
Taller de Base de Datos
  • Minería de Datos y Otras Aplicaciones
  • Estadistica
  • Inteligencia Artificial Machine Learning
  • Base de datos

15
Taller de Base de Datos
  • Minería de Datos vs. Estadistica
  • En qué se diferencian?
  • En mineria de datos tenemos
  • 1.- Mayor volúmen de los datos (diferencia
    fundamental)
  • Estudios para hacer más eficiente la inducción de
    clasificadores estadisticos (J. Cattlet, 1991)
    consideran un máximo de 32.000 objetos.
  • 2.- Mayor complejidad de los datos (miles de
    atributos o dimensiones).
  • 3.- Patrones/Modelos son estadísticamente
    livianos fáciles de entender aunque no tan
    precisos.
  • 4.- Enfasis está en buscar modelos más que en
    verificar un modelo fijo.

16
Matemáticas para Ciencias de la
ComputaciónMCC3182
  • Anécdota
  • Historicamente el término Minería de datos se usó
    en estadisticas para denotar el uso de datos para
    derivar conclusiones erradas.
  • Bonferroni Muchas conjeturas triviales solo por
    simple razonamiento estadístico.
  • Ejemplo Dr. David Rhine (ej. de Ullman)
  • Parasicólogo de Duke que en 1950 testeo a
    estudiantes para encontrar percepción extra
    sensorial.
  • Descubrió que el 0.1 de ellos podían adivinar 10
    cartas de 10.
  • Declaró a estos estudiante como poseedores de
    PES.
  • Cuando realizó el experimento con ellos
    nuevamente, descubrió que perdían su capacidad.
  • Conclusión al comunicar una persona que es PES,
    ésta generalmente la pierde.

17
Matemáticas para Ciencias de la
ComputaciónMCC3182
  • Volumen de los Datos
  • Escenario Común
  • Dos años de transacciones en una cadena de 50
    supermercados. Cada supermercado tiene un
    promedio de 10.000 ventas diarias, donde cada
    venta consiste de unos 20 itemes en promedio.
  • Supongamos que almacenamos estos datos como
    tuplas de la siguiente manera
  • Tamaño del archivo
  • Número de transacciones 50x365x10000 365
    millones
  • Número de bytes por transacción4 bytes x 20
  • Total 30660 millones, aprox. 30 GB.

18
Matemáticas para Ciencias de la
ComputaciónMCC3182
  • Otros Ejemplos
  • Wallmart maneja aprox. 20 millones de
    transacciones diarias.
  • - Su base de datos de transacciones de ventas
    pesa 11 terabyte.
  • ATT tiene más de 100 millones de clientes y
    almacena más de 300 millones de llamados diarios.
  • El sistema SKYCAT desarrollado por Fayyad et. Al
    (1996) contiene más de 3 terabyte de datos.

19
Matemáticas para Ciencias de la
ComputaciónMCC3182
  • Complejidad de los Datos
  • Cuántas canastas de productos que se venden con
    frecuencia se pueden tener en un total de n
    productos?
  • 2n
  • n puede ser muy grande, para Wallmart n10000
  • Si contamos la frecuencia de cada subconjunto de
    ítemes, necesitamos 2n contadores.

20
Matemáticas para Ciencias de la
ComputaciónMCC3182
  • Aplicaciones
  • SKICAT (Sky Image and Analysis Tool) desarrollado
    por JPL/Caltech. Sistema que predice si un objeto
    es una estrella o una galaxia.
  • Reglas de asociación para generar oportunidades
    de ventas cruzadas.
  • Arboles de Decisión, los cuales son utilizados en
    los bancos para determinar el otorgamiento de
    crédito a un nuevo cliente.
  • Predicción de precios en ambientes financieros.
  • Sistemas de recomendación (Ej. Amazon, Movie
    Lenz)
  • Detección de Fraude.
  • Optimización de campañas de marketing (database
    marketing)
  • MSNBC vía agrupación de páginas se observó un
    cluster con un 20 de noticias muy similares se
    creó la sección living, la más visitada en la
    actualidad.
Write a Comment
User Comments (0)
About PowerShow.com