DATA MINING - PowerPoint PPT Presentation

1 / 30
About This Presentation
Title:

DATA MINING

Description:

Title: PowerPoint Presentation Created Date: 1/1/1601 12:00:00 AM Document presentation format: Presentaci n en pantalla Other titles: Times New Roman Arial ... – PowerPoint PPT presentation

Number of Views:58
Avg rating:3.0/5.0
Slides: 31
Provided by: ehuEs
Category:

less

Transcript and Presenter's Notes

Title: DATA MINING


1
DATA MINING
  • Arantza Garcia Arrastia
  • Curso 2004/2005

2
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

3
1.Introducción (I)
  • Data Mining, es la extracción de información
    oculta y predecible de grandes bases de datos.
  • Trabaja buscando patrones, comportamientos,
    agrupaciones, secuencias, tendencias y
    asociaciones que pueden generar algún modelo para
    ayudar en la toma de decisiones y a comprender
    mejor el dominio.

4
1.Introducción (II)
  • Es una poderosa tecnología con potencial para
    ayudar a las compañías a concentrarse en la
    información más importante de sus Bases de
    Información (Data Warehouse).
  • Las herramientas de Data Mining predicen futuras
    tendencias y comportamientos, permitiendo en los
    negocios tomar decisiones proactivas .

5
1.Introducción(III)
  • Dos conceptos de Data Mining
  • 1 gt Data Mining como un paso dentro del
    proceso KDD (Knowledge Discovery in Databases), o
    descubrimiento de conocimiento de las bases de
    datos. Representa la actividad que genera
    patrones y relaciones mediante la aplicación de
    algoritmos, a partir de un conjunto de datos
    previamente limpiados y transformados, para una
    etapa posterior de interpretación y análisis.

6
1.Introducción (IV)
  • gt 2. Data Mining como un Proceso
    Independiente de extracción de información
    oculta, que posee sus propias etapas
  • Identificación del problema, selección de
    los datos, preparación de los datos, construcción
    del modelo, descubrimiento de patrones,
    despliegue de Patrones y monitoreo del modelo.

7
1.Introducción (V)
  • Etapas principales
  • Determinación de los objetivos Delimitación de
    los objetivos que el cliente desea.
  • Preprocesamiento de los datos(60) Selección,
    limpieza, enriquecimiento, reducción y
    transformación de las bases de datos.
  • Determinación del modelo análisis estadísticos y
    visualización grafica de los datos.
  • Análisis de los resultados Verifica si los
    resultados son coherentes. El cliente es el que
    tiene la palabra final.

8
1.Introducción (VI)
  • PROCEDIMIENTOS
  • Clasificación. Consiste en examinar las
    características de una entidad nueva y asignarle
    una clase predefinida. Por ejemplo Clasificar a
    un nuevo cliente según su riesgo de crédito
    (alto, medio, bajo).
  • Estimación. Similar a lo anterior, pero aplicado
    a variables continuas. Por ejemplo ingresos,
    balance de tarjetas de crédito, etc.
  • Predicción. Predicción de fidelidad de clientes.
  • Ejemplo predecir qué clientes nos
    abandonarán en los próximos 6 meses.
  • Grupos Afines o Reglas de Asociación. El objetivo
    de los grupos afines es determinar que cosas van
    juntas. Ejemplo productos que debieran ir
    juntos en un supermercado.

9
1.Introducción (VII)
  • Clustering. Tiene como objetivo el segmentar a un
    grupo diverso en un conjunto de subgrupos.No
    depende de clases .
  • Ejemplo un cluster particular de síntomas
    puede indicar una enfermedad particular .
  • Descripción y Visualización. Algunas veces el
    objetivo es simplemente describir qué esta
    ocurriendo en una base de datos compleja, para
    así aumentar nuestro entendimiento de las
    personas, productos o procesos que generaron los
    datos inicialmente.

10
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

11
2.Características principales (I)
  • Predicción automatizada de tendencias y
    comportamientos
  • Data Mining automatiza el proceso de
    encontrar información predecible en grandes bases
    de datos.
  • Permite detectar fácilmente patrones en los
    datos. Preguntas que tradicionalmente
    requerían un intenso análisis manual, ahora
    pueden ser contestadas directa y rápidamente
    desde los datos.

12
2.Características principales (II)
  • Descubrimiento automatizado de modelos
    previamente desconocidos
  • Las herramientas de Data Mining barren las
    bases de datos e identifican modelos previamente
    escondidos en un sólo paso. Otros problemas de
    descubrimiento de modelos incluye detectar
    transacciones fraudulentas de tarjetas de
    créditos e identificar datos anormales que pueden
    representar errores de tipeado en la carga de
    datos.

13
2.Características principales (III)
  • Las bases de datos pueden ser grandes tanto en
    profundidad como en ancho
  • -Más columnas. Los analistas deben limitar
    el número de variables a examinar cuando realizan
    análisis manuales debido a limitaciones de
    tiempo. Sin embargo, variables que son
    descartadas porque parecen sin importancia pueden
    proveer información acerca de modelos
    desconocidos. Un Data Mining de alto rendimiento
    permite a los usuarios explorar toda la base de
    datos, sin preseleccionar un subconjunto de
    variables.
  • -Más filas. Muestras mayores producen
    menos errores de estimación y desvíos, y permite
    a los usuarios hacer inferencias acerca de
    pequeños pero importantes segmentos de población.

14
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

15
3.Técnicas (I)
  • Las técnicas mas usadas en Data Mining son
  • Redes neuronales artificiales modelos que
    aprenden a través del entrenamiento y semejan la
    estructura de una red neuronal biológica.
  • Árboles de decisión estructuras de forma de
    árbol que representan conjuntos de decisiones.
    Estas decisiones generan reglas para la
    clasificación de un conjunto de datos.
  • Algoritmos genéticos técnicas de optimización
    que usan procesos tales como combinaciones
    genéticas, mutaciones y selección natural en un
    diseño basado en los conceptos de evolución.

16
3.Técnicas (II)
  • Método del vecino más cercano
  • Una técnica que clasifica cada registro en un
    conjunto de datos basado en una combinación de
    las clases del/de los k registro (s) más
    similar/es a él en un conjunto de datos
    históricos (donde k 1). Algunas veces se llama
    la técnica del vecino k-más cercano.
  • Regla de inducción
  • La extracción de reglas if-then de datos
    basados en significado estadístico.

17
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

18
4.Fases (I)
  • Fases de un Proyecto de Minería de DatosLos
    pasos a seguir para la realización de un proyecto
    de minería de datos son siempre los mismos,
    independientemente de la técnica de extracción
    de conocimiento usada. El proceso de minería de
    datos pasa por las siguientes fases
  •     1.Filtrado de datos    
    2.Selección de Variables     3.Extracción de
    Conocimiento     4.Interpretación y Evaluación

19
4.Fases (II)
  • Filtrado de datos
  • El formato de los datos contenidos en la
    fuente de datos (base de datos, Data
    Warehouse...) nunca es el idóneo, y la mayoría de
    las veces no es posible ni siquiera utilizar
    ningún algoritmo de minería sobre los datos "en
    bruto". Mediante el preprocesado, se filtran los
    datos (de forma que se eliminan valores
    incorrectos, no válidos, desconocidos... según
    las necesidades y el algoritmo a usar), se
    obtienen muestras de los mismos (en busca de una
    mayor velocidad de respuesta del proceso), o se
    reducen el número de valores posibles (mediante
    redondeo, clustering,...).

20
4.Fases (III)
  • Selección de variables
  • Aún después de haber sido preprocesados, en
    la mayoría de los casos se tiene una gran
    cantidad de datos. La selección de
    características reduce el tamaño de los datos
    eligiendo las variables más influyentes en el
    problema, sin apenas sacrificar la calidad del
    modelo de conocimiento obtenido del proceso de
    minería.
  • Los métodos para la selección de
    características son dos     - Los basados en
    la elección de los mejores
    atributos del problema,     - Los que
    buscan variables independientes mediante tests de
    sensibilidad, algoritmos de distancia o
    heurísticos.

21
4.Fases (IV)
  • Algoritmos de Extracción de Conocimiento
  • Mediante una técnica de minería de datos, se
    obtiene un modelo de conocimiento, que representa
    patrones de comportamiento observados en los
    valores de las variables del problema o
    relaciones de asociación entre dichas variables.
    También pueden usarse varias técnicas a la vez
    para generar distintos modelos, aunque
    generalmente cada técnica obliga a un
    preprocesado diferente de los datos.

22
4.Fases (V)
  • Interpretación y evaluación
  • Verifica si los resultados son coherentes. El
    cliente es el que tiene la palabra final.
  • Una vez obtenido el modelo, se debe proceder
    a su validación, comprobando que las conclusiones
    que arroja son válidas y suficientemente
    satisfactorias.
  • Si se obtienen varios modelos mediante el uso
    de distintas técnicas, se deben comparar los
    modelos en busca de aquel que se ajuste mejor al
    problema.

23
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

24
5.Ejemplos
  • Telefonía móvil.
  • Club AC Milán (prevenir lesiones)
  • FBI

25
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

26
6.Contras (I)
  • Momento critico de la minería de datos
  • Que se requiere experiencia.
  • Fáciles Equivocaciones. Fácil hallar patrones
    equívocos, triviales o no interesantes.
  • Relación coste/Beneficio improductiva.
  • Uso indiscriminado de datos.
  • Que no sea posible resolver los aspectos técnicos
    de hallar patrones en tiempo o en espacio.
  • Que exista una reacción del publico por el uso
    indiscriminado de datos personales para
    ejercicios de Minería de Datos, que obligue a los
    legisladores a imponer restricciones exageradas
    (y tal vez absurdas) al uso de la tecnología..

27
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

28
7.Pros (I)
  • Extrae información táctica y estratégica
    almacenada en sus Data Warehouse .
  • La búsqueda de patrones la realiza en forma
    automatizada, generando modelos mediante la
    aplicación de diferentes técnicas.
  • Existe gran diversidad de herramientas de Data
    Mining en el mercado, lo que facilita la
    aplicación de este proceso y aumenta el nivel de
    confianza de sus resultados.
  • No requiere de personal experto en ciencias
    estadísticas o altamente entrenado. Es suficiente
    un especialista en análisis de datos y un experto
    en las áreas de la organización, que tengan
    conocimientos básicos en áreas estadísticas que
    les permita entender y aplicar los resultados.

29
Data Mining
  • Introducción
  • Características principales
  • Técnicas
  • Fases
  • Ejemplos
  • Contras
  • Pros
  • Conclusiones

30
8.Conclusiones (I)
  • Nuestra capacidad para almacenar datos ha
    crecido en los últimos años a velocidades
    exponenciales. En contrapartida, nuestra
    capacidad para procesarlos y utilizarlos no ha
    ido a la par.
  • gt data mining se presenta como una
    tecnología de apoyo para explorar, analizar,
    comprender y aplicar el conocimiento obtenido
    usando grandes volúmenes de datos. Descubrir
    nuevos caminos que nos ayuden en la
    identificación de estructuras en los datos es
    una de las tareas fundamentales en el data
    mining.
Write a Comment
User Comments (0)
About PowerShow.com