Data mart y Data mining - PowerPoint PPT Presentation

1 / 56
About This Presentation
Title:

Data mart y Data mining

Description:

4. 'Data mining' versus otras t cnicas. 5. Ciclo del proyecto de 'Data mining' ... especially useful for its information on comparisons of data mining software. ... – PowerPoint PPT presentation

Number of Views:478
Avg rating:3.0/5.0
Slides: 57
Provided by: cad63
Category:

less

Transcript and Presenter's Notes

Title: Data mart y Data mining


1
Data mart y Data mining
Disponible en http//www.drts-pr.com
  • Adolfo Rivera Torres, Antonio Llorens Gómez,
  • Carlos A. Díaz, Eliseo Gallo Albarracín,
  • José R. Colón

2
Agenda
1. Conceptos de Data Mart
2. Data Mart
3. Conceptos de Data mining
4. Data mining versus otras técnicas
5. Ciclo del proyecto de Data mining
3
Conceptos de Data Mart
José R. Colón
4
Data Mart
  • Una base de datos, o colección de bases de datos,
    diseñadas para ayudar a gerentes para tomar
    decisiones estratégicas sobre su negocio.
    Mientras que un Data Warehouse combina bases de
    datos a través de una empresa entera, los Data
    Marts son por lo general más pequeños y
    enfocados a una area funcional particular o
    departamento (ejemplo,finanzas, mercadeo, etc).
    La fuente puede ser interna, de un Data
    Warehouse centralizado o externa.

http//www.webopedia.com/TERM/D/data_mart.html
5
Porqué surgen
  • La necesidad de análisis de información existe en
    la empresa mediana, tanto como en la empresa muy
    grande.
  • Problemas con la lentitud de las consultas y la
    necesidad de darles soporte a sus usuarios no son
    menores.
  • Lo que es diferente es el volumen de información
    que debe ser sometido a análisis.
  • Para que los proyectos sean de tamaño razonable y
    su costo aceptable, hay que ajustar algunos
    conceptos de Data Warehouse.
  • Los Data Marts adaptan la tecnología de Data
    Warehouse a la problemática de las empresas
    pequeñas o departamentos.

6
Objetivo
  • El objetivo primario de un "Data Mart" puede ser
    resumido como sigue
  • Proporciona acceso rápido a la información para
    necesidades analíticas específicas
  • Acceso a la información para el usuario final
  • Muestra la información contenida en las bases de
    datos al usuario final, es el interfaz
  • Crea una visión multidimensional de los datos
    para un mejor análisis
  • Ofrece múltiples capacidades de manejo de la data
    para el análisis detallado de los datos
  • Guardan información pre-agregada para reducir los
    tiempos de respuestas

7
Data Warehouse Vs. Data Mart
  • Data Warehouse
  • Maneja diferentes materias y es típicamente
    implementado en forma centralizada
  • Típicamente reúne data de muchas fuentes y
    sistemas
  • Data Mart
  • Es típicamente más pequeño y menos complejo
  • Típicamente más fácil de hacer y mantener

8
Data Warehouse Vs. Data Mart
9
Tipos de "Data Marts"
  • Dependientes Estos "Data Marts" contienen datos
    que han sido directamente extraídos del Data
    Warehouse. Por lo tanto, los datos son
    integrados, y son consecuentes con los datos en
    el Data Warehouse.
  • Independiente Estos "Data Marts" son
    independientes, y son poblados con datos desde
    fuera del Data Warehouse de fuentes
    operacionales o externas.

http//download-east.oracle.com/docs/pdf/A68060_01
.pdf
10
Tipos de "Data Marts"
IBM 2004 http//www.redbooks.ibm.com/redbooks/SG
246653/wwhelp/wwhimpl/js/html/wwhelp.htm
11
Pasos para construir Data Mart
  • Diseño? Requisitos de negocio, Requisitos y
    técnicos
  • Construcción ? Crear estructura física y de
    almacenamiento, Crear esquema
  • Poblar ? Crear Mapping, Extracción, Limpieza,
    Cargar la data al DM, Metadata
  • Crear accesos ? Front end, Queries y reportes
  • Manejo y administración ? Seguridad, Crecimiento
    del DM, Optimizar el desempeño, Contingencia

Oracle 1999 http//download-east.oracle.com/docs
/pdf/A68060_01.pdf
12
Data Mart
Adolfo Rivera Torres
13
Pros/Cons de los Data Marts
Pros
  • Construcción e interrogatorio rápido
  • Menos costo y complejidad
  • Menos data histórica
  • Hechos a la medida (estructura de datos,
    queries,
  • data no interfiere entre departamentos)
  • El departamento implanta lo que quiere/necesita
  • Libertad para escoger que decisión apoyar sin
  • interferir con otros departamentos
  • Puede ser costeado con presupuesto propio
  • Libertad para escoger el software para análisis

14
Pros/Cons de los Data Marts
Cons
  • Mantenimiento difícil/caro (hechos a la medida)
  • Pierden utilidad si no se pueden hacer a la medida
  • Retos gerenciales
  • Falta de estandarización (nombres)
  • Falta de integración con otros data marts
  • Masiva redundancia
  • Dificultad de crearse 1 o 2 (fácil y barato)
  • Riesgos de la proliferación para la empresa

15
Proliferación de Data Marts
  • Cómo se impacta la Empresa?
  • ?

16
Proliferación de Data Marts (Independientes)
Posible Consecuencias para la Empresa
  • Aumenta costo de hardware y software
  • Aumenta los recursos de apoyo y mantenimiento
  • Requiere el desarrollo de muchos ETLs
  • Se almacena la misma data de manera
  • redundante e inconsistente
  • No hay un modelo ni un definición de data común
  • Riesgo de tomar decisiones con data que no es
  • exacta, consistente, o corriente
  • La falta de integración de data entre data
    marts
  • Inconsistencia de los reportes
  • Riesgo de tener diferentes plataformas de
  • hardware y software

17
Proliferación de Data Marts
Alternativas ante la proliferación
  • Moverse al desarrollo de DW centralizados
  • Moverse al desarrollo de data marts
    dependientes que
  • Su única fuente de datos sea el DW de la empresa
  • Se implanten independientemente para que la
  • implantación sea rápida
  • Sean construidos bajo contrato de servicios

18
Consolidación de Data Marts
Puntos a favor
  • Simplifica la infraestructura de IT y reduce la
  • complejidad
  • Elimina la redundancia (información, hardware,
  • software)
  • Baja lo esfuerzos de mantenimiento
  • Baja el costo de las licencias del software
  • Se desarrolla data de mayor calidad
  • Se estandariza la metadata

19
Integración de DM al EDW
20
Conceptos Minería de Datos Data Mining
Antonio Llorens Gómez
21
Definiciones de Data Mining (DM)
  • Métodos automáticos para búsqueda y extracción de
    información útil en volúmenes grandes de datos.
    Turban (2002)
  • Descubrir o obtener conocimiento mediante
    técnicas sofisticadas que pueden derivarse de
    algoritmos de estadísticas tradicionales,
    inteligencia artificial y graficas en
    computadoras.
    Hoffer, Prescott Mcfsdden (2005).
  • Knowledge Discovery in Data Bases (KDD) es el
    proceso de obtener conocimiento usando técnicas
    de minería de datos en grandes bases de datos.
    Marakas 2003.

22
Cuál es el propósito de realizar DM?
Descubrir patrones significativos, relevantes e
implícitos en datos referentes a algún proceso o
actividad con el propósito de mejorar su
rendimiento y desarrollar conocimiento
  • Áreas donde más se utiliza DM
  • Comercio electrónico
  • Mercadeo y ventas
  • Control de procesos producción
  • Planificación
  • Apoyo en la toma de decisiones gerenciales
  • Investigación y desarrollo
  • Meteorología
  • Biología, biotecnología y bio-informática

23
Qué condiciones deben existir para DM?
  • Metas estratégicas para mejorar competitividad o
    necesidad de conocimiento
  • Volúmenes considerables de datos relevantes
  • Uso de estructuras de bases de datos
  • Infraestructura de IT adecuada
  • Cultura analítica o de conocimiento
  • Capacidad de procesamiento viable y con
    proyección de aumentar (scalability)
  • Disponibilidad de herramientas-IT para DM

24
Qué resultados se espera de DM?
Weldon (1996) indica que las metas de DM son
Explorar, Explicar y Confirmar
  • Un DM efectivo es capaz de producirá lo
    siguiente
  • Predecir o pronosticar eventos o comportamientos
  • Clasificar eventos, individuos, cosas o actitudes
    por grupos o patrones
  • Agrupar eventos, individuos, cosas o actitudes
    por atributos seleccionados
  • Asociar eventos que usualmente ocurren de manera
    simultanea
  • Establecer secuencia de eventos para anticipar
    próximos eventos o comportamientos

25
Aplicaciones más comunes de DM
Apotados de Zaitz(1997) y Dyché (2000)
  • Analizas de tendencias de negocio
  • Desarrollar perfiles de poblaciones
  • Identificar mercado meta
  • Análisis de utilización
  • Afinidad de clientes por productos
  • Examinar comportamiento de clientes o usuarios
  • Identificar nuevos productos o servicios
  • Realizar investigaciones o validaciones
  • Análisis de rentabilidad
  • Pronósticos de eventos
  • Verificar efectividad de estrategias de mercadeo

26
Metodología de Data Mining

El CRISP-DM (CRoss Industry Standard Process for
Data Mining) propone el siguiente modelo como el
estándar para desarrollar DM
  • Identificar las necesidades de conocimiento
  • Evaluar la fuentes y calidad de los datos
  • Extracción y preparación de los datos
  • Selección de variables y desarrollo del modelo
  • Interpretación, evaluación y validación
  • Disponibilidad al usuario (data presentation)

27
Data Mining Process Cycle
Data cleaning
Data selection
1
2
Data presentation
Knowledge Discovery
5
3
Model development
4
Pattern evaluation
28
Algoritmos y Técnicas de DM
Según Hoffer, Prescott Mcfadden (2005) para el
desarrollo de modelos de DM se utilizan
sofisticados algoritmos como los siguientes
29
Nuevas áreas donde se utiliza DM
  • Text Mining - buscar e identificar información
    en documentos
  • Web Mining - identificar patrones de uso o
    comportamiento de usuarios en sitios Web
  • Image Miming - buscar, identificar o recopilar
    imágenes

30
Ejemplos de Aplicación de Técnicas de Data
Mining
Eliseo Gallo Albarracín
31
Ejemplos de Data Mining
  • El siguiente ejemplo, Gutiérrez 2005 presenta
    una situación relacionada con el análisis de
    créditos bancarios
  • Un banco por Internet desea obtener reglas para
    predecir qué personas de las que solicitan un
    crédito no lo devuelven.
  • La entidad bancaria cuenta con los datos
    correspondientes a los créditos concedidos con
    anterioridad a sus clientes (cuantía del crédito,
    duración en años...) y otros datos personales
    como el salario del cliente, si posee casa
    propia, etc.

ecurso imagen http//instep.typepad.com/metro_
u15_g/images/teamwork.jpg
32
Ejemplos de Data Mining Cont.
  • Algunos registros de clientes de esta base de
    datos se muestran en la tabla siguiente

Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
33
Ejemplos de Data Mining Cont.
  • Lo que busca la minería de datos, es que con
    estos datos yo pueda establecer ciertos tipos de
    reglas o condiciones para poder extraer data
    útil.
  • Por ejemplo, podríamos establecer unas reglas
    como
  • 1.
  • 2.
  • El banco podría entonces utilizar estas reglas
    para determinar las acciones a realizar en el
    trámite de los créditos si se concede o no el
    crédito solicitado, si es necesario pedir avales
    especiales, etc.

Si Cuentas-Morosas gt O
Crédito NO
Si Cuentas-Morosas O
Crédito SI
(Salariogt 2.500) v (O-créditogt 10)
34
Ejemplos de Data Mining
  • El siguiente ejemplo también citado por Gutiérrez
    2005 presenta una de los ejemplos típicos
    relacionados con un carrito de compras.
  • Un supermercado quiere obtener información sobre
    el comportamiento de compra de sus clientes.
    Piensa que de esta forma puede mejorar el
    servicio que les ofrece mediante la reubicación
    de los productos que se suelen comprar juntos,
    localizar el emplazamiento idóneo para nuevos
    productos, etc.
  • Para ello dispone de la información de los
    productosque se adquieren en cada una de las
    compras o cestas.

35
Ejemplos de Data Mining Cont.
  • Un fragmento de esta base de datos se muestra en
    la Tabla siguiente

Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
36
Ejemplos de Data Mining Cont.
Analizando estos datos el supermercado podría
encontrar, por ejemplo
  • El 100 de las veces que se compran pañales
    también se compra leche
  • Que el 50 de las veces que se compran huevos
    también se compra aceite.
  • Que el 33 de las veces que se compra vino y
    salmón entonces se compran lechugas.

Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
37
Data Mining versus otras técnicas
  • Herramientas OLAP
  • Soportan cierto análisis descriptivo y de
    sumarización que permite transformar los datos en
    otros datos agregados o cruzados de manera
    sofisticada
  • No generan reglas, patrones, pautas, es decir,
    conocimiento que pueda ser aplicado a otros
    datos.
  • Por ejemplo
  • Podemos saber estadísticamente que el 10 de los
    ancianos padecen Alzheimer.

38
Data Mining versus otras técnicas
  • Estadística
  • Algunos paquetes estadísticos son capaces de
    inferir patrones a partir de los datos
  • El problema es que resultan especialmente
    crípticos para los no estadísticos, generalmente
    no funcionan bien para la talla de las bases de
    datos actuales
  • Algunos tipos de datos frecuentes en ellos
    (atributos nominales con muchos valores, datos
    textuales, multimedia, etc.), y no se integran
    bien, los modelos estadísticos y no portan cierto
    análisis descriptivo y de sumarización que
    permite transformar los datos en otros datos
    agregados o cruzados de manera sofisticada

39
Data Mining versus otras técnicas
  • Estadística
  • En algunos casos es más adecuado utilizar
    análisis estadístico como cuando el objetivo de
    la investigación es encontrar causalidad. (Cuáles
    son las causas de ciertos efectos).
  • Las relaciones complejas que subyacen a técnicas
    de data mining impiden una interpretación
    certera de diagramas causa-efecto.
  • Si se pretende generalizar sobre poblaciones
    desconocidas y las conclusiones han de ser
    extensibles a otros elementos de poblaciones
    similares habrán de utilizarse técnicas de
    inferencia estadística.

40
Data Mining versus otras técnicas
  • Data Mining
  • En data mining, se generarán modelos y luego
    habrán de validarse con otros casos conocidos de
    la población, utilizando como significación el
    ajuste de la predicción sobre una población
    conocida.
  • A mayor dimensionalidad del problema el data
    mining ofrece mejores soluciones.
  • Cuantas más variables entran en el problema, más
    difícil resulta encontrar hipótesis de partida
    interesantes. En ese caso, utilizar técnicas de
    data mining como árboles de decisión nos
    permitirá encontrar relaciones inéditas para
    luego concretar la investigación sobre las
    variables más interesantes.

41
Ciclo del proyecto de Data Mining
Carlos A. Díaz
42
Colección de datos
  • Colocar toda la data relevante en una base de
    datos o data mart donde el análisis de data
    será aplicada.
  • Diferentes fuentes como base de datos OLTP, data
    warehouse y otros sistemas.

43
Limpieza y transformación de la data.
  • Eliminar ruido e información irrelevante
  • Modificar la data fuente en diferentes formatos
    en términos de tipo de datos y valores.
  • Transformación de tipo de datos
  • Transformación de columnas continuas
  • Agrupar
  • Conjunto, global, sumar
  • Manejar valores perdidos
  • Remover casos no normales

44
Construcción del modelo
  • Es el corazón de la minería de datos (data
    mining)
  • El enfoque correcto es construir múltiples
    modelos usando diferentes algoritmos y comparar
    la precisión de estos usando alguna herramienta.

45
Evaluación de modelos
  • Se utilizan herramientas como lift Chart para
    evaluar la precisión del modelo.
  • Se debe discutir el significado de los patrones
    descubiertos con un analista de negocio.

46
Reportes
  • Es un canal importante para la entrega de los
    hallazgos.
  • Pueden ser textuales o gráficos.
  • Pueden ser de dos tipos
  • Acerca de los patrones encontrados.
  • Acerca de predicciones

47
Predicción
  • Se necesita un modelo entrenado y un grupo de
    nuevos casos.
  • Ejemplo Prestamos en un banco
  • Se utiliza un modelo de evaluación de riesgo
  • Hay nuevos prestamos constantemente
  • Se puede utilizar el modelo de riesgo para
    predecir el riesgo potencial de los nuevos
    prestamos.

48
Integración de la aplicación
  • Es el punto clave para traer la minería de datos
    para el uso general.
  • Es la forma de aplicar la inteligencia devuelta
    al negocio y cerrar el circulo de análisis.
  • Ejemplo Amazon y la recomendación de libros.

49
Administración del modelo
  • Cada modelo de minería tiene un ciclo de vida y
    mantenerlos es un reto.
  • Seguridad definir los tipos de acceso,
    controlarlos.

50
Ejemplo de Web mining
51
Referencias
  • Enviro Tech Financial (2005) Data Warehouse
    Glossary On-Line Available http//www.etfinancia
    l.com/dataglossary.htm
  • INEI (1997) Manual de Construcción de un Data
    Warehouse On-Line Available http//www.inei.gob.
    pe/web/metodologias/attach/lib619/INDEX.HTM
  • Humprey, M. Hawkins, M., Data Warehousing,
    Prentice Hall, (1999)
  • Adelmar, S., Data Warehouse Project Management,
    Addison-Wesley, (2003)
  • Marakas, G.M.,Decision Support Systems In The
    21st Century, Prentice Hall, (2003).

52
Referencias
  • Turban,E.,Mclean,E. Wetherbe,J., Information
    technology for management, John Wiley Sons,
    (2003).
  • Hoffer, J.,Prescott, M. McFadden,F., Modern
    Database Management, 7th ed., Prentice Hall,
    (2005).
  • Ballard C., Gupta A., Krishnan V., Pessoa N,
    Stephan O. (2005). Data Mart Consolidation
    Getting Control of Your Enterprise Information.
    ibm.com/redbooks.
  • Oracle Data Mart Suite (1999). The Oracle Data
    Mart Suite Cookbook
  • Data Mart Learning Module Decision. On-line
    Available http//www-acad.sheridanc.on.ca./CSYS32S
    5/macneilm/content5.html

53
Referencias
  • www.thearling.com
  • Kurt Thearling, currently Director of Advanced
    Data Mining at Capital One, offers a broad range
    of content expository articles on the craft of
    data mining, descriptions of its applications,
    reviews of books written on the subject, related
    technological changes, legal issues and its
    strategic back drop. This site has links to some
    excellent material available elsewhere on the
    Internet. Widely credited for the quality of its
    content, this site provides a big picture of the
    data mining profession and leads a professional
    on to more specialized resources.
  •  www.kdnuggets.com
  • This is a data mining portal especially useful
    for its information on comparisons of data mining
    software. In general, this site has a wealth of
    information for data mining professionals with a
    slant towards techniques, data mining
    conferences, courses and training and consulting
    companies in the industry.
  •  www.marketingnpv.com
  • Focused on marketing, this on-line magazine is a
    rich resource with a focus on the actors in the
    data mining industry. This site is replete with
    information on the experiences of individual
    companies using data mining techniques and
    professionals in the direct marketing industry.
    It is particularly useful for marketing
    professionals looking to implement data base
    marketing in their own companies

54
Referencias
  • www-2.cs.cmu.edu/awm/tutorials/
  • This site is created by Andrew Moore, a professor
    at Carnegie Mellon University and reviews the
    major techniques, including the more advanced
    methods, used in the data mining industry. The
    information is relevant for a more advanced user
    of data mining techniques.  
  • www.the-data-mine.com/
  • This site is organized as an open on-line
    community, a watering hole for professionals,
    companies and content providers in this industry.
    Registered users are permitted to edit the
    content and add their own. This site has copious
    resources ranging from tutorials, journals,
    companies, professionals and other sources of
    information on data mining available around the
    world.
  •  
  • www.businessintelligence.com
  • This site is an excellent source for news about
    the business intelligence and data mining
    community.

55
Referencias
  • www.emetrics.org/articles.html
  • This is an excellent source of information about
    the field of web analytics or the methods used to
    understand what motivates visitors to web sites
    to buy after they have viewed the pages on a web
    site.
  •  http//www.dmreview.com/
  • A leading trade magazine, this site publishes
    features on business intelligence and analytics
    software with a focus on the vendors.
  •  www.intelligententerprise.com/
  • Another trade magazine, focused on the needs of
    the users of business intelligence software and
    their business goals.
  •  www.datawarehousingonline.com/
  • An on-line magazine, this site has a slant
    towards the infrastructure aspects of data
    mining, i.e., the data warehouses required to
    aggregate information from diverse sources.

56
Sección de Preguntas
Write a Comment
User Comments (0)
About PowerShow.com