Title: Data mart y Data mining
1Data mart y Data mining
Disponible en http//www.drts-pr.com
- Adolfo Rivera Torres, Antonio Llorens Gómez,
- Carlos A. Díaz, Eliseo Gallo Albarracín,
- José R. Colón
2Agenda
1. Conceptos de Data Mart
2. Data Mart
3. Conceptos de Data mining
4. Data mining versus otras técnicas
5. Ciclo del proyecto de Data mining
3Conceptos de Data Mart
José R. Colón
4Data Mart
- Una base de datos, o colección de bases de datos,
diseñadas para ayudar a gerentes para tomar
decisiones estratégicas sobre su negocio.
Mientras que un Data Warehouse combina bases de
datos a través de una empresa entera, los Data
Marts son por lo general más pequeños y
enfocados a una area funcional particular o
departamento (ejemplo,finanzas, mercadeo, etc).
La fuente puede ser interna, de un Data
Warehouse centralizado o externa.
http//www.webopedia.com/TERM/D/data_mart.html
5Porqué surgen
- La necesidad de análisis de información existe en
la empresa mediana, tanto como en la empresa muy
grande. - Problemas con la lentitud de las consultas y la
necesidad de darles soporte a sus usuarios no son
menores. - Lo que es diferente es el volumen de información
que debe ser sometido a análisis. - Para que los proyectos sean de tamaño razonable y
su costo aceptable, hay que ajustar algunos
conceptos de Data Warehouse. - Los Data Marts adaptan la tecnología de Data
Warehouse a la problemática de las empresas
pequeñas o departamentos.
6Objetivo
- El objetivo primario de un "Data Mart" puede ser
resumido como sigue - Proporciona acceso rápido a la información para
necesidades analíticas específicas - Acceso a la información para el usuario final
- Muestra la información contenida en las bases de
datos al usuario final, es el interfaz - Crea una visión multidimensional de los datos
para un mejor análisis - Ofrece múltiples capacidades de manejo de la data
para el análisis detallado de los datos - Guardan información pre-agregada para reducir los
tiempos de respuestas
7Data Warehouse Vs. Data Mart
- Data Warehouse
- Maneja diferentes materias y es típicamente
implementado en forma centralizada - Típicamente reúne data de muchas fuentes y
sistemas - Data Mart
- Es típicamente más pequeño y menos complejo
- Típicamente más fácil de hacer y mantener
8Data Warehouse Vs. Data Mart
9Tipos de "Data Marts"
- Dependientes Estos "Data Marts" contienen datos
que han sido directamente extraídos del Data
Warehouse. Por lo tanto, los datos son
integrados, y son consecuentes con los datos en
el Data Warehouse. - Independiente Estos "Data Marts" son
independientes, y son poblados con datos desde
fuera del Data Warehouse de fuentes
operacionales o externas.
http//download-east.oracle.com/docs/pdf/A68060_01
.pdf
10Tipos de "Data Marts"
IBM 2004 http//www.redbooks.ibm.com/redbooks/SG
246653/wwhelp/wwhimpl/js/html/wwhelp.htm
11Pasos para construir Data Mart
- Diseño? Requisitos de negocio, Requisitos y
técnicos - Construcción ? Crear estructura física y de
almacenamiento, Crear esquema - Poblar ? Crear Mapping, Extracción, Limpieza,
Cargar la data al DM, Metadata - Crear accesos ? Front end, Queries y reportes
- Manejo y administración ? Seguridad, Crecimiento
del DM, Optimizar el desempeño, Contingencia
Oracle 1999 http//download-east.oracle.com/docs
/pdf/A68060_01.pdf
12Data Mart
Adolfo Rivera Torres
13Pros/Cons de los Data Marts
Pros
- Construcción e interrogatorio rápido
- Menos costo y complejidad
- Hechos a la medida (estructura de datos,
queries, - data no interfiere entre departamentos)
- El departamento implanta lo que quiere/necesita
- Libertad para escoger que decisión apoyar sin
- interferir con otros departamentos
- Puede ser costeado con presupuesto propio
- Libertad para escoger el software para análisis
14Pros/Cons de los Data Marts
Cons
- Mantenimiento difícil/caro (hechos a la medida)
- Pierden utilidad si no se pueden hacer a la medida
- Falta de estandarización (nombres)
- Falta de integración con otros data marts
- Dificultad de crearse 1 o 2 (fácil y barato)
- Riesgos de la proliferación para la empresa
15Proliferación de Data Marts
- Cómo se impacta la Empresa?
- ?
16Proliferación de Data Marts (Independientes)
Posible Consecuencias para la Empresa
- Aumenta costo de hardware y software
- Aumenta los recursos de apoyo y mantenimiento
- Requiere el desarrollo de muchos ETLs
- Se almacena la misma data de manera
- redundante e inconsistente
- No hay un modelo ni un definición de data común
- Riesgo de tomar decisiones con data que no es
- exacta, consistente, o corriente
- La falta de integración de data entre data
marts
- Inconsistencia de los reportes
- Riesgo de tener diferentes plataformas de
- hardware y software
17Proliferación de Data Marts
Alternativas ante la proliferación
- Moverse al desarrollo de DW centralizados
- Moverse al desarrollo de data marts
dependientes que
- Su única fuente de datos sea el DW de la empresa
- Se implanten independientemente para que la
- implantación sea rápida
- Sean construidos bajo contrato de servicios
18Consolidación de Data Marts
Puntos a favor
- Simplifica la infraestructura de IT y reduce la
- complejidad
- Elimina la redundancia (información, hardware,
- software)
- Baja lo esfuerzos de mantenimiento
- Baja el costo de las licencias del software
- Se desarrolla data de mayor calidad
- Se estandariza la metadata
19Integración de DM al EDW
20Conceptos Minería de Datos Data Mining
Antonio Llorens Gómez
21Definiciones de Data Mining (DM)
- Métodos automáticos para búsqueda y extracción de
información útil en volúmenes grandes de datos.
Turban (2002) -
- Descubrir o obtener conocimiento mediante
técnicas sofisticadas que pueden derivarse de
algoritmos de estadísticas tradicionales,
inteligencia artificial y graficas en
computadoras.
Hoffer, Prescott Mcfsdden (2005). - Knowledge Discovery in Data Bases (KDD) es el
proceso de obtener conocimiento usando técnicas
de minería de datos en grandes bases de datos.
Marakas 2003.
22Cuál es el propósito de realizar DM?
Descubrir patrones significativos, relevantes e
implícitos en datos referentes a algún proceso o
actividad con el propósito de mejorar su
rendimiento y desarrollar conocimiento
- Áreas donde más se utiliza DM
- Comercio electrónico
- Mercadeo y ventas
- Control de procesos producción
- Planificación
- Apoyo en la toma de decisiones gerenciales
- Investigación y desarrollo
- Meteorología
- Biología, biotecnología y bio-informática
23Qué condiciones deben existir para DM?
- Metas estratégicas para mejorar competitividad o
necesidad de conocimiento - Volúmenes considerables de datos relevantes
- Uso de estructuras de bases de datos
- Infraestructura de IT adecuada
- Cultura analítica o de conocimiento
- Capacidad de procesamiento viable y con
proyección de aumentar (scalability) - Disponibilidad de herramientas-IT para DM
24Qué resultados se espera de DM?
Weldon (1996) indica que las metas de DM son
Explorar, Explicar y Confirmar
- Un DM efectivo es capaz de producirá lo
siguiente - Predecir o pronosticar eventos o comportamientos
- Clasificar eventos, individuos, cosas o actitudes
por grupos o patrones - Agrupar eventos, individuos, cosas o actitudes
por atributos seleccionados - Asociar eventos que usualmente ocurren de manera
simultanea - Establecer secuencia de eventos para anticipar
próximos eventos o comportamientos
25Aplicaciones más comunes de DM
Apotados de Zaitz(1997) y Dyché (2000)
- Analizas de tendencias de negocio
- Desarrollar perfiles de poblaciones
- Identificar mercado meta
- Análisis de utilización
- Afinidad de clientes por productos
- Examinar comportamiento de clientes o usuarios
- Identificar nuevos productos o servicios
- Realizar investigaciones o validaciones
- Análisis de rentabilidad
- Pronósticos de eventos
- Verificar efectividad de estrategias de mercadeo
26Metodología de Data Mining
El CRISP-DM (CRoss Industry Standard Process for
Data Mining) propone el siguiente modelo como el
estándar para desarrollar DM
- Identificar las necesidades de conocimiento
- Evaluar la fuentes y calidad de los datos
- Extracción y preparación de los datos
- Selección de variables y desarrollo del modelo
- Interpretación, evaluación y validación
- Disponibilidad al usuario (data presentation)
27 Data Mining Process Cycle
Data cleaning
Data selection
1
2
Data presentation
Knowledge Discovery
5
3
Model development
4
Pattern evaluation
28Algoritmos y Técnicas de DM
Según Hoffer, Prescott Mcfadden (2005) para el
desarrollo de modelos de DM se utilizan
sofisticados algoritmos como los siguientes
29Nuevas áreas donde se utiliza DM
- Text Mining - buscar e identificar información
en documentos - Web Mining - identificar patrones de uso o
comportamiento de usuarios en sitios Web - Image Miming - buscar, identificar o recopilar
imágenes
30Ejemplos de Aplicación de Técnicas de Data
Mining
Eliseo Gallo Albarracín
31Ejemplos de Data Mining
- El siguiente ejemplo, Gutiérrez 2005 presenta
una situación relacionada con el análisis de
créditos bancarios - Un banco por Internet desea obtener reglas para
predecir qué personas de las que solicitan un
crédito no lo devuelven. - La entidad bancaria cuenta con los datos
correspondientes a los créditos concedidos con
anterioridad a sus clientes (cuantía del crédito,
duración en años...) y otros datos personales
como el salario del cliente, si posee casa
propia, etc.
ecurso imagen http//instep.typepad.com/metro_
u15_g/images/teamwork.jpg
32Ejemplos de Data Mining Cont.
- Algunos registros de clientes de esta base de
datos se muestran en la tabla siguiente
Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
33Ejemplos de Data Mining Cont.
- Lo que busca la minería de datos, es que con
estos datos yo pueda establecer ciertos tipos de
reglas o condiciones para poder extraer data
útil. - Por ejemplo, podríamos establecer unas reglas
como - 1.
- 2.
- El banco podría entonces utilizar estas reglas
para determinar las acciones a realizar en el
trámite de los créditos si se concede o no el
crédito solicitado, si es necesario pedir avales
especiales, etc.
Si Cuentas-Morosas gt O
Crédito NO
Si Cuentas-Morosas O
Crédito SI
(Salariogt 2.500) v (O-créditogt 10)
34Ejemplos de Data Mining
- El siguiente ejemplo también citado por Gutiérrez
2005 presenta una de los ejemplos típicos
relacionados con un carrito de compras. - Un supermercado quiere obtener información sobre
el comportamiento de compra de sus clientes.
Piensa que de esta forma puede mejorar el
servicio que les ofrece mediante la reubicación
de los productos que se suelen comprar juntos,
localizar el emplazamiento idóneo para nuevos
productos, etc. - Para ello dispone de la información de los
productosque se adquieren en cada una de las
compras o cestas.
35Ejemplos de Data Mining Cont.
- Un fragmento de esta base de datos se muestra en
la Tabla siguiente
Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
36Ejemplos de Data Mining Cont.
Analizando estos datos el supermercado podría
encontrar, por ejemplo
- El 100 de las veces que se compran pañales
también se compra leche - Que el 50 de las veces que se compran huevos
también se compra aceite. - Que el 33 de las veces que se compra vino y
salmón entonces se compran lechugas.
Gutiérrez 2005, DataMining. Sistemas de
apoyo a la sistemas de apoyo a la Decisión.
37Data Mining versus otras técnicas
- Herramientas OLAP
- Soportan cierto análisis descriptivo y de
sumarización que permite transformar los datos en
otros datos agregados o cruzados de manera
sofisticada - No generan reglas, patrones, pautas, es decir,
conocimiento que pueda ser aplicado a otros
datos. - Por ejemplo
- Podemos saber estadísticamente que el 10 de los
ancianos padecen Alzheimer.
38Data Mining versus otras técnicas
- Estadística
- Algunos paquetes estadísticos son capaces de
inferir patrones a partir de los datos - El problema es que resultan especialmente
crípticos para los no estadísticos, generalmente
no funcionan bien para la talla de las bases de
datos actuales - Algunos tipos de datos frecuentes en ellos
(atributos nominales con muchos valores, datos
textuales, multimedia, etc.), y no se integran
bien, los modelos estadísticos y no portan cierto
análisis descriptivo y de sumarización que
permite transformar los datos en otros datos
agregados o cruzados de manera sofisticada
39Data Mining versus otras técnicas
- Estadística
- En algunos casos es más adecuado utilizar
análisis estadístico como cuando el objetivo de
la investigación es encontrar causalidad. (Cuáles
son las causas de ciertos efectos). - Las relaciones complejas que subyacen a técnicas
de data mining impiden una interpretación
certera de diagramas causa-efecto. - Si se pretende generalizar sobre poblaciones
desconocidas y las conclusiones han de ser
extensibles a otros elementos de poblaciones
similares habrán de utilizarse técnicas de
inferencia estadística. -
40Data Mining versus otras técnicas
- Data Mining
- En data mining, se generarán modelos y luego
habrán de validarse con otros casos conocidos de
la población, utilizando como significación el
ajuste de la predicción sobre una población
conocida. - A mayor dimensionalidad del problema el data
mining ofrece mejores soluciones. - Cuantas más variables entran en el problema, más
difícil resulta encontrar hipótesis de partida
interesantes. En ese caso, utilizar técnicas de
data mining como árboles de decisión nos
permitirá encontrar relaciones inéditas para
luego concretar la investigación sobre las
variables más interesantes.
41Ciclo del proyecto de Data Mining
Carlos A. Díaz
42Colección de datos
- Colocar toda la data relevante en una base de
datos o data mart donde el análisis de data
será aplicada. - Diferentes fuentes como base de datos OLTP, data
warehouse y otros sistemas.
43Limpieza y transformación de la data.
- Eliminar ruido e información irrelevante
- Modificar la data fuente en diferentes formatos
en términos de tipo de datos y valores. - Transformación de tipo de datos
- Transformación de columnas continuas
- Agrupar
- Conjunto, global, sumar
- Manejar valores perdidos
- Remover casos no normales
44Construcción del modelo
- Es el corazón de la minería de datos (data
mining) - El enfoque correcto es construir múltiples
modelos usando diferentes algoritmos y comparar
la precisión de estos usando alguna herramienta.
45Evaluación de modelos
- Se utilizan herramientas como lift Chart para
evaluar la precisión del modelo. - Se debe discutir el significado de los patrones
descubiertos con un analista de negocio.
46Reportes
- Es un canal importante para la entrega de los
hallazgos. - Pueden ser textuales o gráficos.
- Pueden ser de dos tipos
- Acerca de los patrones encontrados.
- Acerca de predicciones
47Predicción
- Se necesita un modelo entrenado y un grupo de
nuevos casos. - Ejemplo Prestamos en un banco
- Se utiliza un modelo de evaluación de riesgo
- Hay nuevos prestamos constantemente
- Se puede utilizar el modelo de riesgo para
predecir el riesgo potencial de los nuevos
prestamos.
48Integración de la aplicación
- Es el punto clave para traer la minería de datos
para el uso general. - Es la forma de aplicar la inteligencia devuelta
al negocio y cerrar el circulo de análisis. - Ejemplo Amazon y la recomendación de libros.
49Administración del modelo
- Cada modelo de minería tiene un ciclo de vida y
mantenerlos es un reto. - Seguridad definir los tipos de acceso,
controlarlos.
50Ejemplo de Web mining
51Referencias
- Enviro Tech Financial (2005) Data Warehouse
Glossary On-Line Available http//www.etfinancia
l.com/dataglossary.htm - INEI (1997) Manual de Construcción de un Data
Warehouse On-Line Available http//www.inei.gob.
pe/web/metodologias/attach/lib619/INDEX.HTM - Humprey, M. Hawkins, M., Data Warehousing,
Prentice Hall, (1999) - Adelmar, S., Data Warehouse Project Management,
Addison-Wesley, (2003) - Marakas, G.M.,Decision Support Systems In The
21st Century, Prentice Hall, (2003).
52Referencias
- Turban,E.,Mclean,E. Wetherbe,J., Information
technology for management, John Wiley Sons,
(2003). - Hoffer, J.,Prescott, M. McFadden,F., Modern
Database Management, 7th ed., Prentice Hall,
(2005). - Ballard C., Gupta A., Krishnan V., Pessoa N,
Stephan O. (2005). Data Mart Consolidation
Getting Control of Your Enterprise Information.
ibm.com/redbooks. - Oracle Data Mart Suite (1999). The Oracle Data
Mart Suite Cookbook - Data Mart Learning Module Decision. On-line
Available http//www-acad.sheridanc.on.ca./CSYS32S
5/macneilm/content5.html
53Referencias
- www.thearling.com
- Kurt Thearling, currently Director of Advanced
Data Mining at Capital One, offers a broad range
of content expository articles on the craft of
data mining, descriptions of its applications,
reviews of books written on the subject, related
technological changes, legal issues and its
strategic back drop. This site has links to some
excellent material available elsewhere on the
Internet. Widely credited for the quality of its
content, this site provides a big picture of the
data mining profession and leads a professional
on to more specialized resources. - www.kdnuggets.com
- This is a data mining portal especially useful
for its information on comparisons of data mining
software. In general, this site has a wealth of
information for data mining professionals with a
slant towards techniques, data mining
conferences, courses and training and consulting
companies in the industry. - www.marketingnpv.com
- Focused on marketing, this on-line magazine is a
rich resource with a focus on the actors in the
data mining industry. This site is replete with
information on the experiences of individual
companies using data mining techniques and
professionals in the direct marketing industry.
It is particularly useful for marketing
professionals looking to implement data base
marketing in their own companies
54Referencias
- www-2.cs.cmu.edu/awm/tutorials/
- This site is created by Andrew Moore, a professor
at Carnegie Mellon University and reviews the
major techniques, including the more advanced
methods, used in the data mining industry. The
information is relevant for a more advanced user
of data mining techniques. - www.the-data-mine.com/
- This site is organized as an open on-line
community, a watering hole for professionals,
companies and content providers in this industry.
Registered users are permitted to edit the
content and add their own. This site has copious
resources ranging from tutorials, journals,
companies, professionals and other sources of
information on data mining available around the
world. -
- www.businessintelligence.com
- This site is an excellent source for news about
the business intelligence and data mining
community.
55Referencias
- www.emetrics.org/articles.html
- This is an excellent source of information about
the field of web analytics or the methods used to
understand what motivates visitors to web sites
to buy after they have viewed the pages on a web
site. - http//www.dmreview.com/
- A leading trade magazine, this site publishes
features on business intelligence and analytics
software with a focus on the vendors. - www.intelligententerprise.com/
- Another trade magazine, focused on the needs of
the users of business intelligence software and
their business goals. - www.datawarehousingonline.com/
- An on-line magazine, this site has a slant
towards the infrastructure aspects of data
mining, i.e., the data warehouses required to
aggregate information from diverse sources.
56Sección de Preguntas