Title: Minera de Datos
1MinerÃa de Datos
- M.C. Juan Carlos Olivares Rojas
2Agenda
- Introducción
- El proceso de extracción del conocimiento
- Algoritmos utilizados en el proceso de minerÃa de
datos - Ejemplos
3Introducción
- Se define como un análisis de datos exploratorio.
- El propósito es buscar patrones interesantes en
los datos. Se aplican muchas técnicas
estadÃsticas para buscar estos patrones. - Se pretende buscar reglas de asociación entre las
dimensiones de una tabla.
4Introducción
- Al conjunto de todas las transacciones se le
llama población. - Cualquier regla de asociación tiene un nivel de
soporte y uno de confianza. - Soporte es el fragmento de la población que
satisface la regla.
5Introducción
- El soporte es la fracción de la población, en la
cual se cumple el antecedente, también se cumple
el consecuente. - Se pueden encontrar en otro tipo de patrones Si
un cliente compra zapatos es probable que compre
calcetines no necesariamente en la misma
transacción.
6El proceso de extracción del conocimiento
- Para la extracción del conocimiento se tiene que
hacer un preprocesado de los datos. Generalmente
dicho preprocesamiento contiene un filtro de
información, es decir, sólo se tienen los campos
y datos para nuestro almacén de datos. - Este es un proceso único dependiente del problema
a resolver.
7Algoritmos utilizados en el proceso de minerÃa de
datos
- Existen una gran infinidad de algoritmos
generalmente clasificados en dos tipos
estadÃstico y probabilÃsticos. - Los estadÃsticos funcionan con los datos de
nuestra tabla de hechos y deben devolver un
resultado expresado en probabilidad o no
obtenible mediante expresiones SQL básicas.
8Algoritmos utilizados en el proceso de minerÃa de
datos
- El algoritmo mejor conocido es el de reglas de
asociación que encuentra dependencia entre
elementos, pero existen otros algoritmos como los
de agrupamiento (clustering) como los vecinos más
cercanos o k-means que encuentran relaciones
entre grupos de objetos con ciertas afinidades.
9Algoritmos utilizados en el proceso de minerÃa de
datos
- Los algoritmos probabilÃsticos se encuentran con
técnicas en la mayorÃa de los casos más
avanzadas, como son las redes bayesianas, las
máquinas de soporte vectorial entre otros. - Los resultados de la minerÃa de datos pueden
diferir según la técnica empleada aunque los
datos sean los mismos.
10Weblog Mining
- La MinerÃa Web es simplemente aprovechar las
técnicas de MinerÃa de Datos para obtener
conocimiento de la información disponible en
Internet. - Algunas áreas de aplicación
- Mejorar el diseño de la estructura de un sitio
Web.
11Weblog Mining
- Planear campañas de marketing orientadas al
comercio electrónico. - Mejorar sistemas, ya sea en la calidad del
desempeño o la seguridad. - Identificar patrones de acceso a recursos Web con
el objetivo de seleccionar archivos para el
acaparamiento en dispositivos inalámbricos.
12Weblog Mining
13Weblog Mining
Bitácora a nivel de contenido
14Weblog Mining
15Weblog Mining
16Weblog Mining
Fase 2. Identificación de Sesiones
Base de Datos Repositorio
Identificación del formato de la bitácora
Limpieza de bitácoras
Fase 1. Recolección y Pre-procesamiento
Fase 3. MinerÃa de Datos
Fase 4. Recolección de estructuras
Fase 5. Análisis gráfico de los resultados
Fase 6. Aplicación del conocimiento
17Weblog Mining
- Una vez que se tienen objetos minables, la gama
de métodos para descubrir patrones va desde el
simple análisis estadÃstico hasta métodos
complejos como algoritmos de minerÃa de datos. - Para este trabajo se implementó el algoritmo de
minerÃa de reglas de asociación A-priori e Ãtems
frecuentes.
18Weblog Mining
19Weblog Mining
Esquema de almacenamiento de bitácoras
Esquema de almacenamiento de reglas
20Weblog Mining
Carga de estructuras de sitios Web
Un grafo recortado
Estructura de un sitio Web
21Weblog Mining
cenidet.edu.mx Agosto 2004
22Clustering
23Clustering
d(yi, Cj) (yi - Cj)T (yi - Cj) ?d l1 (yli
Clj)2 d(y1 c1) (y1 c1)T(y1 c1)
?2l1(yl1,cl1) (y11 C11)2 (y21 C21)2
24Referencias
- Date C. (2001), Introducción a los sistemas de
base de datos, 7a. Edición, Pearson educación,
México, 2001, ISBN 968-444-419-2, pp. 709-725. - Hernández, G. (2005) Generador de patrones de
navegación de usuario aplicando Web Log Mining en
cliente/servidor, Tesis de MaestrÃa, CENIDET
2005.
25Referencias
- Olivares, J. y Ponce I. (2005). Programación del
algoritmo de agrupamiento K-means en SQL. CENIDET
Laboratorio de Sistemas Distribuidos.
26Preguntas, dudas y comentarios?