Title: Descoberta de Conhecimento em Bases de Dados e Minera
1Descoberta de Conhecimento em Bases de Dadose
Mineração de Dados
- Ricardo Bezerra de Andrade e Silva
- rbas_at_di.ufpe.br
2Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Exemplo preliminar
3Problema
- Um problema do mundo dos negócios entender o
perfil dos clientes - para desenvolvimento de novos produtos
- para controle de estoque em postos de
distribuição - propaganda mal direcionada gera maiores gastos e
desestimula o possível interessado a procurar as
ofertas adequadas - Quais são meus clientes típicos?
Prólogo
4Situação
- A empresa possui registro de todas as transações
efetuadas - O conteúdo desse banco de dados possui informação
suficiente para categorizar diferentes
comportamentos - Mas como aproveitar este conteúdo?
- Afogados em dados, mas mendigando por
informação - Solução apoio em ferramentas de análise
automatizada
Prólogo
5Definição da tarefa
- Tarefa escolhida segmentação de mercado
consumidor para auxílio a marketing - Categorias (classes)
- produtos de esporte
- equipamentos de exercício
- eletrodomésticos
- produtos de entretenimento
- produtos para o lar
Prólogo
6Seleção de dados
- Utilizando o conhecimento que dispõe do domínio,
o analista responsável decide que todas as
informações necessárias encontram-se nas
seguintes tabelas - clientes nome, identificação, idade, sexo,
estado civil, endereço, renda, proprietário da
casa - produtos nome, identificação, preço, categoria,
quantidade em estoque, quantidade encomendada - transações identificador de cliente,
identificador de produto, data e hora, quantidade
Prólogo
7Seleção de Dados (II)
- Agrupando informações em uma única tabela
Prólogo
8Aplicação de algoritmo
- Decidiu-se aplicar um algoritmo de aprendizado
para agrupar os clientes em quatro conjuntos - ex. rede de Kohonen do tipo vector quantization
- A idéia do algoritmo é dispor, em conjuntos,
clientes que apresentem aspectos similares - Posteriormente, os dados são organizados em uma
planilha, onde o número do grupo (1, 2, 3, ou 4)
é utilizado como chave primária - A planilha calcula estatísticas de cada grupo,
comparando-as com toda população
Prólogo
9Alguns resultados (I)
Prólogo
10Alguns resultados (II)
Prólogo
11Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Motivação
12Motivação
- A informatização dos meios produtivos permitiu a
geração de grandes volumes de dados - Transações eletrônicas
- Novos equipamentos científicos e industriais para
observação e controle - Dispositivos de armazenamento em massa
- O uso adequado da informação permite ganho de
competitividade conhecimento é poder,
Motivação
13Motivação
- Os recursos de análise de dados tradicionais são
inviáveis para acompanhar esta evolução - processo iterativo de criação, teste e
refinamento de hipóteses - Tornam-se necessários novos métodos capazes de
automatizar parte deste processo - busca em um espaço de hipóteses
Motivação
14Descoberta de Conhecimento em Bancos de Dados
- O processo não trivial de extração de
informações implícitas, anteriormente
desconhecidas, e potencialmente úteis de uma
fonte de dados - Torture os dados até eles confessarem
- Envolve a etapa de mineração de dados a
aplicação de algoritmos de análise de dados
Motivação
15Interesse em Ascensão
- International Conference onKnowledge Discovery
and Data Mining - Junho de 1998 ACM SIGKDD
- Algumas companhias envolvidas
- IBM
- Microsoft
- SAS Institute
- Silicon Graphics
Motivação
16Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Conceitos básicos
17O Que é Um Padrão Interessante?
- Válido
- Novo
- Útil
- Interpretável
Conhecimento, sobre a ótica de KDD (Fayyad et
al., 1996)
Conhecimento X f(X, V, N, U, I) gt T
18KDD x Data Mining
- Mineração de dados é o passo do processo de KDD
que produz um conjunto de padrões sob um custo
computacional aceitável - KDD utiliza algoritmos de data mining para
extrair padrões classificados como
conhecimento. Incorpora também tarefas como
escolha do algoritmo adequado, processamento e
amostragem de dados e interpretação de resultados
Conceitos
19Processo
Compreensão do domínio e dos objetivos da
tarefa Criação do conjunto de dados envolvendo
as variáveis necessárias
Escolha e execução do algoritmo de acordo com a
tarefa a ser cumprida
Operações como identificação de ruídos, outliers,
como tratar falta de dados em alguns campos, etc.
Interpretação dos resultados, com possível
retorno aos passos anteriores
Redução de dimensionalidade, combinação de
atributos
Consolidação incorporação e documentação do
conhecimento e comunicação aos interessados
Conceitos
20Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Métodos de data mining
21Métodos de mineração de dados campos
relacionados (I)
- Inteligência Artificial
- aprendizado de máquina
- representação de conhecimento e inferência
- Estatística
- inferência estatística
- análise exploratória de dados
- Computação gráfica
- visualização de dados
Métodos
22Métodos de mineração de dados campos
relacionados (II)
- Bancos de dados
- linguagens de consulta
- o que é uma descoberta, afinal? Exibir todos os
empregados que ganham dentro de uma determinada
faixa salarial é uma descoberta? - armazém de dados (data warehousing)
- processamento analítico on-line (OLAP)
- paralelização de processos
- tendências
- consultas por similaridade
- consultas de classificadores, grupos e outros
objetos
Métodos
23Métodos de mineração de dados
- Métodos de mineração de dados normalmente são
extensões ou combinações de uns poucos métodos
fundamentais - Porém, não é viável a criação de um único método
universal cada algoritmo possui sua própria
tendência indutiva
Métodos
24Tarefas básicas
- Previsão
- Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de
explicação - É comumente visada em aprendizado de
máquina/estatística - Exemplos classificação e regressão
Métodos
25Tarefas básicas
- Descrição
- Reportar relações entre as variáveis do modelo de
forma simétrica - À princípio, está mais relacionada ao processo de
KDD - Exemplos agrupamento, sumarização (incluindo
sumário de textos), dependências, análise de
desvio
Métodos
26Exemplo de previsão (I)
Análise de crédito
- Um hiperplano paralelo de separação pode ser
interpretado diretamente como uma regra - se a renda é menor que t, então o crédito não
deve ser liberado - Exemplo
- árvores de decisão
- indução de regras
Métodos
27Exemplo de previsão (II)
Análise de crédito
- Hiperplano oblíquo melhor separação
- Exemplos
- regressão linear
- perceptron
Métodos
28Exemplo de previsão (III)
Análise de crédito
- Superfície não linear melhor poder de
classificação, pior interpretação - Exemplos
- perceptrons multicamadas
- regressão não-linear
Métodos
29Exemplo de previsão (IV)
Análise de crédito
- Métodos baseado em exemplos
- Exemplos
- k-vizinhos mais próximos
- raciocínio baseado em casos
Métodos
30Exemplo de descrição (I)
Análise de crédito
- Agrupamento
- Exemplo
- vector quantization
Métodos
31Exemplo de descrição (II)
- Regras de associação
- 98 dos consumidores que adquiriram pneus e
acessórios de automóveis também se interessaram
por serviços automotivos - descoberta simétrica de relações, ao contrário de
métodos de classificação - qualquer atributo pode ser uma classe ou um
atributo de discriminação
Métodos
32Exemplo de descrição (III)
- Previsão de séries temporais
Identificação dos investimentos mais promissores
nos próximos 30 dias
Métodos
33Garimpando resultados
- Transformar 1.000.000 de registros em mil regras
é bom, mas... - o que fazer com estas 1000 regras?
- Medidas de utilidade
- subjetivas
- dependentes de domínio
- demanda especialistas com tempo livre
- objetivas
- mais independentes
- um dos pontos chaves de KDD
Métodos
34Medidas objetivas de utilidade grau de surpresa
- Validade
- utilizando limiares de confiança, apenas as
regras (por exemplo) mais importantes seriam
apresentadas - E as exceções?
- informações úteis não estão simplesmente nas
regularidade mais comuns. Padrões inesperados
podem também ser úteis - Exemplo de método
- visualização de grupos de outliers
Métodos
35Exemplo algoritmo para regras de pequeno alcance
(I)
- São regras que cobrem apenas uma pequena
quantidade de dados - potencial para descrever relações interessantes e
anteriormente despercebidas - porém, são facilmente descartadas em filtragens
por limiar de grau de cobertura - como distingui-las de ruído?
- Idéia do algoritmo
- criar pequenas generalizações das regras em
estudo e comparar a cobertura obtida
Métodos
36Exemplo algoritmo para regras de pequeno alcance
(II)
- Algoritmo
- para cada antecedente a de uma regra
- se a é categórico, retire-o da regra
- se a é contínuo, aumente o intervalo no qual o
antecedente é válido - conte o número D de vezes em que a classe obtida
é diferente da classe da regra original - calcule uma medida M em função de D e do total de
antecedentes N. - exemplo M D/N
- valores altos de M tenderão a capturar as
relações mais úteis
Métodos
37Escalabilidadetécnicas para acelerar um processo
KDD
- Amostragem
- redução de precisão
- Algoritmos distribuídos
- particionar o banco de dados em p partições
- utilizar um processador diferente para cada
partição - utilizar um método de combinação de resultados
- Paralelismo (intra-algorítimico)
Métodos
38O perigo da falta de análiseparadoxo de Simpson
(I)
Hospital A
Hospital B
Morreram Sobreviveram
63 2037
16 784
Total
2100
800
Métodos
39O perigo da falta de análiseparadoxo de Simpson
(II)
Hosp. A
Hosp. B
Boas condições
O hospital A é melhor!
Morreram Sobreviveram
6 594
8 592
- Números x Bom-senso Lies, Damned Lies, and
Statistics
Total
600
600
Hosp. A
Hosp. B
Más condições
Morreram Sobreviveram
57 1443
8 192
...and data mining?
Total
1500
200
Métodos
40A busca por causalidade
- Correlação não é o mesmo que causalidade
- lama e chuva são dois conceitos relacionados,
mas como inferir que um é causa do outro? - A média de idade da Flórida é grande. O clima da
Flórida faz as pessoas viverem mais? - Explicação plausível muitas pessoas mudam-se pra
lá quando se aposentam - Experimentos controlados
Métodos
41Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Exemplos de aplicação
42SKICAT (Sky Image Cataloging and Analysis Tool)
- Digital Palomar Observatory Sky Survey
- banco de dados com três terabytes de imagens da
ordem de dois bilhões de objetos celestes - Tarefas
- diferenciar estrelas de galáxias
- uma vez classificadas, análise científicas mais
específicas são aplicadas - classificar objetos de brilho fraco
Aplicações
43SKICAT algoritmo de aprendizado
- Regras extraídas de algoritmos de geração de
árvores originam-se de uma única árvore - RULER
- alternativa geração de várias árvores. Somente
as melhores regras de cada árvore são mantidas - Divide-se a base de dados em vários conjuntos
treinamento (para árvores) e teste (para regras) - Podando regras calcula-se a chance de que uma
dada premissa esteja correlacionada com a classe
especificada por pura sorte - Produz-se, assim, uma base robusta de regras
- Redução da base por um algoritmo de cobertura de
conjuntos
Aplicações
44SKICAT pré-processamento
- Em problemas de classificação, a escolha dos
atributos utilizados para definir exemplos é o
fator mais determinante do sucesso ou fracasso do
processo de aprendizado - garbage in, garbage out
- Uso de um programa público de processamento de
imagens - baseado nos agrupamentos de pixels constituindo
cada objeto detectado, produzem-se os atributos
básicos discriminadores - ex, brilho e orientação
Aplicações
45SKICAT Gerenciando o conhecimento
- Catálogo de objetos on-line utilizando-se um
gerenciador de banco de dados - permitir ao usuário localizar corpos celestes e
consultar informações dos mesmos - Casamento de objetos obtidos de fontes diferentes
Aplicações
46Kefir (Key Findings Reporter)
- Análise de desvios
- descoberta de diferenças significativas entre
valores medidos e valores anteriores ou padrões - Funções do Kefir
- descobrir, explicar e relatar derivações chave
- Finding
- Conjunto de valores relacionados (atual,
anteriores, padrão) de uma dada medida
Aplicações
47Health-Kefir
- Motivação organizações precisam controlar gastos
com saúde, planejando medidas que venham a
diminuir gastos futuros. MAS,... - gasta-se muito tempo preparando-se relatórios,
perdendo-se oportunidade importantes - Oportunidade para análise automática de dados
- métodos do mercado de saúde baseiam-se em medidas
padrões de vários aspectos, como preço, uso e
qualidade - dimensões principais
- população empregados de uma empresa, moradores
de um bairro... - área de estudo nascimentos prematuros,
internações... - medidas tempo de internação...
Aplicações
48Health-Kefir
- O grau de interesse em um desvio está diretamente
relacionado ao benefício atingível através das
ações possíveis - os desvios interessantes são aqueles que indicam
problemas que podem ser corrigidos - significância estatística
- Pagamentos_por_caso
- desvios crescentes desta medida são altamente
relevantes para o sistema Health-Kefir - como reduzir custos futuros
Aplicações
49Health-Kefir
- Cálculo de desvio para cada setor e subsetor
- extrapolação linear
Aplicações
50Health-Kefir
- Explicações
- identificação do subsetor(es) mais
responsável(is) pelo desvio encontrado - recursivo
Aplicações
51Health-Kefir
- Recomendação
- os relatórios preparados precisam indicar
soluções - uso de conhecimento de domínio para realizar tal
tarefa
SE medida admissão_por_1000 E setor
partos_prematuros E percentagem_mudança gt
0.10 RECOMENDE Iniciar um programa de
acompanhamento pré-natal COM percentagem_de_econo
mia 0.6
Aplicações
52Health-Kefir exemplo de saída
Admissões médicas
O tempo médio de permanência nesta área de estudo
cresceu 22,6, de 4,1 a 5,1. Em torno de 36.000
poderiam ser economizados se o tempo médio de
permanência se mantivesse no valor esperado de
4,9. Se esta tendência permanecer, resultará em
gastos adicionais de 263.000 de despesas
adicionais. Explicações o aumento desta medida
está relacionada ao aumento do tempo médio de
permanência, no Medical Nervous System, em
247,9, de 4.4 para 15.2. Recomendação
... Economia prevista 79.000
Aplicações
53Roteiro
- Exemplo preliminar
- Motivação
- Conceitos básicos
- Métodos de mineração de dados
- Exemplos de aplicação
- Conclusão
Conclusão
54Diretrizes
- Onde o processo de descoberta de conhecimento
deve ser aplicado? - A tarefa é propícia ao estudo de novos
experimentos - não há nenhuma outra boa alternativa de análise
de dados - disponibilidade de dados suficientes
- com nível aceitável de ruído
- sem problemas de ordem jurídica
- especialistas disponíveis para
- avaliação do grau de interesse das descobertas
obtidas - seleção de atributos
- descrição de conhecimento a priori em geral
Conclusão
55Sumário das aplicações apresentadas
- Marketing
- agrupamento
- SKICAT
- classificação
- Health-Kefir
- análise de desvio com sistema baseado em
conhecimento
Conclusão
56Endereços interessantes
- KDNuggets Directory
- http//www.kdnuggets.com
- The Data Mine
- http//www.cs.bham.ac.uk/anp/TheDataMine.html
- Microsoft Decision Theory and Adaptive Systems
- http//research.microsoft.com/dtas/
- DBMiner demonstração
- http//db.cs.sfu.ca/DBMiner/dbmdemo.html
Conclusão
57Referências
- Bigus, J. (1995). Data Mining with Neural
Networks. McGraw-Hill. - Fayyad, U. Haussler, D. Stolorz, P. (1996).
"KDD for Science Data Analysis Issues and
Examples. Proceedings of Second International
Conference on Knowledge Discovery and Data Mining
(KDD-96), AAAI Press. Disponível no endereço
http//research.microsoft.com/ fayyad. - Fayyad, U. M. Piatesky-Shapiro, G. Smyth, P.
(1995). From Data Mining to Knowledge Discovery
An Overview, em Advances in Knowledge Discovery
and Data Mining. AAAI Press. - Freitas, A. A. (1997). On objective measures of
rule surprisingness. Em Proceedings of the 2nd
European Symposium Principles of Data Mining and
Knowledge Discovery. Disponível no endereço
http//dainf.cefetpr.br/alex/thesis.html.
58Referências
- Imielinski, T Mannila, H. (1996). A Database
Perspective on Knowledge Discovery.
Communications of the ACM, volume 39, número 11. - Matheus, C. Piateteky-Shapiro, G. McNeill, D.
(1995). Selecting and Reporting What is
Interesting. Em Advances in Knowledge Discovery
and Data Mining. AAAI Press. - Spirtes, P. Glymour, C Scheines, R. (1993).
Causation, Prediction and Search. Lecture Notes
in Statistics, 83. Springer-Verlarg. Disponível
no endereço http//hss.cmu.edu/html/departments/
philosophy/TETRAD.BOOK/book.html