Descoberta de Conhecimento em Bases de Dados e Minera - PowerPoint PPT Presentation

1 / 58
About This Presentation
Title:

Descoberta de Conhecimento em Bases de Dados e Minera

Description:

Title: Data Mining Author: Ricardo Bezerra Last modified by: jhbg Created Date: 10/2/1998 1:36:32 PM Document presentation format: Apresenta o na tela – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 59
Provided by: Ricardo191
Category:

less

Transcript and Presenter's Notes

Title: Descoberta de Conhecimento em Bases de Dados e Minera


1
Descoberta de Conhecimento em Bases de Dadose
Mineração de Dados
  • Ricardo Bezerra de Andrade e Silva
  • rbas_at_di.ufpe.br

2
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Exemplo preliminar
3
Problema
  • Um problema do mundo dos negócios entender o
    perfil dos clientes
  • para desenvolvimento de novos produtos
  • para controle de estoque em postos de
    distribuição
  • propaganda mal direcionada gera maiores gastos e
    desestimula o possível interessado a procurar as
    ofertas adequadas
  • Quais são meus clientes típicos?

Prólogo
4
Situação
  • A empresa possui registro de todas as transações
    efetuadas
  • O conteúdo desse banco de dados possui informação
    suficiente para categorizar diferentes
    comportamentos
  • Mas como aproveitar este conteúdo?
  • Afogados em dados, mas mendigando por
    informação
  • Solução apoio em ferramentas de análise
    automatizada

Prólogo
5
Definição da tarefa
  • Tarefa escolhida segmentação de mercado
    consumidor para auxílio a marketing
  • Categorias (classes)
  • produtos de esporte
  • equipamentos de exercício
  • eletrodomésticos
  • produtos de entretenimento
  • produtos para o lar

Prólogo
6
Seleção de dados
  • Utilizando o conhecimento que dispõe do domínio,
    o analista responsável decide que todas as
    informações necessárias encontram-se nas
    seguintes tabelas
  • clientes nome, identificação, idade, sexo,
    estado civil, endereço, renda, proprietário da
    casa
  • produtos nome, identificação, preço, categoria,
    quantidade em estoque, quantidade encomendada
  • transações identificador de cliente,
    identificador de produto, data e hora, quantidade

Prólogo
7
Seleção de Dados (II)
  • Agrupando informações em uma única tabela

Prólogo
8
Aplicação de algoritmo
  • Decidiu-se aplicar um algoritmo de aprendizado
    para agrupar os clientes em quatro conjuntos
  • ex. rede de Kohonen do tipo vector quantization
  • A idéia do algoritmo é dispor, em conjuntos,
    clientes que apresentem aspectos similares
  • Posteriormente, os dados são organizados em uma
    planilha, onde o número do grupo (1, 2, 3, ou 4)
    é utilizado como chave primária
  • A planilha calcula estatísticas de cada grupo,
    comparando-as com toda população

Prólogo
9
Alguns resultados (I)
Prólogo
10
Alguns resultados (II)
Prólogo
11
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Motivação
12
Motivação
  • A informatização dos meios produtivos permitiu a
    geração de grandes volumes de dados
  • Transações eletrônicas
  • Novos equipamentos científicos e industriais para
    observação e controle
  • Dispositivos de armazenamento em massa
  • O uso adequado da informação permite ganho de
    competitividade conhecimento é poder,

Motivação
13
Motivação
  • Os recursos de análise de dados tradicionais são
    inviáveis para acompanhar esta evolução
  • processo iterativo de criação, teste e
    refinamento de hipóteses
  • Tornam-se necessários novos métodos capazes de
    automatizar parte deste processo
  • busca em um espaço de hipóteses

Motivação
14
Descoberta de Conhecimento em Bancos de Dados
  • O processo não trivial de extração de
    informações implícitas, anteriormente
    desconhecidas, e potencialmente úteis de uma
    fonte de dados
  • Torture os dados até eles confessarem
  • Envolve a etapa de mineração de dados a
    aplicação de algoritmos de análise de dados

Motivação
15
Interesse em Ascensão
  • International Conference onKnowledge Discovery
    and Data Mining
  • Junho de 1998 ACM SIGKDD
  • Algumas companhias envolvidas
  • IBM
  • Microsoft
  • SAS Institute
  • Silicon Graphics

Motivação
16
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Conceitos básicos
17
O Que é Um Padrão Interessante?
  • Válido
  • Novo
  • Útil
  • Interpretável

Conhecimento, sobre a ótica de KDD (Fayyad et
al., 1996)
Conhecimento X f(X, V, N, U, I) gt T
18
KDD x Data Mining
  • Mineração de dados é o passo do processo de KDD
    que produz um conjunto de padrões sob um custo
    computacional aceitável
  • KDD utiliza algoritmos de data mining para
    extrair padrões classificados como
    conhecimento. Incorpora também tarefas como
    escolha do algoritmo adequado, processamento e
    amostragem de dados e interpretação de resultados

Conceitos
19
Processo
Compreensão do domínio e dos objetivos da
tarefa Criação do conjunto de dados envolvendo
as variáveis necessárias
Escolha e execução do algoritmo de acordo com a
tarefa a ser cumprida
Operações como identificação de ruídos, outliers,
como tratar falta de dados em alguns campos, etc.
Interpretação dos resultados, com possível
retorno aos passos anteriores
Redução de dimensionalidade, combinação de
atributos
Consolidação incorporação e documentação do
conhecimento e comunicação aos interessados
Conceitos
20
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Métodos de data mining
21
Métodos de mineração de dados campos
relacionados (I)
  • Inteligência Artificial
  • aprendizado de máquina
  • representação de conhecimento e inferência
  • Estatística
  • inferência estatística
  • análise exploratória de dados
  • Computação gráfica
  • visualização de dados

Métodos
22
Métodos de mineração de dados campos
relacionados (II)
  • Bancos de dados
  • linguagens de consulta
  • o que é uma descoberta, afinal? Exibir todos os
    empregados que ganham dentro de uma determinada
    faixa salarial é uma descoberta?
  • armazém de dados (data warehousing)
  • processamento analítico on-line (OLAP)
  • paralelização de processos
  • tendências
  • consultas por similaridade
  • consultas de classificadores, grupos e outros
    objetos

Métodos
23
Métodos de mineração de dados
  • Métodos de mineração de dados normalmente são
    extensões ou combinações de uns poucos métodos
    fundamentais
  • Porém, não é viável a criação de um único método
    universal cada algoritmo possui sua própria
    tendência indutiva

Métodos
24
Tarefas básicas
  • Previsão
  • Cálculo de variáveis de interesse a partir dos
    valores de um conjunto de variáveis de
    explicação
  • É comumente visada em aprendizado de
    máquina/estatística
  • Exemplos classificação e regressão

Métodos
25
Tarefas básicas
  • Descrição
  • Reportar relações entre as variáveis do modelo de
    forma simétrica
  • À princípio, está mais relacionada ao processo de
    KDD
  • Exemplos agrupamento, sumarização (incluindo
    sumário de textos), dependências, análise de
    desvio

Métodos
26
Exemplo de previsão (I)
Análise de crédito
  • Um hiperplano paralelo de separação pode ser
    interpretado diretamente como uma regra
  • se a renda é menor que t, então o crédito não
    deve ser liberado
  • Exemplo
  • árvores de decisão
  • indução de regras

Métodos
27
Exemplo de previsão (II)
Análise de crédito
  • Hiperplano oblíquo melhor separação
  • Exemplos
  • regressão linear
  • perceptron

Métodos
28
Exemplo de previsão (III)
Análise de crédito
  • Superfície não linear melhor poder de
    classificação, pior interpretação
  • Exemplos
  • perceptrons multicamadas
  • regressão não-linear

Métodos
29
Exemplo de previsão (IV)
Análise de crédito
  • Métodos baseado em exemplos
  • Exemplos
  • k-vizinhos mais próximos
  • raciocínio baseado em casos

Métodos
30
Exemplo de descrição (I)
Análise de crédito
  • Agrupamento
  • Exemplo
  • vector quantization

Métodos
31
Exemplo de descrição (II)
  • Regras de associação
  • 98 dos consumidores que adquiriram pneus e
    acessórios de automóveis também se interessaram
    por serviços automotivos
  • descoberta simétrica de relações, ao contrário de
    métodos de classificação
  • qualquer atributo pode ser uma classe ou um
    atributo de discriminação

Métodos
32
Exemplo de descrição (III)
  • Previsão de séries temporais

Identificação dos investimentos mais promissores
nos próximos 30 dias
Métodos
33
Garimpando resultados
  • Transformar 1.000.000 de registros em mil regras
    é bom, mas...
  • o que fazer com estas 1000 regras?
  • Medidas de utilidade
  • subjetivas
  • dependentes de domínio
  • demanda especialistas com tempo livre
  • objetivas
  • mais independentes
  • um dos pontos chaves de KDD

Métodos
34
Medidas objetivas de utilidade grau de surpresa
  • Validade
  • utilizando limiares de confiança, apenas as
    regras (por exemplo) mais importantes seriam
    apresentadas
  • E as exceções?
  • informações úteis não estão simplesmente nas
    regularidade mais comuns. Padrões inesperados
    podem também ser úteis
  • Exemplo de método
  • visualização de grupos de outliers

Métodos
35
Exemplo algoritmo para regras de pequeno alcance
(I)
  • São regras que cobrem apenas uma pequena
    quantidade de dados
  • potencial para descrever relações interessantes e
    anteriormente despercebidas
  • porém, são facilmente descartadas em filtragens
    por limiar de grau de cobertura
  • como distingui-las de ruído?
  • Idéia do algoritmo
  • criar pequenas generalizações das regras em
    estudo e comparar a cobertura obtida

Métodos
36
Exemplo algoritmo para regras de pequeno alcance
(II)
  • Algoritmo
  • para cada antecedente a de uma regra
  • se a é categórico, retire-o da regra
  • se a é contínuo, aumente o intervalo no qual o
    antecedente é válido
  • conte o número D de vezes em que a classe obtida
    é diferente da classe da regra original
  • calcule uma medida M em função de D e do total de
    antecedentes N.
  • exemplo M D/N
  • valores altos de M tenderão a capturar as
    relações mais úteis

Métodos
37
Escalabilidadetécnicas para acelerar um processo
KDD
  • Amostragem
  • redução de precisão
  • Algoritmos distribuídos
  • particionar o banco de dados em p partições
  • utilizar um processador diferente para cada
    partição
  • utilizar um método de combinação de resultados
  • Paralelismo (intra-algorítimico)

Métodos
38
O perigo da falta de análiseparadoxo de Simpson
(I)
Hospital A
Hospital B
Morreram Sobreviveram
63 2037
16 784
Total
2100
800
Métodos
39
O perigo da falta de análiseparadoxo de Simpson
(II)
Hosp. A
Hosp. B
Boas condições
O hospital A é melhor!
Morreram Sobreviveram
6 594
8 592
  • Números x Bom-senso Lies, Damned Lies, and
    Statistics

Total
600
600
Hosp. A
Hosp. B
Más condições
Morreram Sobreviveram
57 1443
8 192
...and data mining?
Total
1500
200
Métodos
40
A busca por causalidade
  • Correlação não é o mesmo que causalidade
  • lama e chuva são dois conceitos relacionados,
    mas como inferir que um é causa do outro?
  • A média de idade da Flórida é grande. O clima da
    Flórida faz as pessoas viverem mais?
  • Explicação plausível muitas pessoas mudam-se pra
    lá quando se aposentam
  • Experimentos controlados

Métodos
41
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Exemplos de aplicação
42
SKICAT (Sky Image Cataloging and Analysis Tool)
  • Digital Palomar Observatory Sky Survey
  • banco de dados com três terabytes de imagens da
    ordem de dois bilhões de objetos celestes
  • Tarefas
  • diferenciar estrelas de galáxias
  • uma vez classificadas, análise científicas mais
    específicas são aplicadas
  • classificar objetos de brilho fraco

Aplicações
43
SKICAT algoritmo de aprendizado
  • Regras extraídas de algoritmos de geração de
    árvores originam-se de uma única árvore
  • RULER
  • alternativa geração de várias árvores. Somente
    as melhores regras de cada árvore são mantidas
  • Divide-se a base de dados em vários conjuntos
    treinamento (para árvores) e teste (para regras)
  • Podando regras calcula-se a chance de que uma
    dada premissa esteja correlacionada com a classe
    especificada por pura sorte
  • Produz-se, assim, uma base robusta de regras
  • Redução da base por um algoritmo de cobertura de
    conjuntos

Aplicações
44
SKICAT pré-processamento
  • Em problemas de classificação, a escolha dos
    atributos utilizados para definir exemplos é o
    fator mais determinante do sucesso ou fracasso do
    processo de aprendizado
  • garbage in, garbage out
  • Uso de um programa público de processamento de
    imagens
  • baseado nos agrupamentos de pixels constituindo
    cada objeto detectado, produzem-se os atributos
    básicos discriminadores
  • ex, brilho e orientação

Aplicações
45
SKICAT Gerenciando o conhecimento
  • Catálogo de objetos on-line utilizando-se um
    gerenciador de banco de dados
  • permitir ao usuário localizar corpos celestes e
    consultar informações dos mesmos
  • Casamento de objetos obtidos de fontes diferentes

Aplicações
46
Kefir (Key Findings Reporter)
  • Análise de desvios
  • descoberta de diferenças significativas entre
    valores medidos e valores anteriores ou padrões
  • Funções do Kefir
  • descobrir, explicar e relatar derivações chave
  • Finding
  • Conjunto de valores relacionados (atual,
    anteriores, padrão) de uma dada medida

Aplicações
47
Health-Kefir
  • Motivação organizações precisam controlar gastos
    com saúde, planejando medidas que venham a
    diminuir gastos futuros. MAS,...
  • gasta-se muito tempo preparando-se relatórios,
    perdendo-se oportunidade importantes
  • Oportunidade para análise automática de dados
  • métodos do mercado de saúde baseiam-se em medidas
    padrões de vários aspectos, como preço, uso e
    qualidade
  • dimensões principais
  • população empregados de uma empresa, moradores
    de um bairro...
  • área de estudo nascimentos prematuros,
    internações...
  • medidas tempo de internação...

Aplicações
48
Health-Kefir
  • O grau de interesse em um desvio está diretamente
    relacionado ao benefício atingível através das
    ações possíveis
  • os desvios interessantes são aqueles que indicam
    problemas que podem ser corrigidos
  • significância estatística
  • Pagamentos_por_caso
  • desvios crescentes desta medida são altamente
    relevantes para o sistema Health-Kefir
  • como reduzir custos futuros

Aplicações
49
Health-Kefir
  • Cálculo de desvio para cada setor e subsetor
  • extrapolação linear

Aplicações
50
Health-Kefir
  • Explicações
  • identificação do subsetor(es) mais
    responsável(is) pelo desvio encontrado
  • recursivo

Aplicações
51
Health-Kefir
  • Recomendação
  • os relatórios preparados precisam indicar
    soluções
  • uso de conhecimento de domínio para realizar tal
    tarefa

SE medida admissão_por_1000 E setor
partos_prematuros E percentagem_mudança gt
0.10 RECOMENDE Iniciar um programa de
acompanhamento pré-natal COM percentagem_de_econo
mia 0.6
Aplicações
52
Health-Kefir exemplo de saída
Admissões médicas
O tempo médio de permanência nesta área de estudo
cresceu 22,6, de 4,1 a 5,1. Em torno de 36.000
poderiam ser economizados se o tempo médio de
permanência se mantivesse no valor esperado de
4,9. Se esta tendência permanecer, resultará em
gastos adicionais de 263.000 de despesas
adicionais. Explicações o aumento desta medida
está relacionada ao aumento do tempo médio de
permanência, no Medical Nervous System, em
247,9, de 4.4 para 15.2. Recomendação
... Economia prevista 79.000
Aplicações
53
Roteiro
  • Exemplo preliminar
  • Motivação
  • Conceitos básicos
  • Métodos de mineração de dados
  • Exemplos de aplicação
  • Conclusão

Conclusão
54
Diretrizes
  • Onde o processo de descoberta de conhecimento
    deve ser aplicado?
  • A tarefa é propícia ao estudo de novos
    experimentos
  • não há nenhuma outra boa alternativa de análise
    de dados
  • disponibilidade de dados suficientes
  • com nível aceitável de ruído
  • sem problemas de ordem jurídica
  • especialistas disponíveis para
  • avaliação do grau de interesse das descobertas
    obtidas
  • seleção de atributos
  • descrição de conhecimento a priori em geral

Conclusão
55
Sumário das aplicações apresentadas
  • Marketing
  • agrupamento
  • SKICAT
  • classificação
  • Health-Kefir
  • análise de desvio com sistema baseado em
    conhecimento

Conclusão
56
Endereços interessantes
  • KDNuggets Directory
  • http//www.kdnuggets.com
  • The Data Mine
  • http//www.cs.bham.ac.uk/anp/TheDataMine.html
  • Microsoft Decision Theory and Adaptive Systems
  • http//research.microsoft.com/dtas/
  • DBMiner demonstração
  • http//db.cs.sfu.ca/DBMiner/dbmdemo.html

Conclusão
57
Referências
  • Bigus, J. (1995). Data Mining with Neural
    Networks. McGraw-Hill.
  • Fayyad, U. Haussler, D. Stolorz, P. (1996).
    "KDD for Science Data Analysis Issues and
    Examples. Proceedings of Second International
    Conference on Knowledge Discovery and Data Mining
    (KDD-96), AAAI Press. Disponível no endereço
    http//research.microsoft.com/ fayyad.
  • Fayyad, U. M. Piatesky-Shapiro, G. Smyth, P.
    (1995). From Data Mining to Knowledge Discovery
    An Overview, em Advances in Knowledge Discovery
    and Data Mining. AAAI Press.
  • Freitas, A. A. (1997). On objective measures of
    rule surprisingness. Em Proceedings of the 2nd
    European Symposium Principles of Data Mining and
    Knowledge Discovery. Disponível no endereço
    http//dainf.cefetpr.br/alex/thesis.html.

58
Referências
  • Imielinski, T Mannila, H. (1996). A Database
    Perspective on Knowledge Discovery.
    Communications of the ACM, volume 39, número 11.
  • Matheus, C. Piateteky-Shapiro, G. McNeill, D.
    (1995). Selecting and Reporting What is
    Interesting. Em Advances in Knowledge Discovery
    and Data Mining. AAAI Press.
  • Spirtes, P. Glymour, C Scheines, R. (1993).
    Causation, Prediction and Search. Lecture Notes
    in Statistics, 83. Springer-Verlarg. Disponível
    no endereço http//hss.cmu.edu/html/departments/
    philosophy/TETRAD.BOOK/book.html
Write a Comment
User Comments (0)
About PowerShow.com