Data Mining: Conceitos e T - PowerPoint PPT Presentation

About This Presentation
Title:

Data Mining: Conceitos e T

Description:

Data Mining: Conceitos e T cnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que data warehouse? De data warehousing para data mining Data ... – PowerPoint PPT presentation

Number of Views:236
Avg rating:3.0/5.0
Slides: 23
Provided by: cels9
Category:

less

Transcript and Presenter's Notes

Title: Data Mining: Conceitos e T


1
Data Mining Conceitos e Técnicas
2
DM, DW e OLAP
3
Data Warehousing e OLAP para Data Mining
  • O que é data warehouse?
  • De data warehousing para data mining

4
Data Warehousing e OLAP para Data Mining
  • Data Warehouse A Memória da Empresa
  • Data Mining A Inteligência da Empresa

5
O que é Data Warehouse?
  • Definido de diversas formas, mas não
    rigorosamente
  • É uma base de dados de suporte que é mantida
    separadamente da base de dados operacional da
    organização
  • Suporta o processamento de informações provendo
    uma sólida plataforma de dados históricos e
    consolidados para análise

6
O que é Data Warehouse?
  • Um data warehouse é uma coleção de dados
  • orientada a assunto (subject-oriented)
  • integrada
  • variante no tempo, e
  • não-volátil
  • para suporte a decisões de gerenciamento.W. H.
    Inmon
  • Data warehousing o processo de construção e uso
    de data warehouses.

7
Usos do data warehouse
  • Processamento de Informações
  • Suporta consultas, análise estatística básica e
    relatórios usando tabelas, gráficos, etc.
  • Processamento analítico
  • Análise multi-dimensional doas dados contidos no
    data warehouse
  • Suporta operações OLAP básicas (slice-dice,
    drilling, pivoting)

8
Usos do data warehouse
  • Data mining
  • Descoberta de conhecimento em padrões
  • Suporta associações, construção de modelos
    analíticos, executa classificação e predição, e
    apresenta os resultados usando ferramentas de
    visualização.

9
De OLAP para OLAM
  • Por que OLAM?
  • Alta qualidade dos dados nos data warehouses
  • DW contem dados integrados, consistentes e
    limpos.
  • Estrutura para o tratamento de informação
    disponível no ambiente de DW
  • ODBC, OLEDB, acesso à Web, facilidades de
    serviço, relatórios e ferramentas OLAP
  • Análise de dados exploratória baseada em OLAP
  • Mineração com drilling, dicing, pivoting, etc.
  • Seleção on-line das funções de data mining
  • Integração e intercâmbio de múltiplas funções de
    mineração, algoritmos e tarefas.

10
Uma arquitetura OLAM
Layer4 User Interface
Mining query
Mining result
User GUI API
OLAM Engine
OLAP Engine
Layer3 OLAP/OLAM
Data Cube API
Layer2 MDDB
MDDB
Meta Data
Database API
FilteringIntegration
Filtering
Layer1 Data Repository
Data Warehouse
Data cleaning
Databases
Data integration
11
Pré-processamento de dados
12
Por que pré-processar os dados ?
  • Dados reais são sujos
  • Incompletos falta de valores de atributos, falta
    de atributos de interesse ou existência de
    atributos agregados
  • Ruidosos contem erros e desvios
  • Inconsistentes contem discrepâncias em nomes e
    na codificação.
  • Sem dados de qualidade, sem resultados de
    qualidade em DM
  • Decisões de qualidade devem estar baseadas em
    dados de qualidade
  • DW necessita da integração consistente de dados
    de qualidade.

13
Medida multidimensional da qualidade dos dados
  • Uma visão multidimensional bem aceita
  • Correção
  • Completude
  • Consistência
  • Atualidade (timeliness)
  • Credibilidade
  • Valor adicionado
  • Interpretabilidade
  • Acessibilidade.
  • Categorias abrangentes
  • Intrínseca, contextual, representacional e
    acessibilidade.

14
Principais tarefas no pré-processamento dos dados
  • Limpeza dos dados
  • Preenchimento de valores inexistentes, atenuação
    de dados ruidosos, identificação e remoção de
    desvios, resolução de inconsistências
  • Integração de dados
  • Integração de múltiplos DB, data cubos, e
    arquivos
  • Transformações nos dados
  • normalização e agregação
  • Redução de dados
  • Obtenção de uma representação reduzida em volume
    mas que produz resultados de análise idênticos ou
    similares.

15
Principais tarefas no pré-processamento dos dados
  • Limpeza dos dados Valores faltantes
  • Ignorar a tupla
  • Preencher o valor manualmente
  • Usar uma constante global
  • Usar o valor médio do atributo na base
  • Usar o valor médio do atributo na classe
  • Usar o valor mais provável.

16
Principais tarefas no pré-processamento dos dados
  • Limpeza dos dados Atenuação de dados ruidosos
  • Discretização
  • Agrupamento
  • Interação humana
  • Regressão.

17
Principais tarefas no pré-processamento dos dados
  • Limpeza dos dados Inconsistências
  • Eliminar dados
  • Corrigir manualmente
  • Ignorar.

18
Principais tarefas no pré-processamento dos dados
  • Integração de dados
  • Integração de esquemas de BD problema da
    identificação de entidades
  • Redundâncias
  • Detecção e resolução de valores conflitantes nos
    dados.

19
Principais tarefas no pré-processamento dos dados
  • Transformações nos dados
  • Suavização (smooting)
  • Agregação
  • Generalização
  • Normalização (entre 0 e 1)
  • Construção de atributos.

20
Principais tarefas no pré-processamento dos dados
  • Redução de dados
  • Agregação de data cubes
  • Redução de dimensionalidade
  • Compressão de dados
  • Redução de instâncias
  • Geração de hierarquias de conceitos.

21
Formas de pré-processamento de dados
22
Sumário
  • A preparação do dados é um ponto crucial tanto
    para data warehousing quanto para data mining
  • A preparação de dados inclui
  • Limpeza e Integração de dados
  • Redução de dados e seleção de características
  • Discretização intervalos iguais, freqüências
    iguais, agrupamento.
  • Vários métodos têm sido desenvolvidos, mas ainda
    é área ativa de pesquisa.
Write a Comment
User Comments (0)
About PowerShow.com