Title: Data Mining: Conceitos e T
1Data Mining Conceitos e Técnicas
2DM, DW e OLAP
3Data Warehousing e OLAP para Data Mining
- O que é data warehouse?
- De data warehousing para data mining
4Data Warehousing e OLAP para Data Mining
- Data Warehouse A Memória da Empresa
- Data Mining A Inteligência da Empresa
5O que é Data Warehouse?
- Definido de diversas formas, mas não
rigorosamente - É uma base de dados de suporte que é mantida
separadamente da base de dados operacional da
organização - Suporta o processamento de informações provendo
uma sólida plataforma de dados históricos e
consolidados para análise
6O que é Data Warehouse?
- Um data warehouse é uma coleção de dados
- orientada a assunto (subject-oriented)
- integrada
- variante no tempo, e
- não-volátil
- para suporte a decisões de gerenciamento.W. H.
Inmon - Data warehousing o processo de construção e uso
de data warehouses.
7Usos do data warehouse
- Processamento de Informações
- Suporta consultas, análise estatística básica e
relatórios usando tabelas, gráficos, etc. - Processamento analítico
- Análise multi-dimensional doas dados contidos no
data warehouse - Suporta operações OLAP básicas (slice-dice,
drilling, pivoting)
8Usos do data warehouse
- Data mining
- Descoberta de conhecimento em padrões
- Suporta associações, construção de modelos
analíticos, executa classificação e predição, e
apresenta os resultados usando ferramentas de
visualização.
9De OLAP para OLAM
- Por que OLAM?
- Alta qualidade dos dados nos data warehouses
- DW contem dados integrados, consistentes e
limpos. - Estrutura para o tratamento de informação
disponível no ambiente de DW - ODBC, OLEDB, acesso à Web, facilidades de
serviço, relatórios e ferramentas OLAP - Análise de dados exploratória baseada em OLAP
- Mineração com drilling, dicing, pivoting, etc.
- Seleção on-line das funções de data mining
- Integração e intercâmbio de múltiplas funções de
mineração, algoritmos e tarefas.
10Uma arquitetura OLAM
Layer4 User Interface
Mining query
Mining result
User GUI API
OLAM Engine
OLAP Engine
Layer3 OLAP/OLAM
Data Cube API
Layer2 MDDB
MDDB
Meta Data
Database API
FilteringIntegration
Filtering
Layer1 Data Repository
Data Warehouse
Data cleaning
Databases
Data integration
11Pré-processamento de dados
12Por que pré-processar os dados ?
- Dados reais são sujos
- Incompletos falta de valores de atributos, falta
de atributos de interesse ou existência de
atributos agregados - Ruidosos contem erros e desvios
- Inconsistentes contem discrepâncias em nomes e
na codificação. - Sem dados de qualidade, sem resultados de
qualidade em DM - Decisões de qualidade devem estar baseadas em
dados de qualidade - DW necessita da integração consistente de dados
de qualidade.
13Medida multidimensional da qualidade dos dados
- Uma visão multidimensional bem aceita
- Correção
- Completude
- Consistência
- Atualidade (timeliness)
- Credibilidade
- Valor adicionado
- Interpretabilidade
- Acessibilidade.
- Categorias abrangentes
- Intrínseca, contextual, representacional e
acessibilidade.
14Principais tarefas no pré-processamento dos dados
- Limpeza dos dados
- Preenchimento de valores inexistentes, atenuação
de dados ruidosos, identificação e remoção de
desvios, resolução de inconsistências - Integração de dados
- Integração de múltiplos DB, data cubos, e
arquivos - Transformações nos dados
- normalização e agregação
- Redução de dados
- Obtenção de uma representação reduzida em volume
mas que produz resultados de análise idênticos ou
similares.
15Principais tarefas no pré-processamento dos dados
- Limpeza dos dados Valores faltantes
- Ignorar a tupla
- Preencher o valor manualmente
- Usar uma constante global
- Usar o valor médio do atributo na base
- Usar o valor médio do atributo na classe
- Usar o valor mais provável.
16Principais tarefas no pré-processamento dos dados
- Limpeza dos dados Atenuação de dados ruidosos
- Discretização
- Agrupamento
- Interação humana
- Regressão.
-
17Principais tarefas no pré-processamento dos dados
- Limpeza dos dados Inconsistências
- Eliminar dados
- Corrigir manualmente
- Ignorar.
-
18Principais tarefas no pré-processamento dos dados
- Integração de dados
- Integração de esquemas de BD problema da
identificação de entidades - Redundâncias
- Detecção e resolução de valores conflitantes nos
dados.
19Principais tarefas no pré-processamento dos dados
- Transformações nos dados
- Suavização (smooting)
- Agregação
- Generalização
- Normalização (entre 0 e 1)
- Construção de atributos.
20Principais tarefas no pré-processamento dos dados
- Redução de dados
- Agregação de data cubes
- Redução de dimensionalidade
- Compressão de dados
- Redução de instâncias
- Geração de hierarquias de conceitos.
-
21Formas de pré-processamento de dados
22Sumário
- A preparação do dados é um ponto crucial tanto
para data warehousing quanto para data mining - A preparação de dados inclui
- Limpeza e Integração de dados
- Redução de dados e seleção de características
- Discretização intervalos iguais, freqüências
iguais, agrupamento. - Vários métodos têm sido desenvolvidos, mas ainda
é área ativa de pesquisa.