Title: Apresenta
1Descrição de ConceitosCaracterização e Comparação
XXX
2Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
3O que é Descrição de Conceitos
- Mineração Descritiva versus Mineração Preditiva
- Mineração Descritiva descreve conceitos ou
conjuntos de dados relevantes de forma concisa,
resumida, informativa, discriminante - Mineração Preditiva Baseado nos dados
constroem-se modelos para a previsão das
tendências e das propriedades de dados
desconhecidos - Descrição de Conceitos
- Caracterização fornece um sumário conciso e
suscinto da coleção de dados - Comparação fornece as descrições que comparam
duas ou mais coleções dos dados
4Descrição de Conceitos vs. OLAP
- Descrição de Conceitos
- pode manipular atributos complexos bem como suas
agregações - um processo mais automatizado
- OLAP
- Restrito a um número pequeno de dimensões e aos
atributos de tipo medida - Processo controlado pelo usuário
5Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
6Caracterização baseada em Generalização e Sumário
- Generalização
- Um processo que abstraia um grande conjunto de
dados relevantes em uma base de dados, de níveis
conceptuais baixos para mais elevados - Abordagens
- Abordagem Cubo de dados (Abordagem OLAP)
- Abordagem indução orientada atributo
1
2
3
4
Níveis conceptuais
5
7Caracterização Abordagem Cubo de Dados
- Realiza os cálculos e armazena os resultados em
cubos de dados - Vantagens
- Implementação eficiente da generalização de dados
- Cálculo de vários tipos de medidas
- e.g., count( ), sum( ), average( ), max( )
- A generalização e a especialização podem ser
executados em um cubo dos dados pelo roll-up e
pelo drill-down - Limitações
- Manipula apenas dados não numéricos e de medidas
de valores agregados numéricos simples. - falta da análise inteligente, não pode dizer que
dimensões devem ser usadas e que nível de
generalização deve ser alcançado
8Indução Atributo-Orientada
- Não se restringe a dados categóricos ou a medidas
particulares. - Como é feito?
- Colete o conjunto de dados relevantes ( relação
inicial) a partir de uma interrogação de uma base
de dados relacional - Execute a generalização pela remoção de atributo
ou pela generalização de atributo. - Aplique a agregação fundindo tuplas generalizadas
idênticas e acumule suas contagens respectivas. - Apresentação interativa com usuários.
9Exemplo
- DMQL Descreve as característica gerais de
estudantes de pós-graduação na base de dados
Big-University - use Big_University_DB
- mine characteristics as Science_Students
- in relevance to name, gender, major, birth_place,
birth_date, residence, phone, gpa - from student
- where status in graduate
- Interrogação SQl Correspondente
- Select name, gender, major, birth_place,
birth_date, residence, phone, gpa - from student
- where status in Msc, MBA, PhD
10Princípios Básicos da Indução Atributo-Orientada
- Focalização dos Dados conjunto de dados
relevantes, incluindo as dimensões, e o resultado
na relação inicial - Remoção de Atributo remove atributo A se existe
um conjunto grande de valores distintos de A mas
(1) não há operador de generalização em A, ou (2)
Conceitos superiores a A são expressos em termos
de outros atributos. - Generalização de Atributos se existe um conjunto
grande de valores distintos de A, e se existe um
conjunto de operadores de generalização em A,
então selecione um operador e generalize A. - Controle Atributo-Limiar tipicamente 2-8,
especificado/automático. - Controle pelo limiar da relação generalizada
tipicamente 10-30, especificado/automático.
11Exemplo
RelaçãoInicial
RelaçãoGeneralizada
12Algoritmo Básico para a Indução Atributo-Orientada
- InitialRel Processamento da interrogação do
conjunto de dados relevantes para a obtenção da
relação inicial - PreGen Baseado no número de valores distintos
em cada atributo, estabelecer o plano para cada
atributo remoção? ou a que nível generalizar? - PrimeGen Baseado na etapa PreGen, realizar a
generalização no nível correto e obter a relação
generalizada de referência, acumulando as
contagens. - Presentation Interação com o usuário (1)
ajustar os níveis via drilling, (2) giro, (3)
associação à regras, tabelas cruzadas,
apresentação visual.
13Apresentação dos Resultados da Generalização
- Relações Generalizadas
- Relações em que alguns ou todos os atributos são
generalizados, com as contagens ou outros
agregados acumulados. - Tabelas cruzadas
- Mapear os resultados na forma de tabelas
cruzadas. - Técnicas de Visualização
- Gráfico de setores, gráfico de barras, curvas,
cubos, etc. - Regras características quantitativas
- Mapear os resultados em regras características
com informação quantitativa associada, exemplo,
14ApresentaçãoRelação Generalizada
15ApresentaçãoTabelas Cruzadas
16Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
17Análise da Relevância de Atributos
- Porque?
- Que dimensões devem ser incluídas?
- Qual nível de generalização?
- Automático vs. interativo
- Redução do atributos mais fácil a compreensão
dos padrões - Princípios
- Métodos estatísticos para o pré-processamento dos
dados - Filtragem dos atributos irrelevantes ou pouco
relevantes - Retenção e ordenação dos atributos relevantes
- Relevância relacionada as dimensões e aos níveis
- Caracterização analítica, comparação analítica
18Análise da Relevância de Atributos
- Como?
- Coleta de Dados
- Generalização Analítica
- Usar o ganho de informações (ex., entropia ou
outras medidas) para identificar dimensões e
níveis altamente relevantes. - Análise de Relevância
- Ordenar e selecionar as dimensões e níveis mais
importantes. - Indução Orientada Atributo para a descrição de
classes - Nas dimensões/níveis selecionados
19Medidas de Relevância
- As medidas de relevância avaliam o poder
classificatório de um atributo em um conjunto de
dados. - Métodos
- Ganho de informação (ID3)
- Razão de ganho (C4.5)
- Índice de gini
- Etc.
20Entropia e Ganho de Informação
- S contem si tuples da classe Ci for i 1, , m
- Informação requerida para classificar qualquer
tupla arbitraria - Entropia do atributo A com valores a1,a2,,av
- Informação ganha ao ramificar no atributo A
21Exemplo Caracterização Analítica
- Tarefa
- Minerar características gerais de estudantes de
pós-graduação usando caracterização analítica - Dado
- atributos name, gender, major, birth_place,
birth_date, phone, e gpa - Gen(ai) hierarquias de conceito em ai
- Ui limiar analítico de atributo para ai
- Ti limiar para generalização de atributo para
ai - R limiar de relevância de atributo
22Exemplo (Cont.)
- 1. Coleta de Dados
- Classe alvo estudantes de pós
- Classe de contraste estudantes de graduação
- 2. Generalização analítica usando Ui
- Remoção de atributos
- Remoção de name e phone
- Generalização de atributos
- generalização de major, birth_place, birth_date
and gpa - Contagens acumuladas
- Relação candidata gender, major, birth_country,
age_range and gpa
23Exemplo (cont.)
Relação candidata para a classe alvo Estudantes
de Pós (?120)
Relação candidata para a classe de contraste
Estudantes de graduação (?130)
24Exemplo (cont.)
- 3. Análise de Relevância
- Cálculo da informação requerida para classificar
uma tupla arbitrária - Cálculo da entropia de cada atributo ex.
principal
25Exemplo (cont.)
- Cálculo da informação esperada requerida para
classificar uma dada amostra se S for
particionado segundo o atributo - Cálculo do ganho de informação para cada atributo
- Ganho de informação de todos os atributos
26Exemplo (cont.)
- 4. Derivação da relação inicial de trabalho (W0)
- R 0.1
- Remoção de atributos irrelevantes ou pouco
relevantes da relação candidato gt remover
gender, birth_country - Remoção da relação candidato classe de contraste
- 5. Realizar Indução Orientada Atributo em W0
usando Ti
Relação inicial de trabalho da classe alvo W0
Estudantes de pós
27Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
28Mineração da Comparação de Classes
- Comparação Comparação de duas ou mais classes.
- Método
- Partição do conjunto de dados relevantes em
classe alvo e classe(s) de contraste(s) - Generalize ambas as classes nos mesmos níveis
superiores de conceitos - Compare tuplas de mesmo nível superior de
descrição - Apresente para cada tupla a sua descrição e duas
medidas - suporte distribuição na classe isolada
- comparação distribuição entre as classes
- Destaques as tuplas com características
discriminantes fortes - Análise de Relevância
- Encontre atributos que melhor distinguem
diferentes classes.
29Exemplo
- Tarefa
- Comparar estudantes de pós e de graduação usando
regras discriminantes. - Interrogação DMQL
use Big_University_DB mine comparison as
grad_vs_undergrad_students in relevance to
name, gender, major, birth_place, birth_date,
residence, phone, gpa for graduate_students whe
re status in graduate versus undergraduate_stud
ents where status in undergraduate analyze
count from student
30Exemplo (cont.)
- Dado
- atributos name, gender, major, birth_place,
birth_date, residence, phone e gpa - Gen(ai) hierarquias de conceitos nos atributos
ai - Ui limiar analítico de atributo para ai
- Ti limiar para generalização de atributo para
ai - R limiar de relevância de atributo
31Exemplo (cont.)
- 1. Coleta de dados
- Classes alvo e contraste
- 2. Análise da Relevância de Atributos
- Remoção dos atributos name, gender, major, phone
- 3. Generalização sincronizada
- Controlada pelos limiares de dimensão
especificados pelo usuário
32Exemplo (cont.)
Relação Generalizada Para a Classe Alvo
Estudantes de Pós
Relação Generalizada para a Classe de Contraste
Estudantes de Graduação
33Exemplo (cont.)
- 4. Apresentação
- Como relações generalizadas, tabelas cruzadas,
gráfico de barras, gráfico de setores, ou regras - Medidas de contraste para refletir a comparação
entre as classes alvo e de contraste - ex. contagem
34Regras Discriminantes
- Cj Classe alvo
- qa a generalização de uma tupla cobre algumas
tupas da classe alvo - Mas também pode cobrir algumas da classe de
contraste - d-weight
- range 0, 1
- Forma de uma regra discriminante quantitativa
35Exemplo
Distribuição de efetivos entre estudantes de pós
e de graduação para uma tupla generalizada
- Regra discriminante quantitativa
- onde 90/(90120) 30
36Descrição de uma Classe
- Regras características quantitativas
- Condição necessária
- Regra discriminante quantitativa
- Condição suficiente
- Regra de descrição quantitativa
- Condição necessária e suficiente
37Exemplo
- Regra de descrição quantitativa para classe alvo
Europa
Tabela cruzada mostrando t-weight, d-weight e o
número total (em milhares) de TVs e computadores
vendidos em AllElectronics em 1998
38Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
39Mineração das Características de dispersão dos
Dados
- Motivação
- Para compreender melhor os dados tendência
central, variação e espalhamento - Características de tendência central e de
dispersão - Média, mediana, max, min, quantis, variância,
etc. - Dimensões numéricas corresponde aos intervalos
ordenados - Dispersão dos dados analisado com múltiplas
granularidades de precisão - Análise de Boxplot ou quantl nos intervalos
ordenados - Análise de dispersão em medidas calculadas
- Análises Boxplot ou quantl no cubo transformado
40Medidas de Tendência Central
- Media
- Média aritmética ponderada
- Mediana medida holística
- Valor na posição média se o número de valores é
par, ou média dos valores de posição média senão - Estimação via interpolação
- Moda
- Valor mais frequente nos dados
- Unimodal, bimodal, trimodal
- Formula empírica
41Medidas de dispersão
- Quartis, outliers e boxplots
- Quartils Q1 (25o percentil), Q3 (75o percentil)
- Amplitude Inter-quartil IQR Q3 Q1
- Resumo cinco números min, Q1, Mediana, Q3, max
- Boxplot nas extremidades da caixa estão os
quartis, a mediana é a linha central, extremos, e
plota individualmente os outliers - Outlier usualmente, um valor maior/menor do que
1.5 x IQR - Variancia e Desvio-padrão
- Variancia s2 (algebraica, cálculo escalável)
- Desvio padrão s é a raiz quadrada da variância s2
42 Análise com Boxplot
- Sumário cinco números de uma distribuição
- Mínimo, Q1, Mediana, Q3, Maximo
- Boxplot
- No inicio e no final da caixa estão o primeiro e
o terceiro quartil a altura da caixa é o IRQ - A mediana é destacada por uma linha dentro da
caixa - Extremos duas linhas fora da caixa destacam o
mínimo e o máximo
43Um Boxplot
Um boxplot
44Mineração de medidas de Estatística Descritiva em
Grandes Bases de Dados
- Variância
- Desvio padrão raiz quadrada da variância
- Mede a dispersão em torno da média
- É zero se e somente se todos os valores são
iguais - Tanto o desvio quanto a variância são algebraicos
45Análise de Histograma
- Histograma de freqüências
- Método gráfico univariado
- Consiste em um conjunto de retângulos justapostos
que refletem a freqüência das classes presentes
nos dados
46Diagrama Quantil
- Mostra todos os dados (permite ao usuário acessar
tanto o comportamento global como as ocorrências
não usuais) - Diagrama quantil
- Para os xi classificados em ordem crescente, fi
indica que aproximadamente 100 fi dos datas são
menores ou iguais a xi
47Diagrama Quantil-Quantil (Q-Q)
- Mostra os quantis de uma distribuição univariada
contra os correspondentes quantis de uma outra - Permite que o usuário veja se há um deslocamento
ao ir de uma distribuição a outra
48Diagrama de Dispersão
- Fornece uma primeira visão de dados bi-variados
para identificar clusters de pontos, outliers,
etc - Cada par de valores é tratado como um par de
coordenadas e desenhado como pontos no plano
49Curva de Loess
- Adiciona uma curva suave em um diagrama de
dispersão para fornecer uma melhor percepção dos
padrões de dependência - Uma Curva de Loess é ajustada pelo controle de
dois parâmetros um parâmetro de suavização, e o
grau dos polinômios que serão ajustados via
regressão
50Descrição de Conceitos Caracterização e
Comparação
- O que é Descrição de Conceitos?
- Caracterização baseada em generalização e resumo
- Análise da relevância de atributos
- Comparação de Classes Discriminação entre
diferentes classes - Estatística Descritiva em grandes bases de dados
- Discussão
51Indução Orientada-Atributo vs Aprendizagem à
partir de exemplos
- Diferenças na filosofia e nas suposições básicas
- Aprendizagem à partir de exemplos exemplos
positivos usados para a generalização e negativos
para a especialização - Em mineração apenas exemplos positivos o
drill-down retorna a generalização à um estado
prévio - Diferenças no tamanho do conjunto de treinamento
- Diferença nos métodos de generalização
- Aprendizagem de máquina generaliza na base tupla
por tupla - Mineração generaliza na base atributo por atributo
52Mineração Incremental e Paralela para a Descrição
de Conceitos
- Mineração Incremental revisão baseada em dados
recentemente adicionados ?DB - Generalize ?DB no mesmo nível de abstração da
relação generalizada R para obter ?R - União R U ?R, i.e., fusionar a contagem e as
outras estatísticas para produzir uma nova
relação R - Filosofia similar pode ser aplicada a amostragem
de dados, mineração paralela e/ou distribuída,
etc.