Apresenta - PowerPoint PPT Presentation

About This Presentation
Title:

Apresenta

Description:

Title: Apresenta o do PowerPoint Author: Centro de Informatica Last modified by: fatc Created Date: 4/21/2001 3:22:29 PM Document presentation format – PowerPoint PPT presentation

Number of Views:142
Avg rating:3.0/5.0
Slides: 53
Provided by: CentrodeI45
Category:

less

Transcript and Presenter's Notes

Title: Apresenta


1
Descrição de ConceitosCaracterização e Comparação
XXX
2
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

3
O que é Descrição de Conceitos
  • Mineração Descritiva versus Mineração Preditiva
  • Mineração Descritiva descreve conceitos ou
    conjuntos de dados relevantes de forma concisa,
    resumida, informativa, discriminante
  • Mineração Preditiva Baseado nos dados
    constroem-se modelos para a previsão das
    tendências e das propriedades de dados
    desconhecidos
  • Descrição de Conceitos
  • Caracterização fornece um sumário conciso e
    suscinto da coleção de dados
  • Comparação fornece as descrições que comparam
    duas ou mais coleções dos dados

4
Descrição de Conceitos vs. OLAP
  • Descrição de Conceitos
  • pode manipular atributos complexos bem como suas
    agregações
  • um processo mais automatizado
  • OLAP
  • Restrito a um número pequeno de dimensões e aos
    atributos de tipo medida
  • Processo controlado pelo usuário

5
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

6
Caracterização baseada em Generalização e Sumário
  • Generalização
  • Um processo que abstraia um grande conjunto de
    dados relevantes em uma base de dados, de níveis
    conceptuais baixos para mais elevados
  • Abordagens
  • Abordagem Cubo de dados (Abordagem OLAP)
  • Abordagem indução orientada atributo

1
2
3
4
Níveis conceptuais
5
7
Caracterização Abordagem Cubo de Dados
  • Realiza os cálculos e armazena os resultados em
    cubos de dados
  • Vantagens
  • Implementação eficiente da generalização de dados
  • Cálculo de vários tipos de medidas
  • e.g., count( ), sum( ), average( ), max( )
  • A generalização e a especialização podem ser
    executados em um cubo dos dados pelo roll-up e
    pelo drill-down
  • Limitações
  • Manipula apenas dados não numéricos e de medidas
    de valores agregados numéricos simples.
  • falta da análise inteligente, não pode dizer que
    dimensões devem ser usadas e que nível de
    generalização deve ser alcançado

8
Indução Atributo-Orientada
  • Não se restringe a dados categóricos ou a medidas
    particulares.
  • Como é feito?
  • Colete o conjunto de dados relevantes ( relação
    inicial) a partir de uma interrogação de uma base
    de dados relacional
  • Execute a generalização pela remoção de atributo
    ou pela generalização de atributo.
  • Aplique a agregação fundindo tuplas generalizadas
    idênticas e acumule suas contagens respectivas.
  • Apresentação interativa com usuários.

9
Exemplo
  • DMQL Descreve as característica gerais de
    estudantes de pós-graduação na base de dados
    Big-University
  • use Big_University_DB
  • mine characteristics as Science_Students
  • in relevance to name, gender, major, birth_place,
    birth_date, residence, phone, gpa
  • from student
  • where status in graduate
  • Interrogação SQl Correspondente
  • Select name, gender, major, birth_place,
    birth_date, residence, phone, gpa
  • from student
  • where status in Msc, MBA, PhD

10
Princípios Básicos da Indução Atributo-Orientada
  • Focalização dos Dados conjunto de dados
    relevantes, incluindo as dimensões, e o resultado
    na relação inicial
  • Remoção de Atributo remove atributo A se existe
    um conjunto grande de valores distintos de A mas
    (1) não há operador de generalização em A, ou (2)
    Conceitos superiores a A são expressos em termos
    de outros atributos.
  • Generalização de Atributos se existe um conjunto
    grande de valores distintos de A, e se existe um
    conjunto de operadores de generalização em A,
    então selecione um operador e generalize A.
  • Controle Atributo-Limiar tipicamente 2-8,
    especificado/automático.
  • Controle pelo limiar da relação generalizada
    tipicamente 10-30, especificado/automático.

11
Exemplo
RelaçãoInicial
RelaçãoGeneralizada
12
Algoritmo Básico para a Indução Atributo-Orientada
  • InitialRel Processamento da interrogação do
    conjunto de dados relevantes para a obtenção da
    relação inicial
  • PreGen Baseado no número de valores distintos
    em cada atributo, estabelecer o plano para cada
    atributo remoção? ou a que nível generalizar?
  • PrimeGen Baseado na etapa PreGen, realizar a
    generalização no nível correto e obter a relação
    generalizada de referência, acumulando as
    contagens.
  • Presentation Interação com o usuário (1)
    ajustar os níveis via drilling, (2) giro, (3)
    associação à regras, tabelas cruzadas,
    apresentação visual.

13
Apresentação dos Resultados da Generalização
  • Relações Generalizadas
  • Relações em que alguns ou todos os atributos são
    generalizados, com as contagens ou outros
    agregados acumulados.
  • Tabelas cruzadas
  • Mapear os resultados na forma de tabelas
    cruzadas.
  • Técnicas de Visualização
  • Gráfico de setores, gráfico de barras, curvas,
    cubos, etc.
  • Regras características quantitativas
  • Mapear os resultados em regras características
    com informação quantitativa associada, exemplo,

14
ApresentaçãoRelação Generalizada

15
ApresentaçãoTabelas Cruzadas
16
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

17
Análise da Relevância de Atributos
  • Porque?
  • Que dimensões devem ser incluídas?
  • Qual nível de generalização?
  • Automático vs. interativo
  • Redução do atributos mais fácil a compreensão
    dos padrões
  • Princípios
  • Métodos estatísticos para o pré-processamento dos
    dados
  • Filtragem dos atributos irrelevantes ou pouco
    relevantes
  • Retenção e ordenação dos atributos relevantes
  • Relevância relacionada as dimensões e aos níveis
  • Caracterização analítica, comparação analítica

18
Análise da Relevância de Atributos
  • Como?
  • Coleta de Dados
  • Generalização Analítica
  • Usar o ganho de informações (ex., entropia ou
    outras medidas) para identificar dimensões e
    níveis altamente relevantes.
  • Análise de Relevância
  • Ordenar e selecionar as dimensões e níveis mais
    importantes.
  • Indução Orientada Atributo para a descrição de
    classes
  • Nas dimensões/níveis selecionados

19
Medidas de Relevância
  • As medidas de relevância avaliam o poder
    classificatório de um atributo em um conjunto de
    dados.
  • Métodos
  • Ganho de informação (ID3)
  • Razão de ganho (C4.5)
  • Índice de gini
  • Etc.

20
Entropia e Ganho de Informação
  • S contem si tuples da classe Ci for i 1, , m
  • Informação requerida para classificar qualquer
    tupla arbitraria
  • Entropia do atributo A com valores a1,a2,,av
  • Informação ganha ao ramificar no atributo A

21
Exemplo Caracterização Analítica
  • Tarefa
  • Minerar características gerais de estudantes de
    pós-graduação usando caracterização analítica
  • Dado
  • atributos name, gender, major, birth_place,
    birth_date, phone, e gpa
  • Gen(ai) hierarquias de conceito em ai
  • Ui limiar analítico de atributo para ai
  • Ti limiar para generalização de atributo para
    ai
  • R limiar de relevância de atributo

22
Exemplo (Cont.)
  • 1. Coleta de Dados
  • Classe alvo estudantes de pós
  • Classe de contraste estudantes de graduação
  • 2. Generalização analítica usando Ui
  • Remoção de atributos
  • Remoção de name e phone
  • Generalização de atributos
  • generalização de major, birth_place, birth_date
    and gpa
  • Contagens acumuladas
  • Relação candidata gender, major, birth_country,
    age_range and gpa

23
Exemplo (cont.)
Relação candidata para a classe alvo Estudantes
de Pós (?120)
Relação candidata para a classe de contraste
Estudantes de graduação (?130)
24
Exemplo (cont.)
  • 3. Análise de Relevância
  • Cálculo da informação requerida para classificar
    uma tupla arbitrária
  • Cálculo da entropia de cada atributo ex.
    principal

25
Exemplo (cont.)
  • Cálculo da informação esperada requerida para
    classificar uma dada amostra se S for
    particionado segundo o atributo
  • Cálculo do ganho de informação para cada atributo
  • Ganho de informação de todos os atributos

26
Exemplo (cont.)
  • 4. Derivação da relação inicial de trabalho (W0)
  • R 0.1
  • Remoção de atributos irrelevantes ou pouco
    relevantes da relação candidato gt remover
    gender, birth_country
  • Remoção da relação candidato classe de contraste
  • 5. Realizar Indução Orientada Atributo em W0
    usando Ti

Relação inicial de trabalho da classe alvo W0
Estudantes de pós
27
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

28
Mineração da Comparação de Classes
  • Comparação Comparação de duas ou mais classes.
  • Método
  • Partição do conjunto de dados relevantes em
    classe alvo e classe(s) de contraste(s)
  • Generalize ambas as classes nos mesmos níveis
    superiores de conceitos
  • Compare tuplas de mesmo nível superior de
    descrição
  • Apresente para cada tupla a sua descrição e duas
    medidas
  • suporte distribuição na classe isolada
  • comparação distribuição entre as classes
  • Destaques as tuplas com características
    discriminantes fortes
  • Análise de Relevância
  • Encontre atributos que melhor distinguem
    diferentes classes.

29
Exemplo
  • Tarefa
  • Comparar estudantes de pós e de graduação usando
    regras discriminantes.
  • Interrogação DMQL

use Big_University_DB mine comparison as
grad_vs_undergrad_students in relevance to
name, gender, major, birth_place, birth_date,
residence, phone, gpa for graduate_students whe
re status in graduate versus undergraduate_stud
ents where status in undergraduate analyze
count from student
30
Exemplo (cont.)
  • Dado
  • atributos name, gender, major, birth_place,
    birth_date, residence, phone e gpa
  • Gen(ai) hierarquias de conceitos nos atributos
    ai
  • Ui limiar analítico de atributo para ai
  • Ti limiar para generalização de atributo para
    ai
  • R limiar de relevância de atributo

31
Exemplo (cont.)
  • 1. Coleta de dados
  • Classes alvo e contraste
  • 2. Análise da Relevância de Atributos
  • Remoção dos atributos name, gender, major, phone
  • 3. Generalização sincronizada
  • Controlada pelos limiares de dimensão
    especificados pelo usuário

32
Exemplo (cont.)
Relação Generalizada Para a Classe Alvo
Estudantes de Pós
Relação Generalizada para a Classe de Contraste
Estudantes de Graduação
33
Exemplo (cont.)
  • 4. Apresentação
  • Como relações generalizadas, tabelas cruzadas,
    gráfico de barras, gráfico de setores, ou regras
  • Medidas de contraste para refletir a comparação
    entre as classes alvo e de contraste
  • ex. contagem

34
Regras Discriminantes
  • Cj Classe alvo
  • qa a generalização de uma tupla cobre algumas
    tupas da classe alvo
  • Mas também pode cobrir algumas da classe de
    contraste
  • d-weight
  • range 0, 1
  • Forma de uma regra discriminante quantitativa

35
Exemplo
Distribuição de efetivos entre estudantes de pós
e de graduação para uma tupla generalizada
  • Regra discriminante quantitativa
  • onde 90/(90120) 30

36
Descrição de uma Classe
  • Regras características quantitativas
  • Condição necessária
  • Regra discriminante quantitativa
  • Condição suficiente
  • Regra de descrição quantitativa
  • Condição necessária e suficiente

37
Exemplo
  • Regra de descrição quantitativa para classe alvo
    Europa

Tabela cruzada mostrando t-weight, d-weight e o
número total (em milhares) de TVs e computadores
vendidos em AllElectronics em 1998
38
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

39
Mineração das Características de dispersão dos
Dados
  • Motivação
  • Para compreender melhor os dados tendência
    central, variação e espalhamento
  • Características de tendência central e de
    dispersão
  • Média, mediana, max, min, quantis, variância,
    etc.
  • Dimensões numéricas corresponde aos intervalos
    ordenados
  • Dispersão dos dados analisado com múltiplas
    granularidades de precisão
  • Análise de Boxplot ou quantl nos intervalos
    ordenados
  • Análise de dispersão em medidas calculadas
  • Análises Boxplot ou quantl no cubo transformado

40
Medidas de Tendência Central
  • Media
  • Média aritmética ponderada
  • Mediana medida holística
  • Valor na posição média se o número de valores é
    par, ou média dos valores de posição média senão
  • Estimação via interpolação
  • Moda
  • Valor mais frequente nos dados
  • Unimodal, bimodal, trimodal
  • Formula empírica

41
Medidas de dispersão
  • Quartis, outliers e boxplots
  • Quartils Q1 (25o percentil), Q3 (75o percentil)
  • Amplitude Inter-quartil IQR Q3 Q1
  • Resumo cinco números min, Q1, Mediana, Q3, max
  • Boxplot nas extremidades da caixa estão os
    quartis, a mediana é a linha central, extremos, e
    plota individualmente os outliers
  • Outlier usualmente, um valor maior/menor do que
    1.5 x IQR
  • Variancia e Desvio-padrão
  • Variancia s2 (algebraica, cálculo escalável)
  • Desvio padrão s é a raiz quadrada da variância s2

42
Análise com Boxplot
  • Sumário cinco números de uma distribuição
  • Mínimo, Q1, Mediana, Q3, Maximo
  • Boxplot
  • No inicio e no final da caixa estão o primeiro e
    o terceiro quartil a altura da caixa é o IRQ
  • A mediana é destacada por uma linha dentro da
    caixa
  • Extremos duas linhas fora da caixa destacam o
    mínimo e o máximo

43
Um Boxplot
Um boxplot
44
Mineração de medidas de Estatística Descritiva em
Grandes Bases de Dados
  • Variância
  • Desvio padrão raiz quadrada da variância
  • Mede a dispersão em torno da média
  • É zero se e somente se todos os valores são
    iguais
  • Tanto o desvio quanto a variância são algebraicos

45
Análise de Histograma
  • Histograma de freqüências
  • Método gráfico univariado
  • Consiste em um conjunto de retângulos justapostos
    que refletem a freqüência das classes presentes
    nos dados

46
Diagrama Quantil
  • Mostra todos os dados (permite ao usuário acessar
    tanto o comportamento global como as ocorrências
    não usuais)
  • Diagrama quantil
  • Para os xi classificados em ordem crescente, fi
    indica que aproximadamente 100 fi dos datas são
    menores ou iguais a xi

47
Diagrama Quantil-Quantil (Q-Q)
  • Mostra os quantis de uma distribuição univariada
    contra os correspondentes quantis de uma outra
  • Permite que o usuário veja se há um deslocamento
    ao ir de uma distribuição a outra

48
Diagrama de Dispersão
  • Fornece uma primeira visão de dados bi-variados
    para identificar clusters de pontos, outliers,
    etc
  • Cada par de valores é tratado como um par de
    coordenadas e desenhado como pontos no plano

49
Curva de Loess
  • Adiciona uma curva suave em um diagrama de
    dispersão para fornecer uma melhor percepção dos
    padrões de dependência
  • Uma Curva de Loess é ajustada pelo controle de
    dois parâmetros um parâmetro de suavização, e o
    grau dos polinômios que serão ajustados via
    regressão

50
Descrição de Conceitos Caracterização e
Comparação
  • O que é Descrição de Conceitos?
  • Caracterização baseada em generalização e resumo
  • Análise da relevância de atributos
  • Comparação de Classes Discriminação entre
    diferentes classes
  • Estatística Descritiva em grandes bases de dados
  • Discussão

51
Indução Orientada-Atributo vs Aprendizagem à
partir de exemplos
  • Diferenças na filosofia e nas suposições básicas
  • Aprendizagem à partir de exemplos exemplos
    positivos usados para a generalização e negativos
    para a especialização
  • Em mineração apenas exemplos positivos o
    drill-down retorna a generalização à um estado
    prévio
  • Diferenças no tamanho do conjunto de treinamento
  • Diferença nos métodos de generalização
  • Aprendizagem de máquina generaliza na base tupla
    por tupla
  • Mineração generaliza na base atributo por atributo

52
Mineração Incremental e Paralela para a Descrição
de Conceitos
  • Mineração Incremental revisão baseada em dados
    recentemente adicionados ?DB
  • Generalize ?DB no mesmo nível de abstração da
    relação generalizada R para obter ?R
  • União R U ?R, i.e., fusionar a contagem e as
    outras estatísticas para produzir uma nova
    relação R
  • Filosofia similar pode ser aplicada a amostragem
    de dados, mineração paralela e/ou distribuída,
    etc.
Write a Comment
User Comments (0)
About PowerShow.com