Apresenta - PowerPoint PPT Presentation

About This Presentation
Title:

Apresenta

Description:

Title: Apresenta o do PowerPoint Author: Erivan Alves de Andrade Last modified by: eaa Created Date: 11/21/2001 11:16:35 AM Document presentation format – PowerPoint PPT presentation

Number of Views:50
Avg rating:3.0/5.0
Slides: 43
Provided by: ErivanAlv
Category:
Tags: apresenta

less

Transcript and Presenter's Notes

Title: Apresenta


1
Seminário
Mineração de Exceções
Erivan A. Andrade (eaa_at_cin.ufpe.br) Jacques
Robin (jr_at_cin.ufpe.br)
2
Roteiro
  • Motivação
  • Métodos Baseados em Agrupamento
  • Métodos Baseados em Estatística
  • Métodos baseados em Distância
  • Métodos Baseados em Desvio
  • Conclusões
  • Referências

3
Motivação definição
  • O que é outlier?
  • É uma observação, num conjunto de dados, que é
    suficientemente dissimilar ou aberrante do
    restante dos dados para levantar suspeita de ser
    causado por um mecanismo diferenciado
  • Equivalente a exceções
  • Causa dos outliers o que é esse mecanismo?
  • Erro de medida
  • Comportamento diferente do padrão
  • Dilema o ruído de uns é o sinal dos outros
  • Mineração de outliers
  • Detecção e análise de outliers

4
Motivação aplicações práticas
  • Detecção de Fraudes
  • Comportamento de gastos de consumidores
  • Em análises médicas (resultados não esperados de
    tratamentos )
  • Pesquisa farmacêutica
  • Marketing
  • Coaching (hey Felipão, Romário é um outlier! ?)
  • Etc.

5
Técnicas de Mineração de Exceções
  • Classes de técnicas
  • Semi-automático
  • Visualização
  • Automático
  • Baseados em Clustering
  • Baseado em Estatística
  • Baseado em Desvio
  • Baseado em Distância
  • Características desejáveis
  • Escalável para alta dimensionalidade
  • Interpretabilidade dos resultados
  • Computacionalmente eficiente
  • Dá importância ao comportamento local dos dados
  • Ordenação dos outliers

6
Roteiro
  • Motivação
  • Métodos Baseados em Agrupamento
  • Métodos Baseados em Estatística
  • Métodos baseados em Distância
  • Métodos Baseados em Desvio
  • Conclusões
  • Referências

7
Mineração de exceção baseada em agrupamento
  • Idéia
  • Formar grupos de dados
  • Dados que não se encaixam em nenhum grupos são
    considerados exceções

Inserir figura exemplo aqui
8
Mineração de exceção baseada em agrupamento
  • Vantagens
  • Reutiliza vasto leque de métodos de agrupamentos
  • Não requer conhecimento prévio de distribuição
  • Limitações
  • O que se busca é otimizar os agrupamentos, não a
    detecção de exceções
  • O que é exceção para uma configuração pode não
    ser para outra

9
Roteiro
  • Motivação
  • Métodos baseados em Agrupamento
  • Métodos baseados em Estatística
  • Métodos baseados em Distância
  • Métodos Baseados em Desvio
  • Conclusões
  • Referências

10
Mineração de Outliers Baseada em Estatística
  • Assume distribuição ou modelo probabilístico para
    um conjunto de dados
  • Ex distribuição normal
  • Usa Teste de discordância (TD) ? identifica os
    outliers com respeito ao modelo escolhido
  • Se um objeto for significativamente maior ou
    menor que o modelo escolhido ele é uma exceção
  • O TD examina 2 hipóteses
  • Uma hipótese de trabalho
  • Uma hipótese alternativa

11
Mineração de Outliers Baseada em Estatística
  • Vantagens
  • Pode ser avaliado o nível de significância de uma
    exceção
  • Usa métodos estatístico consolidados ao longo dos
    tempos
  • Limitações
  • O modelo escolhido influencia a identificação dos
    Outliers
  • Testa aberração ao longo de apenas uma única
    dimensão
  • Dificuldade na escolha de uma distribuição

12
Roteiro
  • Motivação
  • Métodos baseados em Agrupamento
  • Métodos baseados em Estatística
  • Métodos Baseados em Desvio
  • Métodos baseados em Distância
  • Conclusões
  • Referências

13
Mineração de Outliers Baseada em Desvio
  • Não usa métodos estatísticos nem medidas de
    distância
  • Define exceção como pontos cujo valor desviam da
    maioria ao longo de algumas ou todas as dimensões
  • Exceções são equivalentes a Desvios de
    comportamento

14
Mineração de Outliers Baseada em Densidade de
Distribuição
  • Características
  • Divide o espaço de dados em ? classe equi-depth
  • Cada classe contém uma fração f1/ ? dos
    registros
  • Diferentes localidades dos dados são densas com
    respeito a diferentes subconjuntos de atributos
  • Observa a densidade de distribuição da projeção
    dos dados
  • Gera projeções dos dados sobre k dimensões
  • Identifica nessas projeções, regiões de densidade
    anormalmente baixa
  • Pontos nessas regiões são considerados outliers
  • Suporta dados com alta dimensionalidade

15
Mineração de Outliers Baseada em Densidade de
Distribuição
Ideia
16
Mineração de Outliers Baseada em Densidade de
Distribuição
  • O número de pontos em um cubo pode ser
    aproximando por uma distribuição normal e então
  • Fração esperada
  • Desvio padrão
  • Coeficiente de dispersão de um cubo D
  • n(D) número de pontos em um cubo k-dimensional
  • N número de pontos no conjunto de dados
  • S(D)lt0 indica cubos com numero de pontos
    significativamente abaixo do esperado

17
Mineração de Outliers Baseada em Densidade de
Distribuição
  • Busca necessária para gerar as projeções
  • Busca exaustiva garante encontrar todas a
    exceções mas com complexidade alta
  • Busca genética com função de seleção, crossover e
    mutação específica para o problema permite
    encontrar, a um custo muito menor, a maioria das
    exceções

Comparativo de resultado
18
Mineração de Outliers em Cubos OLAP
  • Exploração dirigida a hipótese
  • O usuário interativamente busca por regiões de
    anomalias
  • As regiões de anomalias representam áreas de
    interesse
  • A busca das anomalias é feita com o uso das
    operações de cubo OLAP
  • Dril-down, roll-up, seleção
  • Problemas da exploração dirigida a hipótese
  • Espaço de busca muito grande
  • As anomalias podem estar em níveis inferiores ao
    ponto de partida da análise
  • Grande quantidade de agregados

19
Mineração de Outliers em Cubos OLAP
  • Exploração dirigida a descoberta
  • O usuário busca por anomalias guiado por
    indicadores pré-computados
  • Os indicadores permitem a observação de padrões
    anormais em qualquer nível de agregação
  • Muito útil, especialmente, para grande numero de
    dimensões
  • Um valor é uma exceção se ele difere
    significativamente do seu valor antecipado
  • Valor calculado por um modelo estatístico
  • Considera o contexto da posição da célula no cubo
  • Combina as tendências ao longo das diferentes
    dimensões a que uma célula pertence

20
Mineração de Outliers em Cubos OLAP
  • Exploração dirigida a descoberta
  • Definição de exceção (yijk yijk)/ ?ijk gt (?
    2.5)
  • Cálculo do valor antecipado yijk
  • Onde
  • ? l... (média ao longo de todas as dimensões)
  • ?irAr l...ir... - ?(média ao longo de uma
    dimensão)
  • ?irisArAs l...ir... is... - ?irAr -
    ?isAs ? (Média ao longo de duas dimensões)

21
Mineração de Outliers em Cubos OLAP
  • Exploração dirigida a descoberta
  • Equação iterativa para cálculo do ? (desvio
    padrão)

?2ijk (yijk)?
  • Onde ? é calculado por

22
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta
  • Os indicadores dão o grau de surpresa do valor da
    célula
  • Os indicadores são 3
  • SelfExp valor surpresa da célula em relação a
    outras células no mesmo nível de agregação
  • InExp Grau de surpresa em algum nível abaixo
    desta célula
  • PathExp grau de surpresa para cada caminho de
    drill-down a partir da célula.

23
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Destacar Exceções
24
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Exceção de Caminho
25
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Down por produto (PathExp)
26
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Drown para Diet-S (InExp)
27
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
28
Roteiro
  • Motivação
  • Métodos baseados em Agrupamento
  • Métodos baseados em Estatística
  • Métodos Baseados em Desvio
  • Métodos baseados em Distância
  • Conclusões
  • Referências

29
Mineração de Outliers Baseada em Distância Dk(p)
  • Busca Resolver limitações do estatístico
  • Um outlier é determinado baseado na distancia
    Dk(p)
  • Dk(p) distância de p ao seu k-esimo vizinho
  • Evita suposição sobre distribuição dos dados
  • Menor custo computacional
  • Pode, ás vezes, convergir para os métodos
    estatísticos
  • Desvantagem
  • Não é escalável para mais que 5 dimensões

30
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Loop aninhado
  • Para cada ponto p no conjunto de dados calcula
    Dk(p)
  • Para calcular cada Dk(p) varre todos os dados
  • Mantém uma lista de k vizinhos mais próximo para
    cada ponto p
  • Os n pontos com maior valor de Dk(p) são os n
    outliers
  • Para melhorar a eficiência pode-se considerar
    blocos de pontos ao invés de pontos individuais

31
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo baseado em índice
  • O uso de estruturas de índices espaciais pode
    diminuir substancialmente o calculo de distâncias
    (R-tree, por exemplo)
  • É possível podar sub-arvores cujos nós não podem
    conter outlier
  • A cada passo guarda-se os n outliers encontrados
  • Dnmin menor Dk entre os outlier
  • Dk(p)lt Dnmin P não pode ser um outlier

32
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições
  • Detecta os n outliers mais fortes
  • Os outliers são ordenados pela distância Dk(p)
  • Baseia se na distância dos vizinhos mais próximos
  • O conjunto de dados é divididos em partições por
    meio de algoritmos de agrupamento
  • Poda partições que não são candidatas a conter
    outlier
  • Acelera a identificação pois diminui a quantidade
    de pontos

33
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)
  • Gerar partições
  • Através de clustering
  • Calcular limites Dk para os pontos em cada
    partição
  • P.uppermax(Dk) e P.lowermin(Dk) dos pontos da
    partição P
  • Identificar partições candidatas a conter
    exceções
  • P.upper?minDkDistminPi.lower1? i ? l
  • Pi.lowergtPj.lowergt..gtPl.lower e o número de
    pontos seja pelo menos n
  • Computar exceções com os pontos nas partições
    candidatas
  • P.neighbors denota as partições vizinhas de P a
    uma distância de P.upper

34
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)
O número total de pontos a ser examinado para
calcular outlier é o das partições candidatasos
de suas vizinhas
35
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições
36
Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
37
Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
38
Roteiro
  • Motivação
  • Métodos baseados em Agrupamento
  • Métodos baseados em Estatística
  • Métodos Baseados em Desvio
  • Métodos baseados em Distância
  • Conclusões
  • Referências

39
Conclusões
  • Mineração de exceções
  • É de grande interesse
  • É custosa computacionalmente, principalmente para
    grande quantidade de dimensões
  • Necessita de métodos robustos

40
Referências
  • Data Mining concepts and techniques, de Han, J.
    Kamber, M., 2001, Morgan Kaufmann
  • Discovery-driven Exploration of OLAP Data Cubes,
    de Sunita Sarawagi, Rakesh Agrawal, Nimrod
    Megiddo, IBM Research Division
  • Efficient Algoritms for Mining Outliers from Data
    sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok
    Shim. 2000
  • Outlier Detection for High Dimensional Data.
    Charu C. Aggarwal e Philip S. Yu. 2001

41
Visão de Outliers
42
Comparativo Força bruta x algorotimo Evolutivo
Write a Comment
User Comments (0)
About PowerShow.com