Title: INE5644
1INE5644 Data Mining
- Tarefas de DCBD
- Prof. Luis Otavio Alvares
- alvares_at_inf.ufsc.br
- Apresentação adaptada do material do livro
- Introduction to Data Mining Tan, Steinbach e
Kumar - e de slides do prof. José Leomar Todesco (UFSC)
2Porque DCBD? Ponto de vista comercial
- Enormes quantidades de dados
- são coletadas e armazenadas
- Dados da Web, e-commerce
- Compras em supermercados,
- lojas de departamentos, etc.
- Transações bancárias e de
- cartões de crédito
- Os computadores se tornaram baratos e mais
poderosos - A pressão competitiva é muito forte
prof. Luis Otavio Alvares
3Porque DCBD? Ponto de vista científico
- Dados captados e
- armazenados em grande
- velocidade (GB/hora)
- sensores remotos em satélites
- telescópios varrendo o firmamento
- microarrays gerando dados de expressão
- gênica
- simulações científicas gerando terabytes
- de dados
- Técnicas tradicionais de anáilise são
- inviáveis para estes dados brutos
prof. Luis Otavio Alvares
4Motivação para minerar grandes bases de dados
- Freqüentemente há informação escondida nos
dados, que não é evidente - Analistas humanos podem levar semanas para
descobrir informação útil - Muitos dados nunca são analisados
The Data Gap
Total new disk (TB) since 1995
Number of analysts
5O que é DCBD?
- Muitas definições
- Extração não-trivial de informação implícita,
previamente desconhecida e potencialmente útil
de um conjunto de dados - Exploração e análise, de modo
- automático ou semi-automático,
- de grandes quantidades de
- dados para descobrir
- padrões úteis
prof. Luis Otavio Alvares
6O que (não) é DCBD?
- O que é DCBD
-
- descobrir que certos nomes são mais comuns em
alguns lugares (OBrien, ORurke, OReilly na
área de Boston) - Agrupar documentos similares recuperados por um
motor de busca de acordo com o seu contexto (ex
Amazon rainforest, Amazon.com,)
- O que não é
- buscar um nome e número de telefone em um
arquivo de clientes -
- Consultar um motor de busca na web sobre
Amazon
prof. Luis Otavio Alvares
7Observando e Aprendendo
Exemplo um proprietário de uma pequena loja de
vinhos conhece tudo sobre vinhos, por exemplo, o
tipo de uva, a região onde a uva foi cultivada, o
clima, o solo, a altitude dos parreirais, aroma,
sabor, cor, o processo de fabricação. Os clientes
gostam de visitar sua loja pois, também, aprendem
muito sobre vinhos. Porém, só isto não basta, o
proprietário precisa conhecê-los, como por
exemplo, qual o tipo de vinho que o cliente
gosta? Qual o poder aquisitivo? Assim, ele poderá
dar um atendimento diferenciado (um a um) aos
clientes. Temos, portanto, duas necessidades
conhecimento e aprendizado
Uma pequena loja ? poucos clientes ? atendimento
personalizado
Uma grande empresa ? milhares de clientes ?
dificuldade em dar um atendimento dedicado
prof. Luis Otavio Alvares
8Observando e Aprendendo
Qual a tendência nos dias atuais? Ter clientes
leais, através de um relacionamento pessoal,
um-para-um, entre a empresa e o cliente.
Dentro desta tendência, as empresas desejam
identificar os clientes cujos valores e
necessidades sejam compatíveis com o uso
prolongado de seus produtos, e nos quais é válido
o risco de investir em promoções com descontos,
pacotes, brindes e outras formas de criar essa
relação pessoal. Esta mudança de foco requer
mudanças em toda a empresa, mas principalmente
nos setores de marketing, vendas e atendimento ao
cliente.
prof. Luis Otavio Alvares
9Na pequena empresa, o proprietário com sua
inteligência e memória aprende, conhece o cliente.
prof. Luis Otavio Alvares
10Data Warehouse a memória da empresa
Para criar relações um-para-um em uma grande
empresa, o proprietário humano precisa ser
substituído por uma máquina capaz de tratar
grandes números, o computador. A memória do
proprietário é substituída por um grande banco de
dados denominado de Data Warehouse, enquanto a
capacidade de aprendizado é substituída por
técnicas de inteligência artificial e estatística
genericamente denominadas de Data Mining.
Diariamente gera-se dados, por exemplo,
considere que gera-se e armazena-se atributos
tais como o número do telefone, a duração da
chamada telefônica, o número do cartão de
crédito, o endereço da entrega, o produto
escolhido, renda do consumidor, escolaridade do
consumidor, gasto com lazer, etc. Certamente, só
armazenar dados não significa aprender sobre o
cliente.
prof. Luis Otavio Alvares
11Memória da empresa
Fonte de informações preciosas para a empresa
Dados armazenados
prof. Luis Otavio Alvares
12Data Mining a inteligência da empresa
Para o aprendizado ocorrer, uma série de
informações de diferentes formatos e fontes
precisa ser organizada de maneira consistente na
grande memória empresarial. Após isto, métodos de
análise estatística e inteligência artificial
precisam ser aplicados sobre esses dados e
relações novas e úteis à empresa devem ser
descobertas, ou seja, os dados devem ser
minerados. A mineração dos dados consiste mais
especificamente em descobrir relações entre
produtos, classificar consumidores, prever
vendas, localizar áreas geográficas
potencialmente lucrativas para novas filiais,
inferir necessidades, entre outras.
prof. Luis Otavio Alvares
13Data Mining
Na grande empresa, a memória é o data warehouse,
enquanto a inteligência é o data mining
prof. Luis Otavio Alvares
14Data Mining and BI
Aumento do potencial Para suportar decisões do
negócio
Diretor
Making Decisions
Analista de negócios
Data Presentation
Visualization Techniques
Data Mining
Analista de dados
Knowledge Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Papel, Arquivos, Provedores de informação,
Database Systems, OLTP
prof. Luis Otavio Alvares
15Tipos de descobertas (tarefas de DCBD)
- Os dois principais objetivos de alto nível da
DCBD são a descrição e a predição - a descrição se concentra em encontrar padrões
que descrevem os dados de forma compreensível
para o usuário - a predição envolve usar valores conhecidos de
campos ou variáveis para predizer o valor
desconhecido ou futuro de variáveis de interesse -
- para isso, utiliza-se vários tipos de descoberta
ou tarefas de DCBD
16Principais Tarefas de DCBD ...
- Classificação Preditiva
- Clustering Descritiva
- Descoberta de regras de associação Descritiva
- Descoberta de padrões seqüenciais Descritiva
- Regressão Preditiva
- Detecção de desvios Preditiva
prof. Luis Otavio Alvares
17Classificação
18Classificação exemplos
- O professor classifica o desempenho do aluno em
A, B, C, D ou E - Identificar um cogumelo como sendo venenoso ou
não - Reconhecimento de caracteres
19Classificação definição
- Dada uma coleção de registros (conjunto de
treinamento) - Cada registro contém um conjunto de atributos, e
um dos atributos é a classe. - Encontre um modelo para o atributo classe como
uma função dos valores dos outros atributos - Objetivo definir a classe para novos registros
tão acuradamente quanto possível.
prof. Luis Otavio Alvares
20Classificação Aplicação 1
- Marketing direto
- Objetivo Reduzir o custo na oferta para um
conjunto alvo de consumidores mais prováveis de
comprar um novo produto. - Abordagem
- Usar os dados de um produto similar oferecido
anteriormente. - Sabemos quais consumidores compraram e quais não
compraram. Esta decisão compra, não compra
forma o atributo classe. - Coletar várias informações pessoais, de estilo de
vida e de interações com a empresa de todos estes
clientes. - Tipo de atividade, local da moradia, rendimentos,
estado civil, compras anteriores, etc. - Usar esta informação como atributos de entrada
para gerar um modelo de classificação.
From Berry Linoff Data Mining Techniques, 1997
prof. Luis Otavio Alvares
21Classificação Aplicação 2
- Detecção de fraudes
- Objetivo identificar casos de fraude em
transações com cartão de crédito. - Abordagem
- Usar as transações do cartão de crédito e as
informações do proprietário como atributos. - Quando um consumidor compra, o que ele compra,
onde ele compra, compra a vista ou a prazo, valor
da compra, etc - Rotular as transações passadas como fraude ou
não. Isto forma o atributo classe. - Gerar um modelo de classificação para as
transações. - Usar este modelo para detectar fraudes observando
as novas transações .
prof. Luis Otavio Alvares
22Classificação Aplicação 3
- Conservação de clientes
- Objetivo prever se é provável que um cliente de
uma empresa de telefone celular passe para um
concorrente. - Abordagem
- Usar um registro detalhado das transações de cada
cliente antigo e atual para obter os atributos. - Com que freqüência o cliente faz ligações, para
quem ele liga, a que horas ele liga mais
freqüentemente, sua renda, estado civil, desde
quando é cliente, etc. - Rotular os clientes como fiéis ou infiéis a
empresa. - Gerar um modelo.
From Berry Linoff Data Mining Techniques, 1997
prof. Luis Otavio Alvares
23Classificação Aplicação 4
- Análise de objetos celestes
- Objetivo predizer a classe (estrela ou galáxia)
de objetos celestes, especialmente de pouco
brilho, baseado em imagens do telescópio do Monte
Palomar - 3000 imagens com 23.040 x 23.040 pixels por
imagem. - Abordagem
- Segmentar a imagem.
- Medir os atributos da imagem (40 por objeto)
- Gerar um modelo baseado nestes atributos.
- Resultado foram descobertos 16 novos quasars,
alguns dos mais distantes objetos já
identificados!
From Fayyad, et.al. Advances in Knowledge
Discovery and Data Mining, 1996
prof. Luis Otavio Alvares
24Classificando Galáxias
Courtesy http//aps.umn.edu
- Atributos
- Image features,
- Characteristics of light waves received, etc.
Early
- Classe
- Estágio da formação
Intermediate
Late
- dados
- 72 milhões de estrelas, 20 milhões de galáxias
- Object Catalog 9 GB
- Image Database 150 GB
prof. Luis Otavio Alvares
25Clustering (formação de agrupamentos)
26Clustering (formação de agrupamentos)
- Dado um conjunto de dados, cada um com um
conjunto de atributos, e uma medida de
similaridade entre eles, encontre clusters
(grupos) tais que - Dados de um grupo são mais similares entre si que
com dados de outros grupos - Dados de grupos diferentes são menos similares
entre si. - Medidas de similaridade
- Distância Euclidiana, para atributos contínuos
- Outras medidas específicas do problema.
prof. Luis Otavio Alvares
27Clustering exemplo
- Clustering em espaço 3-D baseado em distância
euclidiana.
Distâncias intracluster são minimizadas
Distâncias intercluster são maximizadas
prof. Luis Otavio Alvares
28Clustering Aplicação 1
- Segmentação de mercado
- Objetivo subdividir um mercado em diferentes
subconjuntos de clientes onde cada subconjunto
possa ser selecionado como objetivo específico de
marketing a ser alcançado. - Abordagem
- Obter diferentes atributos de clientes baseado em
informações cadatrais e de estilo de vida dos
clientes - Encontrar grupos (clusters) de clientes
similares. - Medir a qualidade dos clusters observando padrões
de compra entre clientes do mesmo cluster versus
entre clientes de outros clusters
prof. Luis Otavio Alvares
29Clustering Aplicação 2
- Clustering de documentos
- Objetivo encontrar grupos de documentos que são
similares entre si baseado em termos importantes
que aparecem nos documentos. - Abordagem identificar termos que ocorrem
freqüentemente em cada documento. Criar uma
medida de similaridade baseada na freqüência dos
diferentes termos. Usar esta medida para a
formação dos grupos. - Ganho os clusters podem ser usados em
Recuperação de Informações para relacionar um
novo documento ou termo de pesquisa a clusters de
documentos.
prof. Luis Otavio Alvares
30Clustering de ações da bolsa
- Observe os movimentos das ações a cada dia.
- Dados ação-UP/DOWN
- Medida de similaridade Duas ações são similares
se os eventos descritos por elas freqüentemente
acontecem juntos no mesmo dia.
prof. Luis Otavio Alvares
31Associação
32Dependência (associação) entre atributos
- Exemplos
- determinados procedimentos médicos aparecem
sempre juntos - determinados procedimento médicos aparecem mais
associados a homens e outros a mulheres - compradores de leite geralmente compram pão na
mesma transação
33Exemplo vendas casadas
Sei que quem compra o produto A também compra o B.
PRODUTO A
PRODUTO B
Compra de produto
Oferta de produto relacionado
PRODUTO A
34(No Transcript)
35Regras de associação Definição
- Dado um conjunto de registros, cada um com um
conjunto de itens de uma certa coleção - Produza regras de dependência que vão predizer a
ocorrência de um item baseado na ocorrência de
outros.
Regras descobertas leite --gt guaraná
fralda, leite --gt cerveja
prof. Luis Otavio Alvares
36Regras de associação Aplicação 1
- Gerenciamento de prateleiras de supermercado.
- Objetivo identificar itens que são comprados
juntos por um grande número de clientes. - Abordagem processar os dados das transações de
compra obtidos com os códigos de barras para
encontrar dependências entre itens. - Uma regra clássica--
- Se um cliente compra fralda e leite ele tem uma
boa probabilidade de comprar também cerveja. - Portanto, não fique surpreso de encontrar pacotes
de cerveja próximo das fraldas!
prof. Luis Otavio Alvares
37Regras de associação Aplicação 2
- Gerência de inventário
- Objetivo uma empresa de consertos de
eletrodomésticos quer antecipar a natureza dos
consertos nos aparelhos dos seus clientes de
forma a ter em seus veículos de serviço peças de
reposição, de modo a poder realizar o conserto na
hora, sem precisar voltar à casa dos clientes - Abordagem Analisar os dados de consertos
anteriores em termos de ferramentas e peças
necessárias para descobrir padrões de
co-ocorrência.
prof. Luis Otavio Alvares
38Padrões sequenciais
39Padrões sequenciais
- Detecção de dependências temporais entre eventos.
- Exemplos
- determinado procedimento médico sempre precede
outro - turistas que visitam o museu do Louvre depois
visitam a Notre Dame
- Definição
- Dado um conjunto de objetos, com cada objeto
associado com a sua linha de eventos, encontre
regras com forte dependência seqüencial entre
diferentes eventos.
prof. Luis Otavio Alvares
40Padrões seqüenciais exemplos
- Em transações de vendas
- Livraria de informática
- (Intro_To_Visual_C) (C_Primer) ?
(Perl_for_dummies,Tcl_Tk) - Loja de artigos esportivos
- (tenis) (raquete, bolas) ? (moleton)
prof. Luis Otavio Alvares
41Regressão
42Regressão
- Prediz o valor de uma variável contínua baseado
no valor de outras variáveis, considerando um
modelo de dependência linear ou não linear. - Bastante estudado em estatística e redes neurais
- Exemplos
- Previsão da quantidade de vendas de um novo
produto baseado nos gastos com propaganda - Previsão da velocidade do vento em função da
temperatura, humidade, pressão atmosférica, etc. - Previsão da evolução do índice de bolsa de
valores.
prof. Luis Otavio Alvares
43Detecção de desvios
44Detecção de desvios
- Determinar desvios significativos do
comportamento normal - Aplicações
- Detecção de fraudes em
- cartões de crédito
- Detecção de
- invasão em redes
- de computadores
- Detecção de eventos
- através de mensagens
- do Twitter
Typical network traffic at University
level may reach over 100 million connections per
day
prof. Luis Otavio Alvares
45exemplo sistema de mortalidade
- Doenças P Algumas afecções originadas no
período perinatal - Uruguaiana apresenta um desvio significativo em
relação a esta classe de doenças, pois foram
registrados muito mais casos de morte do que o
esperado. - Porto Alegre registrou menos mortes do que a
quantidade esperada, para esta classe de doenças. - Caxias do Sul apresenta um desvio em relação às
doenças Q- malformação congênita, deformidades e
anomalias cromossômicas. Foi registrado um
número de mortes significativamente maior do que
o esperado para a cidade.
46Principais Tarefas de DCBD ...
- Classificação Preditiva
- Clustering Descritiva
- Descoberta de regras de associação Descritiva
- Descoberta de padrões seqüenciais Descritiva
- Regressão Preditiva
- Detecção de desvios Preditiva
47Exercício
- Especifique a tarefa de DCBD em cada um dos casos
abaixo
1 agrupar proteínas com funcionalidades similares
2 predizer a quantidade de vendas de um novo produto baseado nos gastos com propaganda
3 prever se é provável que um cliente de uma empresa de telefone celular passe para um concorrente
4 identificar itens que são comprados juntos por um grande número de clientes
48Desafios para Data Mining
- Escalabilidade
- Dimensionalidade
- Dados complexos e heterogêneos
- Qualidade dos dados
- Propriedade e distribuição dos dados
- Preservação da privacidade
- Dados em fluxo contínuo
49Próxima aula