Title: Aprendizado Baseado em Instancias
 1Aprendizado Baseado em Instancias 
 2Introdução
- Em contraste aos métodos de aprendizado que 
constroem uma descrição explicita genérica da 
função alvo.  - Os métodos baseados em instâncias guardam os 
exemplos de treinamento  - A generalização é posposta até que uma nova 
instância deva ser classificada  - Cada vez que uma nova instância é encontrada, 
seus relacionamentos com os exemplos previamente 
guardados é examinado para atribuir um valor de 
função alvo. 
  3IBL
- IBL, instance based learning 
 - Inclui os métodos de vizinho mais próximo, 
raciocínio baseado em casos  - IBL é um método chamado lazy 
 - IBL é utilizado em funções alvo com valores 
discreto ou valores reais. 
  4IBL
- IBL pode utilizar uma representação simbólica 
mais complexa para as instâncias -gt Raciocínio 
baseado em Casos.  - O custo de classificar uma nova instância é alto 
 - Indexação eficiente dos exemplos de treinamento
 
  5Aprendizado K-Nearest Neighbor
- O método IBL mas basico é o algoritmo k-nearest 
neighbor  - Este algoritmo assume que todas as instâncias 
correspondem a um ponto no espaço n-dimensional 
Rn  - O vizinho mais próximo de uma instância é 
definido em termos da distância euclidiana. 
  6Distância Euclidiana
- Seja a instância descrita por 
 - (a1(x),a2(x),.........an(x)) 
 - A distância entre 2 instâncias Xi e Xj 
 - d(Xi,Xj)(?r1,n (ar(Xi)-ar(Xj))2)1/2 
 - Esta abordagem é apropriada tanto para funções 
alvo discretas ou reais. 
  7Algoritmo para funções Alvo Discretas
- Neste caso o valor f(xq) retornado é o f(xq) mais 
freqüente entre os k vizinhos de f(xq).  - Algoritmo 
 - Fase de treinamento para cada exemplo de 
treinamento (x,f(x)), adicione o exemplo a lista 
de exemplos.  
  8Classificação
- Dado uma instância Xq a ser classificada 
 - Sejam X1...Xk as instâncias de treinamento mais 
próximas de Xq  - Retorne 
 - F(Xq) lt- argmax )(?i1,k a(r,f(Xi)) 
 - Onde a(a,b)1 se ab 
 - Caso contrario a(a,b)0
 
  9Numero de vizinhos
1 vizinho classifica como  5 vizinhos 
classificam como - 
 10Regressão
- Classificação no caso de valores reais 
 - f(Xq) (?i1,k,f(Xi))/k 
 
  11Algoritmo Nearest Neighbor Distâncias Ponderadas
- Um refinamento obvio do algoritmo é atribuir 
pesos a cada k-vizinho de acordo a sua distância 
a instância a classificar Xq  - Ex valores discretos 
 - F(Xq) lt- argmax )(?i1,kwi a(r,f(Xi)) 
 - Voto de acordo com a distância 
 - Wi  1/ d(Xq,Xi)2 
 - Se Xi Xq -gt f(Xq)  f(Xi)
 
  12Continuo
- f(Xq) (?i1,k,wi f(Xi))/ ?i1,k,wi 
 - Normalizar os pesos 
 - K  todas as instâncias ou constante 
 - Obs A introdução de pesos no algoritmo o faz um 
método altamente efetivo para vários problemas 
práticos  - É robusto a dados com ruído e efetivo com grandes 
bases de treinamento  - É sensível ao conjunto de atributos 
 
  13Regressão Localmente Ponderada
- Esta abordagem usa exemplos de treinamento 
ponderado por sua distância para formar uma 
aproximação a f.  - Ex podemos usar uma função linear, quadrática, 
rede neural ou alguma outra função.  - Dada uma instância a classificar Xq, a abordagem 
constrõe uma aproximação f usando os vizinhos de 
Xq.  - Esta aproximação é utilizada para calcular f(Xq)
 
  14Regressão Linear
- f(X)  w0  w1 a1(x) ..... wnan(x) 
 - E  ½ ?i1,k,( f(X)  fe(x))2 
 - ?W? ?i1,k,( f(X)  fe(x)) an(x)
 
  15Problemas de Dimensionalidade
- Imagine instâncias descritas por 20 atributos, 
mais somente 2 são relevantes  - Problemas de recuperação, kd-tree, as instâncias 
são guardadas nas folhas da arvore, com as 
instâncias vizinhas no no perto dele. Os nos 
internos da arvore ordenam a nova instância e a 
classificam testando seus atributos. 
  16Comentarios IHC
- Baixos requisitos de memoria e processamento 
 - Uma hipoteses 
 - Sensibilidade a ordem no treinamento, maior 
quantidade de instâncias de treinamento para 
converger  - Menos sensitivo a ruido
 
  17Indução de Conceitos Competitivos 
 18Indução de Conceitos Competitivos
- Protótipos 
 - Tarefa 
 - dado um conjunto de instâncias pre-classificadas 
 - encontrar uma descrição intencional 
 - um conjunto de protótipos
 
  19Indução de Conceitos Competitivos
- Esquemas competitivos não podem ser representados 
isoladamente  - A extensão de um conceito depende de sua 
descrição e da dos outros  - O operador típico é o calculo da media das 
instâncias de treinamento.  - A descrição especifica a tendência central das 
instâncias  
  20Aprendizado baseado em Instâncias
- Guardam instâncias específicas ao invés de uma 
descrição abstrata  - Protótipos 
 - conjunção de pares atributos valor
 
  21Protótipos 
 22Protótipos
- Usar protótipos para classificação é um processo 
de três passos  - Dada uma instância I, 
 - calcula-se sua distância a cada protótipo 
 - distância euclidiana, 
 - distância de hamming 
 - Usa-se o resultado para classificar a instância, 
o protótipo mais perto 
  23Método média das Instâncias
- Realizar a média das instâncias para encontrar o 
protótipo de cada classe  - Para determinar o valor pi de um atributo para um 
protótipo (numérico)  -  pi 1/n ? xij (j1,n)
 
  24Método incremental 
- Ao encontrar uma instância de uma classe nova, 
guarde esta instância como protótipo  - Quando observar uma instância de uma classe 
conhecida, recalcule o protótipo  - para cada atributo i 
 - ? pi (xi-pi)/n1 
 - para atributos nominais, escolha o valor mais 
frequente 
  25Método média das Instâncias
- Em termos de eficiência e elegância é um dos 
melhores  - pouca expressão representacional 
 - linhas de fronteiras 
 
  26Método dos Pesos
- Um dos problemas do método anterior é tratar 
todos os atributos de forma equivalente  - Se os atributos tem escalas diferentes 
 - normalizar 
 - Alguns atributos tem maior importância
 
  27Relevância dos atributos
Peso 
-
- -
Altura
Altura 0.93 e peso 0.68
Pesos de atributos iguais 
 28Métrica de distância
- ? ?i wi (pi-xi)2 
 -  wi ? 
 -  wi  1 - 1/n( ?(k1,c) ?j1,nk ?pki - xji?) 
 - n  número total de instâncias de treinamento 
 - nk  número de instâncias para a classe c
 
  29Modelos Estatisticos
  30Naive Bayes
- 2 presupostos 
 - todos os atributos são igualmente importantes 
 - independencia estatistica (dado o valor da 
classe)  - A independencia nunca é verdadeira 
 - Na pratica o esquema trabalha bem.
 
  31Probabilidades para a base Weather
Play
Windy
Humidity
Temperature
Outlook
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
5
9
2
6
False
4
3
High
2
2
Hot
3
2
Sunny
3
3
True
1
6
Normal
2
4
Mild
0
4
Overcast
1
3
Cool
2
3
Rainy
 5/ 14
9/ 14
2/5
6/9
False
4/5
3/9
High
2/5
2/9
Hot
3/5
2/9
Sunny
3/5
3/9
True
1/5
6/9
Normal
2/5
4/9
Mild
0/5
4/9
Overcast
1/5
3/9
Cool
2/5
3/9
Rainy 
 32Probabilidades para a base Weather
  33Regra de Bayes
- A Probabilidade de um evento H dada a evidência 
E   - A proobabilidade de H a priori  PrH 
 - A probabilidade de um evento antes de ver a 
evidência  - A probabilidade a posteriori de HPrHE 
 - A probabilidade de um evento após conhecer a 
evidência 
Thomas Bayes Nascido 1702 em London, 
EnglandMorto 1761 em Tunbridge Wells, Kent, 
England  
 34Naive Bayes para Classificação
- Aprendizado Qual é a probabilidade de uma classe 
dada uma instância??  - Evidência E  Instância 
 - Evento H  valor da classe para a instância 
 - Os atributos são independentes 
 -  PrHE PrE1HPrE2H...PrEnHPrE 
 -  PrE 
 
  35Exemplo
Evidência E
Probabilidade da classe yes 
 36Discusão
- Naive Bayes trabalha muito bem mesmo quando 
existe dependência entre atributos.  - Adicionando muitos atributos redundantes causará 
problemas