Aprendizaje Automatizado - PowerPoint PPT Presentation

1 / 25
About This Presentation
Title:

Aprendizaje Automatizado

Description:

Aprendizaje Automatizado rboles de Clasificaci n rboles de Clasificaci n Entrada: Objetos caracterizables mediante propiedades. Salida: En rboles de decisi n ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 26
Provided by: AT1133
Category:

less

Transcript and Presenter's Notes

Title: Aprendizaje Automatizado


1
Aprendizaje Automatizado
  • Árboles de Clasificación

2
Árboles de Clasificación
  • Entrada Objetos caracterizables mediante
    propiedades.
  • Salida
  • En árboles de decisión una decisión (sí o no).
  • En árboles de clasificación una clase.
  • Conjunto de reglas.

3
Árboles de Clasificación
  • Se clasifican las instancias desde la raíz hacia
    las hojas, las cuales proveen la clasificación.
  • Cada nodo especifica el test de algún atributo.
  • Ejemplo Si
  • (Outlook Sunny, Temperature Hot, Humedity
    High, Wind Strong)
  • Juego al tenis?

4
Play Tennis
5
Play Tennis
  • Disyunción de conjunciones
  • (Outlook Sunny And Humidity Normal)
  • Or (Outlook Overcast)
  • Or (Outlook Rain And Wind Weak)

6
Play Tennis
7
Problemas Apropiados
  • Las instancias pueden ser representadas por pares
    (atributo, valor) .
  • La función objetivo tiene valores discretos (o
    pueden ser discretizados).
  • Pueden ser requeridas descripciones en forma de
    disjunción.
  • Posiblemente existen errores en los datos de
    entrenamiento (robustos al ruido).
  • Posiblemente falta información en algunos de los
    datos de entrenamiento.

8
Algoritmo básico para obtener un árbol de decisión
  • Búsqueda exhaustiva, en profundidad (de arriba
    hacia abajo), a través del espacio de posibles
    árboles de decisión (ID3 y C4.5).
  • Raíz el atributo que mejor clasifica los datos
  • Cuál atributo es el mejor clasificador?
  • ? respuesta basada en la ganancia de
    información.

9
Algoritmos ID3 (Interactive Dichotomizer Version
3)
  • Entropía
  • Entropía(S)? - pÅ log2 pÅ - pQ log2 pQ
  • pÅ proporción de ejemplos positivos.
  • pQ proporción de ejemplos negativos.
  • S conjunto de datos actual.
  • Por ejemplo, en el conjunto de datos Play Tennis
  • pÅ 9/14, pQ 5/14 y E(S) 0.940
  • En general Entropía(S) - ? i1,c pi log2
    pi

10
Algoritmos ID3 (Interactive Dichotomizer Version
3)
  • Por ejemplo
  • Si S1 es el subconjunto de S en el cual
  • Humedity High
  • Entonces
  • pÅ 3/7
  • pQ 4/7
  • Entropía(S1) -3/7 log2 3/7 - 4/7 log2 4/7
    0.985

11
Entropía y proporción de positivos
12
Ganancia de información
  • Mide la reducción esperada de entropía sabiendo
    el valor del atributo A
  • Gain(S,A) ?
  • Entropía(S) - ?v?Valores(A) (Sv/S)Entropía(S
    v)
  • Valores(A) Conjunto de posibles valores del
    atributo A
  • Sv Subconjunto de S en el cual el atributo A
    tiene el valor v
  • Ej Gain(S, Humedad) 0.940 - (7/14)0.985 -
    (7/14)0.592

proporción de humedad alta
prop. de humedad normal
13
Play Tennis
14
Play Tennis
  • Gain(S,Outlook) 0.246
  • Gain(S,Humidity) 0.151
  • Gain(S,Wind) 0.048
  • Gain(S,Temperature) 0.029
  • ? Outlook es el atributo del nodo raíz.

15
Play Tennis
16
Algoritmo CART (Classification and Regression
Trees)
  • Árboles de clasificación predicen categorías de
    objetos.
  • Árboles de regresión predicen valores continuos.
  • Partición binaria recursiva.
  • En cada iteración se selecciona la variable
    predictiva y el punto de separación que mejor
    reduzcan la impureza.

17
Índice de diversidad de Gini
18
Índice de diversidad de Gini
  • Ai es el atributo para ramificar el árbol.
  • Mi es el número de valores diferentes del
    atributo Ai.
  • p(Aij) es la probabilidad de que Ai tome su
    j-ésimo valor (1 lt j lt Mi).

19
Índice de diversidad de Gini
  • p(CkAij) es la probabilidad de que un ejemplo
    pertenezca a la clase Ck cuando su atributo Ai
    toma su j-ésimo valor.
  • p(CkAij) es 1 - p(CkAij).
  • Este índice es utilizado como una medida de
    impureza de la información al igual que la
    entropía.

20
Sobreentrenamiento
  • Se debe evitar el sobreentrenamiento
  • Parar de crecer el árbol temprano.
  • Postprocesamiento del árbol (poda)
  • Cómo?
  • Usar un conjunto de ejemplos de validación
  • Usar estadísticas

21
Matlab - Statistics Toolbox
  • La clase _at_classregtree está diseñada para
    manipular árboles de regresión y árboles de
    decisión (CART).
  • Ejemplo
  • gtgt load fisheriris
  • gtgt t classregtree(meas, species, 'names', 'SL'
    'SW' 'PL' 'PW')

22
Matlab - Statistics Toolbox
  • t
  • Decision tree for classification
  • 1 if PLlt2.45 then node 2 else node 3
  • 2 class setosa
  • 3 if PWlt1.75 then node 4 else node 5
  • 4 if PLlt4.95 then node 6 else node 7
  • 5 class virginica
  • 6 if PWlt1.65 then node 8 else node 9
  • 7 class virginica
  • 8 class versicolor
  • 9 class virginica

23
Matlab - Statistics Toolbox
gtgt view(t)
24
Matlab - Statistics Toolbox
  • Clasificar datos
  • sfit eval(t,meas)
  • Computar la proporción de clasificados
    correctamente
  • pct mean(strcmp(sfit,species))
  • pct
  • 0.9800

25
Matlab - Statistics Toolbox
  • Calcular el promedio de errores al cuadrado
  • mse mean((sfit - species).2)
  • Podar el árbol
  • t2 prune(t, 'level', 1)
Write a Comment
User Comments (0)
About PowerShow.com