Tcnicas de Evaluacin del Aprendizaje - PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

Tcnicas de Evaluacin del Aprendizaje

Description:

2.2 Plots Probabil sticos. Comparar la funci n de distribuci n ... Se hace un plot de X contra G (Fn(X)) donde G depende de la distribuci n a contrastar: ... – PowerPoint PPT presentation

Number of Views:45
Avg rating:3.0/5.0
Slides: 25
Provided by: livercent
Category:

less

Transcript and Presenter's Notes

Title: Tcnicas de Evaluacin del Aprendizaje


1
Técnicas de Evaluación del Aprendizaje
  • Óliver Centeno Álvarez

2
Índice
  • Introducción
  • Tests estadísticos de bondad de ajuste
  • Estimación de la varianza
  • Evaluación basada en coste
  • Evaluación basada en complejidad
  • Evaluación mediante regresión
  • Evaluación mediante verosimilitud
  • Otros criterios de evaluación

3
1.1 Evaluación de Clasificadores
  • En el aprendizaje automático se debe comprobar
    que los modelos aprendidos son suficientemente
    precisos
  • Para ello se evalúan o contrastan hipótesis a
    partir de una muestra S de la función objetivo

4
1.2 Tests de Hipótesis
  • Comparar una hipótesis H0 con otra H1
  • Se pretende demostrar que H0 es falsa
  • Errores tipo I (aceptar H0 falsa) y II (rechazar
    H0 verdadera)
  • Probabilidades de error a (controlada) ß (no
    controlada)
  • Decisión fuerte rechazar H0

5
2.1 Tests de Bondad de Ajuste
  • Se trata de evaluar si la muestra es consistente
    con una determina distribución de probabilidad D
    totalmente especificada
  • Se basan en la comparación del histograma
    esperado y observado
  • Test ?² y Kolmogorov-Smirnov

6
2.2 Plots Probabilísticos
  • Comparar la función de distribución empírica Fn
    con un plot de distribución
  • Distribuciones que dependen de µ y s
  • Si X gt Fµ,s entonces (X- µ)/s gt F0,1
  • Se hace un plot de X contra G¹(Fn(X)) donde G¹
    depende de la distribución a contrastar
  • Normalidad N(µ, s)
  • Exponencialidad E(?, ?)
  • Uniformidad U(µ, µs)
  • Log-Normal LN(µ, s)
  • Weibull Wb(?, ?, ß)

7
2.3 Tests Paramétricos
  • Se pretende comparar el valor de un parámetro
    (media, varianza, error, )
  • Contrastado con el de otro o con un valor
  • Interesa para saber si la media o el error puede
    asumirse como cero, o si dos parámetros pueden
    considerarse iguales
  • Equivale a realizar la estimación con IC y ver si
    el valor está contenido en el intervalo

8
3 Estimación de la Varianza
  • Un estimador es mejor cuanto menos sea su
    varianza
  • En una muestra hay que enfrentarse con el error
    de muestreo y hay que estimarlo
  • Método General
  • Tomar A muestras y estimar con cada una de ellas
    el parámetro ?
  • Var(?) S(?i ?)²/A(A-1) con ? S?i /A

9
3 Estimación de la Varianza
  • Método de Agrupación Aleatoria
  • Seleccionar 2 o más muestras y aplicar el método
    general
  • Se habla de réplicas, clúster último o muestras
    interpenetrantes
  • Método de Semi-muestras Balanceadas
  • Se usa si hay muchos estratos de pequeño tamaño
  • Se deben conocer las probabilidades de inclusión
    en la muestra
  • Método Jackknife
  • Estima el sesgo de un estimador T bias(T) a/n
    b/n² O(1/n³)
  • Se particiona la muestra en A grupos aleatorios
    de igual tamaño
  • Para cada grupo se estima ?i y con ellos se
    calcula un pseudovalor ?aA? - (A-1) ?i y el
    estimador Jackkife ?JK S?a / A
  • VJK S(?a - ?JK)²/A(A-1)

10
3 Estimación de la Varianza
  • Método Bootstrap
  • Se utiliza cuando la población es pequeña
  • Se toma una muestra con la que se construye una
    población artificial U suponiendo que representa
    bien a la población real
  • Se toman A muestras independientes de U con
    reemplazamiento (muestras bootstrap)
  • Para cada muestra bootstrap se estima ?i
  • Se estima la varianza como VBSS(?i-?)²/(A-1)
    donde ? S?i/A

11
4. Evaluación basada en coste
  • Se controla el error tipo I (probabilidad a) ya
    que da decisiones conservadoras y tener este
    error resulta más costoso que el error tipo II
  • Se puede plantear el aprendizaje minimizando
    estos costes
  • matriz de costes y matriz de ocurrencias
  • C Sci,joi,j
  • Otros costes pueden ser aquellos derivados de la
    evaluación de atributos

12
4.1 Ejemplo
  • Matriz de costes
  • Matriz de ocurrencias

13
4.2 Gráficos de elevación (Lift charts)
  • Representan el incremento en la tasa de respuesta
    a medida que crece la muestra
  • Es una curva típica en marketing y responde a la
    relación 80-20
  • El eje X muestra el tamaño
  • de la muestra en proporción
  • al tamaño de la población
  • El eje Y contiene el número
  • de respuestas obtenidas

14
4.3 ROC (Receiver Operating Characteristic)
  • Normalmente no se dispone de una matriz de costes
    porque éstos varían o porque dependen del
    contexto
  • ROC se basa en tablas de contingencia
    (normalmente de 2x2) para seleccionar los
    clasificadores con mejor comportamiento

15
4.3 ROC (Receiver Operating Characteristic)
  • La tabla de contingencia se normaliza respecto al
    acumulado real (nj) para calcular los valores
    TPR y FPR, tasas de positivos correctos y falsos
    positivos respectivamente
  • Estos valores están en 0, 1 y pueden
    representarse en una gráfica TPR contra FPR
    denominada gráfica ROC
  • La curva óptima será aquella que tenga mayor área
    bajo ella

16
Ejemplo ROC
  • Tabla de ocurrencias para dos clasificadores
  • ?
  • ?

17
Ejemplo ROC
18
4.4 Precisión y alcance
  • Se basan en la matriz de ocurrencias normalizada
  • Precisión Probabilidad de que se haya
    clasificado correctamente (a posteriori)
  • Alcance Probabilidad de que se clasifique
    correctamente (a priori)
  • P TPR/(TPRFNR) ATPR/(TPRFPR)
  • Se utiliza para describir el comportamiento del
    un modelo la medida
  • F (1ß²)PA (ß²PA)

19
5. Evaluación basada en complejidad
  • La complejidad de las hipótesis como medida de
    evaluación
  • La solución más sencilla muchas veces es la mejor
    (navaja de Occam)
  • Principio MDL (Minimum Description Length)
  • Se premian las hipótesis que minimicen la
    complejidad en bits necesaria para describir la
    hipótesis y las evidencias

20
6. Evaluación mediante regresión
  • La evaluación mediante regresión se basa en la
    tabla ANOVA
  • Se puede descomponer la variabilidad total
  • SST SSR SSE
  • Otras medidas son RMSE, RSE, MAE, R²,

21
7. Evaluación mediante verosimilitud
  • La verosimilitud se define como una función
    proporcional a la densidad de una variable X
  • Todo lo que no sea función del parámetro a
    estudiar se considera una constante suprimible
  • En una muestra es proporcional al producto de las
    densidades de cada variable

22
7. Evaluación mediante verosimilitud
  • Se seleccionarán las hipótesis que tengan mayor
    verosimilitud (Principio de máxima verosimilitud)
  • La función de verosimilitud L, si es contínua,
    alcanza el máximo en ln(L)
  • Se emplea para calcular el EMV y para el test
    Score SC ln(L)

23
8. Otros criterios de evaluación
  • Novedad Premiar los modelos más sorprendentes
  • Interés Premiar los modelos más interesantes
  • Medidas subjetivas Tienen en cuenta el
    conocimiento y las expectativas previas del
    usuario
  • El modelo será interesante y novedoso si
    contradice esos conocimientos y expectativas
  • Medidas objetivas Estiman el interés mediante
    técnicas estadísticas y de minería de datos

24
8. Otros criterios de evaluación
  • Simplicidad Premiar los modelos menos complejos
  • Intelegibilidad Premiar los modelos más
    comprensibles
  • Cuanto más cortas sean las reglas más
    comprensible será el modelo
  • Cuanto mayor sea el nivel de abstracción más
    comprensible será el modelo
  • Aplicabilidad Premiar los modelos que mayor
    aplicación real tenga
Write a Comment
User Comments (0)
About PowerShow.com