Title: Tcnicas de Evaluacin del Aprendizaje
1Técnicas de Evaluación del Aprendizaje
2Índice
- Introducción
- Tests estadísticos de bondad de ajuste
- Estimación de la varianza
- Evaluación basada en coste
- Evaluación basada en complejidad
- Evaluación mediante regresión
- Evaluación mediante verosimilitud
- Otros criterios de evaluación
31.1 Evaluación de Clasificadores
- En el aprendizaje automático se debe comprobar
que los modelos aprendidos son suficientemente
precisos - Para ello se evalúan o contrastan hipótesis a
partir de una muestra S de la función objetivo
41.2 Tests de Hipótesis
- Comparar una hipótesis H0 con otra H1
- Se pretende demostrar que H0 es falsa
- Errores tipo I (aceptar H0 falsa) y II (rechazar
H0 verdadera) - Probabilidades de error a (controlada) ß (no
controlada) - Decisión fuerte rechazar H0
52.1 Tests de Bondad de Ajuste
- Se trata de evaluar si la muestra es consistente
con una determina distribución de probabilidad D
totalmente especificada - Se basan en la comparación del histograma
esperado y observado - Test ?² y Kolmogorov-Smirnov
62.2 Plots Probabilísticos
- Comparar la función de distribución empírica Fn
con un plot de distribución - Distribuciones que dependen de µ y s
- Si X gt Fµ,s entonces (X- µ)/s gt F0,1
- Se hace un plot de X contra G¹(Fn(X)) donde G¹
depende de la distribución a contrastar - Normalidad N(µ, s)
- Exponencialidad E(?, ?)
- Uniformidad U(µ, µs)
- Log-Normal LN(µ, s)
- Weibull Wb(?, ?, ß)
72.3 Tests Paramétricos
- Se pretende comparar el valor de un parámetro
(media, varianza, error, ) - Contrastado con el de otro o con un valor
- Interesa para saber si la media o el error puede
asumirse como cero, o si dos parámetros pueden
considerarse iguales - Equivale a realizar la estimación con IC y ver si
el valor está contenido en el intervalo
83 Estimación de la Varianza
- Un estimador es mejor cuanto menos sea su
varianza - En una muestra hay que enfrentarse con el error
de muestreo y hay que estimarlo - Método General
- Tomar A muestras y estimar con cada una de ellas
el parámetro ? - Var(?) S(?i ?)²/A(A-1) con ? S?i /A
93 Estimación de la Varianza
- Método de Agrupación Aleatoria
- Seleccionar 2 o más muestras y aplicar el método
general - Se habla de réplicas, clúster último o muestras
interpenetrantes - Método de Semi-muestras Balanceadas
- Se usa si hay muchos estratos de pequeño tamaño
- Se deben conocer las probabilidades de inclusión
en la muestra - Método Jackknife
- Estima el sesgo de un estimador T bias(T) a/n
b/n² O(1/n³) - Se particiona la muestra en A grupos aleatorios
de igual tamaño - Para cada grupo se estima ?i y con ellos se
calcula un pseudovalor ?aA? - (A-1) ?i y el
estimador Jackkife ?JK S?a / A - VJK S(?a - ?JK)²/A(A-1)
103 Estimación de la Varianza
- Método Bootstrap
- Se utiliza cuando la población es pequeña
- Se toma una muestra con la que se construye una
población artificial U suponiendo que representa
bien a la población real - Se toman A muestras independientes de U con
reemplazamiento (muestras bootstrap) - Para cada muestra bootstrap se estima ?i
- Se estima la varianza como VBSS(?i-?)²/(A-1)
donde ? S?i/A
114. Evaluación basada en coste
- Se controla el error tipo I (probabilidad a) ya
que da decisiones conservadoras y tener este
error resulta más costoso que el error tipo II - Se puede plantear el aprendizaje minimizando
estos costes - matriz de costes y matriz de ocurrencias
- C Sci,joi,j
- Otros costes pueden ser aquellos derivados de la
evaluación de atributos
124.1 Ejemplo
- Matriz de costes
- Matriz de ocurrencias
134.2 Gráficos de elevación (Lift charts)
- Representan el incremento en la tasa de respuesta
a medida que crece la muestra - Es una curva típica en marketing y responde a la
relación 80-20 - El eje X muestra el tamaño
- de la muestra en proporción
- al tamaño de la población
- El eje Y contiene el número
- de respuestas obtenidas
144.3 ROC (Receiver Operating Characteristic)
- Normalmente no se dispone de una matriz de costes
porque éstos varían o porque dependen del
contexto - ROC se basa en tablas de contingencia
(normalmente de 2x2) para seleccionar los
clasificadores con mejor comportamiento
154.3 ROC (Receiver Operating Characteristic)
- La tabla de contingencia se normaliza respecto al
acumulado real (nj) para calcular los valores
TPR y FPR, tasas de positivos correctos y falsos
positivos respectivamente - Estos valores están en 0, 1 y pueden
representarse en una gráfica TPR contra FPR
denominada gráfica ROC - La curva óptima será aquella que tenga mayor área
bajo ella
16Ejemplo ROC
- Tabla de ocurrencias para dos clasificadores
- ?
- ?
17Ejemplo ROC
184.4 Precisión y alcance
- Se basan en la matriz de ocurrencias normalizada
- Precisión Probabilidad de que se haya
clasificado correctamente (a posteriori) - Alcance Probabilidad de que se clasifique
correctamente (a priori) - P TPR/(TPRFNR) ATPR/(TPRFPR)
- Se utiliza para describir el comportamiento del
un modelo la medida - F (1ß²)PA (ß²PA)
195. Evaluación basada en complejidad
- La complejidad de las hipótesis como medida de
evaluación - La solución más sencilla muchas veces es la mejor
(navaja de Occam) - Principio MDL (Minimum Description Length)
- Se premian las hipótesis que minimicen la
complejidad en bits necesaria para describir la
hipótesis y las evidencias
206. Evaluación mediante regresión
- La evaluación mediante regresión se basa en la
tabla ANOVA - Se puede descomponer la variabilidad total
- SST SSR SSE
- Otras medidas son RMSE, RSE, MAE, R²,
217. Evaluación mediante verosimilitud
- La verosimilitud se define como una función
proporcional a la densidad de una variable X - Todo lo que no sea función del parámetro a
estudiar se considera una constante suprimible - En una muestra es proporcional al producto de las
densidades de cada variable
227. Evaluación mediante verosimilitud
- Se seleccionarán las hipótesis que tengan mayor
verosimilitud (Principio de máxima verosimilitud) - La función de verosimilitud L, si es contínua,
alcanza el máximo en ln(L) - Se emplea para calcular el EMV y para el test
Score SC ln(L)
238. Otros criterios de evaluación
- Novedad Premiar los modelos más sorprendentes
- Interés Premiar los modelos más interesantes
- Medidas subjetivas Tienen en cuenta el
conocimiento y las expectativas previas del
usuario - El modelo será interesante y novedoso si
contradice esos conocimientos y expectativas - Medidas objetivas Estiman el interés mediante
técnicas estadísticas y de minería de datos
248. Otros criterios de evaluación
- Simplicidad Premiar los modelos menos complejos
- Intelegibilidad Premiar los modelos más
comprensibles - Cuanto más cortas sean las reglas más
comprensible será el modelo - Cuanto mayor sea el nivel de abstracción más
comprensible será el modelo - Aplicabilidad Premiar los modelos que mayor
aplicación real tenga