Title: RESUMEN DE LOS TEMAS 1 y 2
1RESUMEN DE LOS TEMAS 1 y 2
2(No Transcript)
3TEMA III LA FIABILIDAD DEL TEST
- 1. La fiabilidad como equivalencia entre formas
paralelas - 2. La fiabilidad como estabilidad temporal
- 3. La fiabilidad como consistencia interna
- - Método 2 mitades
- - Coeficiente ? de Cronbach
- 4. El error típico de medida
- 5. Factores que afectan a la fiabilidad
4- RECORDATORIO
- Con qué tiene que ver el error?
- Factores individuales
- Estado de la persona Salud, motivación,
ansiedad, concentración,(E) - Factores situacionales
- Condiciones de realización del test (E)
- Factores del instrumento de evaluación
- Las preguntas concretas (E)
51. Formas paralelas (coeficiente de equivalencia)
- Queremos saber la fiabilidad de un test para
medir Agresividad Potencial (forma 1 con 20
ítems). Además hemos construido otro test
paralelo a este (forma 2 con 20 ítems). - Cuál sería una primera forma de estimar la
fiabilidad de la prueba de 20 ítems? - La correlación entre las 2 pruebas para un grupo
de sujetos si son formas paralelas. - Recordemos que dos formas son paralelas si miden
lo mismo y con igual varianza de error (ver tema
2). - Podemos calcular el coeficiente de fiabilidad de
la forma 1, aplicando las 2 formas a una muestra
grande.
6- Formas paralelas
- (coeficiente de equivalencia)
rxx 0.789 es el coeficiente de fiabilidad de la
forma 1 (ó de la forma 2). Por lo tanto el 78.9
de la varianza de las puntuaciones empíricas en
el test se debe a la variabilidad del nivel del
verdadero nivel de rasgo.
1. rxx, la correlación entre 2 columnas, es el
coeficiente de fiabilidad por el método de las
formas paralelas PARA UNA DE LAS FORMAS. 2. Las
formas deben ser paralelas. 3. Se interpreta como
la proporción o el porcentaje (X 100) de varianza
empírica que se debe a la variabilidad de las
personas a nivel de puntuaciones verdaderas
7Los que pasaron la forma A hubieran tendido a
obtener la misma puntuación en la forma B si se
les hubiera aplicado? Seguramente sí. La
correlación entre las 2 formas paralelas es alta.
Si volvemos a aplicar la forma A una año después
y no ha cambiado su nivel de Agresividad
PotencialSerá 0.789 la correlación entre las 2
aplicaciones? NO lo podemos saber con el
coeficiente de fiabilidad como correlación entre
formas paralelas.
8Problemas
- 1. Es necesario que las formas sean paralelas.
Por ello es poco utilizada por lo costoso de
construir formas paralelas. - 2. Fuentes de error no consideradas Cambios
temporales debidos a la persona o a la situación
(Fuentes de error consideradas Cambios del
contenido específico).
92. Fiabilidad Test-retest (coeficiente de
estabilidad)
- Queremos saber la fiabilidad de un test y para
ello aplicamos el mismo test en 2 momentos
distintos (Test y Re-test). - Podemos calcular el coeficiente de fiabilidad del
test calculando la correlación de las
puntuaciones en las 2 aplicaciones para una
muestra grande.
10- rxx, la correlación entre las 2 aplicaciones es
el coeficiente de fiabilidad test-retest del
test. - El intervalo temporal debe ser suficiente (3 ó
más meses) para que las medidas sean
independientes - Efectos de recuerdo Congruencia
3. Se interpreta como la proporción o (X 100)
porcentaje de varianza empírica que se debe a la
variabilidad de las personas en las puntuaciones
verdaderas. En nuestro caso, calculamos la
correlación entre ambas aplicaciones rxx 0.65.
0.65 es el coeficiente de fiabilidad del test.
Por lo tanto el 65 de la varianza de las
puntuaciones empíricas en el test se debe a la
variabilidad de las puntuaciones verdaderas.
11Problemas
- 1. Sólo es pertinente cuando la estabilidad forma
parte de la definición del rasgo. - Esto no ocurre si hay maduración o aprendizaje..
- 2. Fuentes de error no consideradas Cambios del
contenido específico (Fuentes de error
consideradas Cambios temporales debidos a la
persona o a la situación).
12Ejemplo 1 En el manual de un test se afirma que
las correlaciones test-retest de 2 pruebas son
- Una prueba es ansiedad rasgo (por lo general
se siente cansado?) y la otra es ansiedad
estado (en este momento, se siente cansado?) - Qué prueba es la de ansiedad rasgo?
- Es .25(.16.27.31)/3 el rxx de la prueba 1?
- Es suficiente con esperar una hora para hallar
el rxx de la prueba 2?
13Ejemplo 2 16PF
Pregunta Es posible que haya alto test-retest y
baja equivalencia? y viceversa?
1416 PF- continuación
-
- En relación a la fiabilidad del 16PF de Cattell,
Kline (1993) dice - A pesar de lo que dicen Cattell et al. (1970)
en el manual del test - es inevitable una baja
fiabilidad cuando la variable mide más de un
componente -, no es posible evitar las negativas
consecuencias que tiene una baja fiabilidad para
el proceso de medición..... sería mejor dividir
cada escala en dos escalas fiables. - .... la fiabilidad de varias de las escalas del
16PF es demasiado baja para el uso individual del
test... Si tomamos 0.70 como la fiabilidad mínima
para utilizar un test para decidir sobre
individuos, 10 escalas no cumplen este
criterio. Las fiabilidades de las escalas N y Q3
son extremadamente bajas y no parece conveniente
su uso en ningún caso.
The Handbook of Psychological Testing Paul
Kline(1993), Routledge London (p. 474 y 475)
153. LA FIABILIDAD COMO CONSISTENCIA INTERNA
- Queremos saber la fiabilidad de un test y
aplicamos un único test en una única ocasión. - Podemos calcular la consistencia interna (la
similaridad de las respuestas de los sujetos a
distintas partes del test) de 2 formas por el
método de las 2 mitades y por el coeficiente
Alpha de Cronbach.
163.1. Método de las 2 mitades (basado en la
fórmula de Spearman-Brown)
17Dividimos el test en 2 mitades (p.e., ítems pares
e impares).
- 1. Primero, se calcula la correlación entre las 2
columnas. Si las 2 mitades son formas paralelas
esa correlación (rPI) es el coeficiente de
fiabilidad de una de las mitades. - En nuestro caso, calculamos la correlación entre
ambas aplicaciones es el coeficiente de
fiabilidad de la mitad impar (ó de la mitad par).
18- 2. Segundo, se calcula rxx (coeficiente de
fiabilidad 2 mitades) aplicando la fórmula de
Spearman-Brown a la correlación entre las 2
columnas. PARA EL TEST TOTAL.
El coeficiente de fiabilidad del test original
rxx es ahora rPI (coef. de fiabilidad de una de
las mitades del test). Rxx es el coef. de
fiabilidad del test final (juntando las 2
mitades) y es el coef. de fiabilidad 2 mitades
que ahora llamaremos rxx
19- En nuestro caso, calculamos el coeficiente de
fiabilidad 2 mitades
En nuestro caso, el valor 0.45 es el coeficiente
de fiabilidad del test según el procedimiento de
las 2 mitades.
20- 3.- Se interpreta como el porcentaje de varianza
empírica que se debe a la variabilidad en las
puntuaciones verdaderas. - En nuestro caso, se puede decir que el 45 de la
varianza de las puntuaciones empíricas en el test
se debe a la variabilidad en el verdadero nivel
de rasgo.
21(No Transcript)
22Test para medir la aptitud matemática
- B) Test para niños que están aprendiendo a sumar
(sin tiempo límite) - 1) 5 3
- .
- 8) 234 315
- .
- 24) 5321 17564
- .
- 36) 45653 23457 98766
- El investigador calcula el coeficiente de
fiabilidad por el método de las 2 mitades
dividiendo el test en 2 partes (la primera mitad
formada por los ítems del 1 al 18, la segunda
mitad formada por los ítems del 19 al 36).
Obtiene un rxx de 0.4 Está actuando de la
forma correcta? -
23Problemas
- 1. Es necesario que las formas sean paralelas
(igual media/igual varianza) - - contenido y dificultad balanceados.
- - cuidado con el tiempo (tests de velocidad).
- 2. Fuentes de error no consideradas Cambios
temporales (Fuentes de error consideradas
Cambios del contenido específico). - 3. Puede depender de las mitades concretas en que
se ha dividido el test.
24Ejemplo
- McKelvie (1986) aplicó el test (Vividness of
Visual Imagery) dos veces y calculó su fiabilidad
por dos procedimientos -
25Ejemplo Se aplica un test de 2 veces y se
calcula su fiabilidad por 2 procedimientos
Dos mitades En grupo 1, primera aplicación, r
.90 En grupo 2, segunda aplicación, r
.86 Test-Retest En grupo 1, r .96 En grupo 2,
r .71 Es apropiado el intervalo de 10 minutos?
26Práctica 2
- Rasgos altruismo, indefensión, motivación,
ansiedad, neuroticismo, dogmatismo, actitudes,
liderazgo, integridad, intereses, empatía - romanticismo, celoso, fidelidad a la pareja,.
- Test de 14 ítems (4 categorías ordenadas)
- (Recordar redactar ítems e inversos)
- Variables criterio (hasta 5 variables)
- 1- Ítems de test que (se sabe que) mide ese rasgo
u otro asociado. - 2- Conducta real, que se sabe asociada al rasgo.
- 3- Datos biográficos que se saben asociados al
rasgo y disponibles en la muestra disponible. - 4- Combinación de todos los anteriores.
27Ejemplo 1
- En test (supuestamente) de agresividad,
- 1 - Ítems de escalas de hostilidad, ira, o de
escalas de agresividad ya validadas - 2 - a) Indica cuantas veces has llegado a las
manos en los últimos dos años - 0( ) 1( ) 2( ) 3 o más ( )
- b) Indica cuantas discusiones fuertes has
suscitado en el último mes - 0( ) 1( ) 2( ) 3 o más ( )
- c) Practicas algún deporte violento, como
boxeo, rugby,..? - SI( ) NO( ) Cuál?
- 3 - hombre ( ) mujer ( )
28Ejemplo 2
- En test supuestamente de actitud ante el gobierno
actual, - 1 -
- 2 - a) Qué votaste en las pasadas elecciones
generales? - No voté ( ) PP ( ) PSOE ( ) Otro ( )
-
- b) Indica si estás afiliado a algún partido o
asociación estudiantil - SI( ) NO( ) Cuál?
-
- 3 -
29- Número de grupo de prácticas (obligatorio)
- Nombre del test (opcional)
- Instrucciones del test (si son necesarias)
- Los 14 ítems del test
- Instrucciones de las variables criterio (si son
necesarias) - Los ítems criterio (no más de 5 ítems)
303.2. La fiabilidad como consistencia interna
(Alpha de Cronbach
Se recurre a las unidades más pequeñas los
ítems. Hemos aplicado un test de 4 ítems y
queremos saber el grado de consistencia interna
del test.
31Recordar varianza de un test
32- Cómo se calcula? Si tenemos k ítems en nuestro
test. Hay 2 formas de calcular el coeficiente
Fórmula 1 En el numerador aparece la suma de
todas las covarianzas entre todos los ítems. En
el denominador aparece la varianza del
test Fórmula 2 En el numerador aparece la suma
de todas las varianzas de los ítems y en el
denominador la varianza del test
33Demostración de que las 2 fórmulas para Alpha
son iguales Sabemos que
si despejamos
entonces
luego
34MATRIZ DE VARIANZAS-COVARIANZAS
SX20.250.250.250.252(-.083.083.083.083-.08
3.083)1.33
35INTERPRETACIÓN
- Es un índice de consistencia interna y se
relaciona con el grado en que los ítems covarían
entre sí. - No es un coeficiente de fiabilidad
(no se puede interpretar como
la proporción de varianza) - Se parece a un promedio de todos los
coeficientes de fiabilidad dos mitades que
podemos calcular en un test. - Por lo general, 0 ? ? ? 1 pero puede asumir
valores negativos. 0 Implica que los ítems miden
rasgos distintos. 1 indica que los ítems miden
lo mismo.
36- Por ejemplo, en nuestro caso
- esto quiere decir que el grado de consistencia
interna del test es bajo no puede decirse que el
grado de covariación entre los ítems sea elevado
37BFQ
Caprara, G.V., Barbaranelli, C. y Borgogni, L.
(1998). BFQ. Cuestionario Big Five. Manual. TEA
Ediciones. Madrid.
38Coeficiente alfa. Ejemplo 1
- Test 1 Test 2
- I1 I2 I3 X I1 I2 I3
X - 3 2 2 7 3 5 5 13
- 4 5 5 14 4 1 2
7 - 3 2 5 10 3 1 5
9 - 4 5 2 11 4 5 2
11 - 1 1 1 3 1 3 1
5 - var 1.2 2.8 2.8 14 1.2 3.2 2.8
8 - H .93 .86 .77 .52 .63 .68
-
- Sij rij Sij rij
- (1,2) 1.6 0.88 0
0 - (1,3) 1 0.55 0.4
0.22 - (2,3) 1 0.36 0
0 - 3 6.8 3
7.2 - a -- ( 1 - -----) 0.77, a -- ( 1 -
-----)0.15 - 2 14 2
8
39Coeficiente alfa e índices de homogeneidad
- Ejemplo
- i1 i2 i3 X
X12 X13 X 23 - 1 1 1 3 2
2 2 - 0 1 0 1 1
0 1 - 0 0 1 1 0
1 1 - 1 1 0 2 2
1 1 - 1 1 1 3 2
2 2 - S2 0.24 0.16 0.24 0.80
- H 0.91 0.56 0.46
- 3 0.240.160.24
- ? --- ( 1 - ---------------------)
0.30, - 2 0.8
-
- El test de dos ítems
- resultado de eliminar el ítem ( 2) tiene un
? de 0.29. - resultado de eliminar el ítem ( 1) tiene un
? lt 0. - resultado de eliminar el ítem ( 3) tiene un
? de 0.75.
40Matices Alpha y la unidimensionalidad
Por lo general, 0 ? ? ? 1 pero puede asumir
valores negativos. 0 Implica que los ítems miden
rasgos distintos.
41(No Transcript)
42(No Transcript)
43- MUY IMPORTANTE
- No confundir consistencia con unidimensionalidad.
La suma de las covarianzas entre los ítems puede
ser razonable de muchas maneras distintas - Alto (por encima de .8) aunque a mayor
unidimensionalidad mayor Alpha, un valor de Alpha
alto no implica necesariamente que se mida un
único rasgo, hay que complementarlo con el
análisis factorial.
44EJEMPLO control externo-interno Subdividir el
test o no? Items HC HC HC 1- Ejerzo
poco control sobre lo que me sucede 0.30 0.44
2- Cuando tengo problemas me gusta
resolverlos por mí mismo 0.12 0.44 3- A
menudo encuentro obstá- culos en lo que quiero
hacer 0.43 0.51 4- Soy una persona que se hace
cargo de las situaciones 0.17 0.34 5-
0.42 0.54 6- 0.11 0.08 7- 0.25 0.3
0 8- 0.09 0.34 9- 0.43 0.49 10- -0
.06 0.29 11- 0.29 0.39 12- 0.00 0.2
6 13- 0.32 0.37 a 0.58 0.72 0.53
45Ventajas
- NO hay que contruir una forma paralela.
- NO depende de las mitades en las que se divida el
test - se obtiene un índice de consistencia interna con
menor sesgo debido a la elección concreta de las
formas paralelas. - Como índice de consistencia interna, no requiere
que los ítems sean paralelos.
46Desventajas
- - No es correcto aplicarlos en tests de
velocidad. - Para una correcta interpretación, es aconsejable
utilizarlo en combinación con técnicas de
análisis factorial. - No sirve para medir estabilidad.
- NOTA En la salida de SPSS no confundir el
coeficiente Alpha con el coeficente Alpha para
ítems estandarizados.
47RESUMEN Dos indicadores de consistencia
- i1 i2 i3 i4 X par impar
- 1 1 1 0 3 1 2
- 0 0 0 1 1 1 0
- 1 1 0 1 3 2 1
- 1 0 0 0 1 0 1
- 1 1 1 1 4 2 2
- Var 0.16 0.24 0.24 0.24 1.44
- a) rpi 0.286
- (2)0.286
- rxx -------------- 0.44
- 1 0.286
- El 44 de la varianza de X es varianza de V.
- b) 4 0.88
- a -- ( 1 - -----) 0.52. Consistencia
baja. - 3 1.44
484. El error típico de medida
- Aplicamos a Pedro y Juan un EXAMEN con
- rxx .80 y obtienen puntuaciones de 40 y 48
respectivamente. La varianza de las puntuaciones
empíricas es 20. - Queremos saber si difieren no sólo en sus
puntuaciones empíricas sino también en su
verdadero nivel de rasgo. - Al utilizar nuestro test cometemos un cierto
error... ambos podrían tener puntuaciones
verdaderas iguales (V44) y errores distintos (-4
y 4 respectivamente)... cómo saber que las
diferencias en las puntuaciones X se deben a V y
no a E....? - DEBEMOS SUSPENDERLES?
49Primero, tenemos que calcular el SE
...podemos saber el valor de SE (que es a lo que
se llama error típico de medida)...
En la fórmula se aprecia que si rxx aumenta, SE
decrece.
50podemos calcular la media y la varianza de las
puntuaciones empíricas de una persona con una V
(p.e. V 44)
Para una persona la distribución de sus
puntuaciones empíricas X SERÁ NORMAL, tendrá
media V y desviación típica SE.
51La puntuación empírica de una persona con V 44,
estará entre 40.08 y 47.92
- Límites del intervalo en X
- Li 44 - 1.96 2 40.08
- Ls 44 1.96 2 47.92
52Sabiendo esto, actuamos al revés
- Si alguien tiene X 40 diremos que su puntuación
Verdadera está entre - Li 40 - 1.96 2 36.08
- Ls 40 1.96 2 43.92
- Si alguien tiene X 48 diremos que su puntuación
Verdadera está entre - Li 48 - 1.96 2 44.08
- Ls 48 1.96 2 51.92
53Puntos de corte
Calificación a partir de las X
54Contrastes e intervalos de confianza
En qué test la fiabilidad es más
alta? a)
b)
55Utilidad de Se
- Suponiendo que los E tienen una distribución
normal, - a) Intervalo de V, para una persona.
- b) Contraste sobre la igualdad de V en dos
personas - a) Intervalo de V, para una persona.
- P(Li ? V ? Ls) 0.95 P(Li ? V ? Ls)
0.99 - Li X 1.96 Se
Li X 2.57Se - Ls X 1.96 Se
Ls X 2.57Se -
56a.) Intervalo de confianza en V
- Ejemplo
- En un test, Marta tiene 63 puntos.
- 1) Obtenga su intervalo (? 0.05) de V, si Se
3 - Li X 1.96 Se 63 (1.96)3 57.1
- Ls X 1.96 Se 63 (1.96)3 68.9
- 2) Obtenga su intervalo (? 0.05) de V, si Se 5
- Li X 1.96 Se 63 (1.96)5 53.2
- Ls X 1.96 Se 63 (1.96)5 72.8
- En 1), la amplitud es 68.9 - 57.1 11.8
- En 2), la amplitud es 72.8 - 53.2 19.6
57b.) tienen 2 personas la misma V?
- 1. HIPOTESIS
- H0 V1V2 (las puntuaciones verdaderas de los
sujetos son iguales) - H1 V1? V2 (las puntuaciones V de los sujetos son
diferentes) - 2. ESTADISTICO DE CONTRASTE
- 3. DECISION
- Suele hacerse bilateral Si z lt -1.96 ó z gt
1.96, rechazo H0, al nivel de confianza del 95.
58X140, X248 Nivel de significación (?).05
Error típico de medida
Estadístico de constraste
Intervalo de confianza z0.025 -1.96 Z0.975
1.96
Como 2.828 es menor que 1.96 rechazo la
hipótesis nula (de que las puntuaciones
verdaderas de los 2 sujetos son iguales) con un
nivel de confianza del 95.
59Diferencia de puntuaciones verdaderas
- Ejemplo En una prueba, Var(x) 25, Antonio y
Berta obtienen 10 y 15 puntos, respectivamente. -
- 1) Si rxx 0.9, tienen igual V?
-
- Z (10-15)/(1.58)( ) -2.24 lt
-1.96 - 2) Si rxx 0.5, tienen igual V?
-
-
- Z (10-15)/(3.53)( ) -1.00
-
-1.96 lt -1 lt 1.96
60- Ejemplo Queremos saber si un cierto
entrenamiento ha mejorado las habilidades
sociales, según el test X. El coeficiente de
fiabilidad es .96, la desviación típica 15 y los
valores para el sujeto antes y después 40 y 50,
respectivamente (1-?.95) - H0 Vantes Vdespués
- H1 Vantes lt Vdespués
-
- 1-?.95
- z1-?-1.64
- Como 2.36 es menor que 1.64 rechazo la
hipótesis nula (de que la puntuación verdadera
del sujeto no ha mejorado) con un nivel de
confianza del 95.
615. FACTORES QUE AFECTAN A LOS INDICADORES DE
FIABILIDAD
- Covariación entre ítems ó subpartes.
- H
62- PRECAUCIONES al maximizar la consistencia
interna - Cuidado con incluir ítems redundantes (no
preguntar siempre lo mismo!!!). - Cuidado con los ítems no alcanzados (en caso de
tests de velocidad es mejor calcular el
coeficiente de fiabilidad test-retest) ya que la
aparente covariación entre los ítems finales es
artificial (no se debe al contenido!) - Cuidado con los ítems referidos a un tema común
(p.e., preguntas sobre un mismo texto).
633. Longitud del test.
__ .7 (20 items) --- .7 (10 items)
El aumento no es lineal.
64Recordar que podemos deducir el número de ítems
necesarios para conseguir una determinada
fiabilidad
65- Ejemplo Un test tiene 10 ítems.
- Supongamos que r 0.5
-
- 1) R, si uniendo FPs, el test tuviese 40 ítems?
- R 4(0.5)/(1 3(0.5)) 0.8
- 2) Ítems si queremos que R 0.9?
- n 0.9(0.5)/0.5(0.1) 9. Luego, 90 ítems.
- Supongamos que r 0.2
- 1) R, si uniendo FPs, el test tuviese 40 ítems?
- R 4(0.2)/(1 3(0.2)) 0.5
- 2) Ítems si queremos que R 0.9?
- n 0.9(0.8)/0.2(0.1) 36. Luego, 360 ítems
664. Variabilidad del rasgo en la muestra. La
correlación depende de la variabilidad.
b.1.- N1000, r.893, Sx.94 y Sy1.25
b.2.- N557 , r.652, 4 lt X, Ylt 6, Sx.48 y
Sy.51
Conclusión la fiabilidad es un índice de
precisión para una muestra determinada.
67Var (X) y rxx
rxx 0.81 n 2000
68Var (X) y rxx
rxx 0.74 n 1730 V 47
69Var (X) y rxx
rxx 0.68 n 1349 V 49
70Var (X) y rxx
rxx 0.57 n 861 V 51
71Var (X) y rxx
rxx 0.46 n 450 V 53
72Ejemplo 16PF 10 ítems por dimensión, puntuados
de 0 a 2.
73La fiabilidad es alta desde cualquier punto de
vista quiere eso decir que se están midiendo
bien Agresividad Potencial?
- La fiabilidad implica que las 2 formas miden lo
mismo (tienen un contenido similar) no que midan
lo que dicen medir. Esto último es una cuestión
de validez. - LA FIABILIDAD ES UNA CONDICIÓN NECESARIA PERO NO
SUFICIENTE PARA LA VALIDEZ... TEMA 4.
74Si la fiabilidad es alta (en los dos sentidos)
podemos decir que nuestra prueba mide
Agresividad Potencial?
X1
E1
V
E2
X2