Title: PSICOLOGIA DEL TRABAJO Y DE LAS ORGANIZACIONES
1PSICOLOGIA DEL TRABAJO Y DE LAS ORGANIZACIONES
2MetodologíaAnálisis de la regresión
3Modelos de análisis estadístico
-
- I. Conceptos básicos.
- II. Regresión múltiple
-
4Parte I. Conceptos básicos
5Modelo estadístico
- En un sentido amplio, el modelo estadístico es
una expresión matemática que, a modo de igualdad
o ecuación, especifica la relación entre las
diferentes variables independientes y la variable
de respuesta.
6Modelos de análisis estadístico y diseño de
estudio
7Conceptos básicos
- Datos observaciones realizadas de los individuos
o grupos de individuos - Escalas de medida no métricas (nominales y
ordinales) y métricas (intervalos y de razón) - Diseños estrategias de recogida de datos
- Estrategias del diseño transversal o
longitudinal - Modelos de análisis sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos - Clases de relaciones asociativas y causales
8A propósito de los datos (1)
9Elaboración de datos
- Observación Escala
Dato científico - directa de medida
o valor
numérico - La conversión de una observación directa en
- un dato científico se consigue mediante la
- aplicación de una adecuada escala de medida.
10Reunión de datos
- Sistemas de reunión de datos
- Tablas
- Gráficos
11Tablas
- Las tablas se usan en los informes
científicos para resumir los datos u otra
información que no puede ser mostrada de forma
conveniente en la narrativa del texto.
12Acerca de las tablas
- Las tablas han de tener un título que informe
claramente sobre su contenido como por ejemplo
preferencias a un partido político. Las tablas
estadísticas deberían de informar también sobre
el número de observaciones que se incluyen
(frecuencia). La parte superior de la columna del
lado izquierdo de la tabla es referida como el
título de filas e informa sobre el contenido de
las filas. El cuerpo de la tabla contiene los
datos de interés. En el ejemplo propuesto se
muestra la cantidad de individuos que prefieren
un partido político. ..//..
13Ejemplos (tablas)
14- Las tablas con una sola variable son conocidas
por representaciones univariadas y las que
informan sobre dos variables, representaciones
bivariadas. En la representaciones bivariadas una
variable está asociada a las filas y la otra a
las columnas y se conocen, también, por tablas de
contingencia. Ejemplo de tabla bivariada que
relaciona preferencia a un partido político y
afiliación religiosa (en paréntesis están los
porcentajes).
15Ejemplos (tablas)
16Gráficos
- Con los gráficos se consigue una representación
visual de los datos, por lo que se convierte en
un procedimiento útil a la investigación. Los
gráficos captan mejor la atención del lector,
permiten clarificar los resultados y facilitar
su interpretación.
17Histograma de frecuencias o gráfico de barras
- El histograma de frecuencias es un gráfico
que muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras muestra los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos
de cada categoría. El gráfico siguiente muestra
la cantidad de amigos reportados por estudiantes
de un College americano.
..//..
18Cantidad de amigos reportados por los estudiantes
de un College
19- En un segundo ejemplo, se muestra un gráfico de
barras relativo al efecto de dos drogas
antiansiolíticas. Se trata de una escala nominal
y la diferencia que se observa entre el primer y
segundo panel estriba en la forma de representar
las unidades del eje vertical (unidades pequeñas
en el primer panel y punto cero y unidades
grandes en el segundo). Nótese que la gran
diferencia entre las dos drogas que se observa en
el primer panel desaparece en la segunda
representación o panel.
20Efectos de las drogas sobre la ansiedad
21Polígono de frecuencias
- Es una forma alternativa de representar el
histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma información
sobre la cantidad de amigos, pero utilizando el
sistema de líneas y no el de barras. En un
segundo ejemplo, se muestra el gráfico de la
cantidad de divorcios tras aprobarse la
correspondiente ley en el Estado de Nebraska.
22Cantidad de amigos reportados por estudiantes de
un College
23Cantidad de divorcios antes y después de su
promulgación en el Estado de Nebraska
24Escalas de medida y datos (2)
25Cuantificación de las variables
- La variables se cuantifican al asignar valores
numéricos a los atributos o características de
los individuos, objetos y hechos de acuerdo a
reglas. - El proceso de asignación de los números de
acuerdo a reglas se denomina medida.
26Escalas de medida
- Las reglas particulares de asignación de números
a las variables se denominan escalas de medida. - Clasificación
- Nominal
- Ordinal
débiles - Escalas
- De intervalo
- De razón
fuertes
27Escalas de medida
- Nominal 1 varón 2
hembra -
- Ordinal
- 1
2 3 -
-
-
- De intervalo
- 15 16 17
18 19 20 21 22 23
- De razón
- 0 1 2
3 4 5 6 7 8
-
28Ejemplos de escalas
- Nominal los valores sólo representan
categorías o nombres (género, raza, religión,
etc.) - Ordinal los valores representan el orden
en función del grado o intensidad como actitud,
preferencia, etc. - De intervalo la distancia entre los
valores se mantiene constante como la
temperatura, respuestas correctas, etc. - De razón cuando además de la constancia
del intervalo hay un valor cero que coincide con
la ausencia del atributo.
29Escalas y naturaleza de los datos
- Escala Tipo
Dato - Nominal Cualitativa
No-paramétrico - Ordinal Cuantitativa
No-paramétrico - De intervalo Cuantitativa discreta
Paramétrico - De razón Cuantitativa continua
Paramétrico
30Naturaleza de los datos y prueba estadística
- Datos de escala Prueba estadística
-
- Nominal Prueba
- Ordinal no paramétrica
- De intervalo Prueba no
paramétrica y - De razón paramétrica
31Variable dependiente
- Datos métricos o gaussianos
- Datos no métricos o no gaussianos
32En torno a los diseños (3)
33Concepto de diseño
- El diseño es una estrategia particular de
recogida de datos que es función de los objetivos
o hipótesis propuestos. - Los diseños pueden clasificarse en transversales
y longitudinales, según la ausencia o presencia
de la dimensión temporal en el estudio.
34Cuestiones a plantear
- Cuál es la relación entre diseño (estudio)
matriz de datos y modelo de análisis? - Cuál es la estructura de cualquier investigación
científica?
35Estructura de la investigación en ciencias
sociales
- Diseño Datos
Modelo análisis - Problema
Estadístico
-
- Hipótesis
Estimación - Variables
Inferencia - Modelo de escala
36A modo de resumen
- Se ha visto la secuencia entre las tres fases o
momentos de una investigación diseño, datos y
análisis. - Es importante conocer la estructura del diseño
así como los distintos procedimientos o tipos de
investigación.
37Estructura del diseño (4)
38Tipología del diseño de investigación
- Diseños observacionales
- Diseños correlaciones o predictivos (estudios de
encuesta) - Diseños cuasi-experimentales
- Diseños experimentales
39Naturaleza de los datos (variable dependiente)
- Datos métricos o cuantitativos (de distribución
gaussiana o normal) - Datos no métricos o categóricos (de distribución
no-gaussiana)
40Estrategia del diseño y modelo de
análisisDiseños experimentales y
cuasi-experimentales
41-
Diseño - Datos cuantitativos Estrategia
Datos cualitativos - ANOVA Transversal
Longitudinal TC - Grupos
Medidas - AR paralelos
repetidas Modelo log-lineal - Factorial
Cross-over - MANOVA
Regresión - Medidas
Antes-después logística - repetidas
-
Cohortes - Factorial
- mixto
Split-plot
42Diseños no experimentales
- En el contexto no experimental los diseños suelen
ser, por lo general, observacionales y
correlacionales. - Los diseños observacionales son estudios de
carácter descriptivo. - Los diseños correlacionales se basan en el
análisis de múltiples variables con el propósito
de estimar la magnitud del cambio entre ellas.
43sigue
- El objetivo del diseño correlacional es la
predicción de los valores de la variable
dependiente a partir de la o las variables
predictoras o independientes. - Con este diseño se pretende también explicar la
proporción de variación de la variable
dependiente debido a la o las variables
independientes.
44Modelos de análisis estadístico (5)
45Cuestión!
- Una vez recogidos los datos qué hacer con ellos?
- A esta cuestión cabe responder lo siguiente los
datos se analizan de acuerdo a modelos
estadísticos adecuados a fin de derivar
consecuencias teóricamente interpretables es
decir, para la obtención de resultados que han de
ser interpretados.
46El modelo lineal general
47Modelo estadístico general
- Y f(X) g(E)
- V.Dep. Parte fija Parte aleatoria
48Concepto
- El modelo estadístico, o ecuación de carácter
lineal, asume que una observación Y es el
resultado de la combinación aditiva de alguna
función f de variables fijas y de alguna función
g de componentes aleatorios, y que tanto f como g
pueden tomar parámetros conocidos o desconocidos.
..//..
49sigue
- Considerada esta ecuación como un modelo
estadístico general, se tiene que cualquier
observación es la suma de dos partes o
componentes una parte fija o determinista, f(X),
y una parte aleatoria desconocida, g(E).
50Tipo de relaciones entre variables o hipótesis (6)
51Clases de hipótesis
- Asociativa
- Hipótesis
- Causal
52Hipótesis asociativa
- X Y
-
- Los valores de la variable X covarían con los
valores de la variable Y
53Ejemplos (hipótesis asociativas)
- a) Se da una correlación entre el estilo de
dirección y la moral de los empleados - b) La visualización de los dibujos animados
está asociada con el comportamiento agresivo de
los niños. - c) La percepción de culpabilidad o inocencia de
los acusados está asociada a los argumentos
legales.
..//..
54- d) El consumo de heroína es función de la
clase social. - e) El consumo de tabaco está positivamente
relacionado con el nivel de alerta en sujetos
humanos. - g) Los niños sensibles al ritmo progresan más
en el aprendizaje de lectura.
55Hipótesis causal
- X Y
- Los valores de la variable X determinan los
valores de la variable Y
56Ejemplos (hipótesis causales)
- a) Leer dos veces una lista de ítems favorece
su recuerdo. - b) La intensidad del estímulo determina una
respuesta de discriminación más rápida. - c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica. -
..//..
57- d) El castigo genera respuesta de evitación.
- e) La frustración es causa de conductas
agresivas. - f) El nivel de alerta aumenta la efectividad
del rendimiento escolar. - g) El ejercicio aumenta el rendimiento de
una actividad motora.
58Contextos de las hipótesis
- Hipótesis
Contexto -
científico -
- asociativas
correlacional -
- causales de
manipulación
59Universo de las hipótesis
- Hipótesis de investigación
- Hipótesis estadística
60Hipótesis de investigación
- Se plantean por intereses teóricos o sustantivos
- Especifican el modo como se relacionan las
variables - Suelen ser asociativas y causales
61Hipótesis estadísticas
- Las hipótesis estadísticas se especifican en
términos de las propiedades de las poblaciones de
origen. - Las poblaciones de origen están definidas por una
serie de parámetros, que son valores fijos de la
distribución pero desconocidos. - Los parámetros poblacionales se asemejan a los
estadísticos de muestra y se estiman a partir de
estos últimos.
62sigue
- Mediante los datos de muestra podemos aceptar o
rechazar, con un determinado grado de confianza
(numéricamente calculado), la hipótesis propuesta
sobre la población estudiada. Este proceso se
conoce por contraste de hipótesis estadística o
prueba de significación estadística.
63Prueba de hipótesis estadística
- En investigación social, interesa más los
parámetros asociados a la parte fija del modelo
estadístico porque representan la magnitud de un
cambio (grado de asociación entre las variables)
o el efecto causal (el impacto de una variable
sobre otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel de
significación de estos parámetros.
64Hipótesis estadística sobre un parámetro
individual
65O bien, sobre los parámetros del modelo
- En el modelo de la regresión múltiple, se asume
que los distintos coeficientes o parámetros del
modelo son cero - H0 ß1 ß2 ßp 0
66en consecuencia
- Si se demuestra, como resultado de la prueba
estadística, que - H0 ßi 0, entonces se infiere la no relación
lineal entre la variable Y y
Xi. - En caso contrario, se tiene
- H1 ßi ? 0, de la que se infiere una relación
lineal entre ambas v ariables.
67Hipótesis nula H0
- En teoría estadística se asume, inicialmente, la
no significación de los parámetros, siendo este
supuesto la hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se demuestra
que este supuesto no es aceptable, se recurre a
la hipótesis alternativa (H1) como la explicación
más plausible de los datos.
68Prueba de la hipótesis estadística o prueba de
significación
- La prueba de significación estadística contrasta
la hipótesis de nulidad con los datos del
estudio. A partir del resultado de la prueba de
significación, se procede a la toma de decisiones
estadísticas. El resultado de la prueba consiste,
de forma sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la no-relación
entre la variable dependiente (criterio) y la
variable independiente (predictora).
..//..
69- Cabe matizar, no obstante, que entre la variable
dependiente e independiente pueden darse
relaciones de asociación o de causalidad, de modo
que la posible implicación de la variable
independiente sobre la variable dependiente es
función del diseño utilizado (correlacional o
experimental). La relación de asociación es la
magnitud de cambio que se da entre dos variables,
mientras que la relación de causalidad es el
tamaño del impacto de una variable sobre otra.
70Inferencia de la hipótesis de nulidad
- La inferencia de la hipótesis nulidad nos lleva a
aceptar que la variable independiente no está
relacionada con la dependiente. En caso
contrario, se toma la decisión a favor de un
modelo alternativo asumiendo, como explicación
más plausible (no exenta de riesgo), el modelo de
una relación efectiva entre ambas variables.
..//..
71- Al tomar esta decisión, se corre el riesgo de que
sea falsa. Este riesgo se define, en teoría
estadística, en términos de probabilidad y es
conocido por nivel de significación. El nivel de
significación describe el grado de credibilidad
que merece la hipótesis considerada.
72Errores en el rechazo o aceptación de H0
- Situación actual de la
H0 - Decisión Verdadera
Falsa - Rechazo H0 Error Tipo I No
error - Aceptación H0 No error
Error Tipo II -
73Error Tipo I y error Tipo II
- A) El error Tipo I o decisión positiva falsa
se comete al rechazar la hipótesis de nulidad
siendo verdadera es decir, al tomar una decisión
positiva a favor de la existencia de un efecto
cuando en realidad no existe (falsa alarma). - La probabilidad de cometer este error es el
nivel de significación o valor a de la prueba
estadística. ..//..
74- B) El error Tipo II o decisión negativa falsa se
comete cuando la prueba lleva a la aceptación de
una hipótesis de nulidad falsa. Se trata de
asumir el efecto de la variable independiente
cuando en realidad no ocurre. El error de Tipo II
se define por la probabilidad ß y está asociado
inversamente con la probabilidad a y directamente
a la potencia de la prueba.
75Decisión estadística y error
-
- Resultado Probabilidad
Decisión - de la prueba de azar
- estadística a 0.05
- Significativo p lt a
NA(H0) - H0
- No significativo p gt a
A(H0)
76Inferencia de H0
- Probabilidad 1 Región de
- de azar
decisión - Si p gt 0.05 A(H0)
- a
0.05 - Si p lt 0.05 NA(H0)
- 0
77Sobre la discusión de los resultados
78Concepto
- Las actividades propias de la discusión de los
resultados se reducen a - 1) Inferir a partir de la prueba estadística
consecuencias de carácter teórico. - 2) Interpretar estas consecuencias a la en
función de las hipótesis formuladas - 3) Establecer el alcance de los resultados
mediante la generalización de los mismos
79Inferencia teórica de la hipótesis
- Supongamos que la prueba de la hipótesis
estadística nos lleva a no aceptar la hipótesis
de nulidad. En este caso se suele inferir, como
la hipótesis más adecuada, la hipótesis
alternativa que coincide con la hipótesis de
trabajo o investigación. Claro está, esta
inferencia está sujeta a un riesgo de error
(definido en términos de probabilidad).
80Interpretación de los resultados
- Las actividades propias de la interpretación de
los resultados son - a) Examinar y explicar los datos en base a la
hipótesis de investigación. - b) Extraer los contenidos científicamente
significativos. - c) Interpretar los resultados en términos de
hipótesis alternativas o rivales.
81Generalización de los resultados
- En la generalización se evalúa el alcance de los
resultados es decir, para qué poblaciones son
vigentes los supuestos teóricos probados. La
generalización de los resultados suele
realizarse, por lo común, para la población de
sujetos.
82Parte II. Modelos de la regresión múltiple y otros
83Regresión múltiple
Modelos de la Regresión múltiple
No Lineal
Lineal
Lineal
V. Dummy
Interac.
Polinó-mica.
Raíz Cuadrada
Log-lineal
Recípro-ca
Expo-nencial
84Modelo lineal de la regresión múltiple
- El modelo lineal de la regresión es un caso
especial Modelo Lineal General. Según este
modelo, el componente determinista (parte fija
del modelo) está formado por las variables que se
examinan en la investigación (predictores) y el
componente aleatorio por un término de error
(falta de ajuste). ..//..
85- El análisis de la regresión múltiple se aplica
para predecir los valores de una variable
dependiente continua a partir de un conjunto de
variables independientes (predictores). Cuando la
variable dependiente es dicotómica se aplica, en
este caso, la regresión logística . - Las variables independientes usadas en la
regresión pueden ser cuantitativas o cualitativas
(dummy). ..//..
86- Por lo general, el análisis de la regresión
múltiple usa variables que ocurren en contextos
naturales, en oposición a variables que son
manipuladas experimentalmente, aunque es posible
utilizar la regresión con esta clase de
variables.
..//..
87- Cabe tener en cuenta, por último, que en base al
análisis de la regresión (en sentido estricto) no
pueden inferirse relaciones causales entre las
variables. Por lo general, la terminología es la
siguiente X predice a Y, y no puede decirse que
X causa a Y.
88Modelo de la regresión simple(en términos de
estimadores)
- Y b0 b1X1 e
- Observación
- Parte fija Parte
aleatoria - (determinista) (error)
89 Descripción
- En el modelo de la regresión simple, Y denota la
variable dependiente (criterio), X la variable
explicativa, b0 es el intercepto, b1 (la
pendiente) denota el parámetro estimado de la
variable X y e es el término de error de
distribución aleatoria. Constituye, con el modelo
de la regresión múltiple, uno de los modelos más
utilizados en ciencias sociales.
90Representación del modelo en forma compacta
- Y1 b0 b1X11 e1
- Y2 b0 b1X21 e2
- ...............................
- Yn b0 b1Xn1 en
- y Xß e (forma
matricial -
compacta) -
91Modelo de la regresión múltiple
- Y b0 b1X1 b2X2 ... bpXp e
- Forma simplificada
- Y b0 SpbpXp e
92Modelo de la regresión múltiple
- Un modelo de la regresión de p variables puede
ser considerado como un sistema de n ecuaciones . - Las n ecuaciones redefinidas en términos
matriciales nos dan el modelo lineal general
familiar. - Los coeficientes ß son conocidos como
coeficientes de la regresión parciales.
93Representación del modelo en forma condensada
- Y1 b0 b1X11 b2X21 ... bpXp1 e1
- Y2 b0 b1X12 b2X22 ... bpXp2 e2
- .................................................
............... - Yn b0 b1X1n b2X2n ... bpXpn en
- y Xß e
94Modelos de la regresión de p variables
Yi ß0 ß1xi1 ß2xi2 ßpxip ei
ß0 - Intercepto
ß1? ßp - Coeficientes de pendiente parciales de la regresión
ei - Término residual asociado con Ia i observación
95Supuestos del modelo de la regresión
- Normalidad
- Linealidad
- Homoscedasticidad
- No colinealidad o tolerancia entre las variables
independientes
96Normalidad
- En principio, cabe pensar que los datos muestran
una distribución normal. Este supuesto se
verifica con la construcción de histogramas y
comprobando la distribución de los datos. A
veces, en los histogramas se incluye una línea
que representa la forma de la distribución y así
es posible comprobar visualmente si la
distribución de los datos de desvía de esta
línea.
97En otras palabras
- Los valores de la variable dependiente son
normalmente distribuidos para cada posible
combinación de los niveles de las X variables.
98Distribución normal de la variable edad.
99Linealidad
- Se asume una relación lineal recta entre la
variable dependiente y las independientes. En la
práctica, este supuesto no suele verificarse,
dado que los procedimientos de regresión múltiple
no suelen ser gravemente afectados por leves
desviaciones de este supuesto. Si la curvatura de
la relación es evidente, se pueden transformar
las variables o recurrir de forma explícita a
modelos no lineales.
100sigue
- La linealidad implica que las medias de las
distribuciones de la variable dependiente han de
ubicarse en una línea recta para cada variable
independiente y que, para cada combinación de
valores de las variables independientes, la
distribución de la variable dependiente es normal
con variancia constante.
101Definición de modelo lineal
- Los modelos en que todos los parámetros
(b0,b1,,bp) tienen exponentes de uno se
denominan modelos lineales. - Los modelos cuyos parámetros (b0,b1,,bp) tienen
de exponente valores distintos de la unidad se
denominan modelos no-lineales.
102Línea de ajuste del peso a la altura libras/pulgad
as
103Líneas de Regresión (Línea de mejor ajuste)
104Cambios en la línea de mejor ajuste
105Homoscedasticidad
- Las variancias de los valores de la variable
dependiente (datos del estudio), para cada
posible combinación de niveles de las variables
X, son iguales es decir, la variancia de los
residuales es constante.
106- Los supuestos de normalidad, linealidad y
homoscedasticidad se pueden verificar mediante el
gráfico de dispersión. En este gráfico, los
valores predichos de Y (Y) se trasladan al eje X
(eje horizontal) y los residuales Y-Y al eje Y
(eje vertical).
107No colinealidad
- La colinealidad asume que las variables
independientes están correlacionadas. Supóngase
que la altura de una persona tiene dos
predictores peso en libras y peso en kilos.
Estos dos predictores son redundantes, ya que el
peso es único independientemente de si se mide
con libras o kilos.
..//..
108- Cuando esto ocurre, significa que al menos una de
las variables predictoras es totalmente
redundante con otras variables del modelo. El
indicador estadístico de este fenómeno es
conocido por tolerancia. - Es decir, el modelo de las regresión múltiple
asume la no correlación entre las variables
independientes.
109Relación entre variables independientes
- Tolerancia es el grado en que un predictor puede
ser predicho de otros predictores. La tolerancia
es igual a 1 cuando las variables independientes
no están relacionadas.
110- Singular. De igual modo una relación es singular
cuando un predictor es perfectamente predecible
de otros predictores (tolerancia igual a cero).
111Resumen supuestos del modelo
- Normalidad
- - Los valores de Y han de distribuirse
normalmente para cada uno de los valores de X - - La distribución de probabilidad del
error ha de ser normal - Homoscedasticidad (variancia constante)
- E(si2)
112sigue
- Independencia de errores E(eiej)0 (i ? j)
- Linealidad (las medias de los valores de Y se
ordenan en línea recta) - Las variables independientes son medidas sin
error - No debe producirse una relación lineal exacta
entre cualquier subconjunto de variables
explicativas (perfecta multicolinialidad)
113Otros modelos
114- Modelos de variables dummy (categóricas) y de
interacción
115Variables dummy
- Las variables dummy (ficticias) se refieren a
las dimensiones de variación que toman dos
valores o categorías. Por lo general, se utilizan
los valores 0 y 1 para representar una categoría
u otra de la variable (por ejemplo género).
116Diseño experimental
- Con el diseño experimental, las variables
independientes suelen ser categóricas y, a veces,
dummy. - Suelen recibir el nombre de variables de
tratamiento. - El objetivo es comparar las medias de los grupos
de tratamiento. - Se utiliza el modelo estadístico ANOVA.
117Modelos con componentes no aditivos o interactivos
-
- Y b0 b1X1 b2X2 b12X1X2 e
- Y b0 SjbjXj SjSkbjkXjXk e
118Modelos no lineales
- Modelos cuyas variables tienen exponentes
distintos de la unidad, como por ejemplo, los
modelos polinómicos, exponenciales, etc.
119Modelos polinómicos no lineales
- Y b0 b1X1 b2X1² ... bkX1k e
120Modelo de dos variables, k 2
-
- Y b0 b1X1 b2X2 b11X1² b22X2²
- b12X1X2 e
- Forma simplificada
-
- Y b0 SjbjXj SjbjjXj² SjSkbjkXjXk e
121Cuestión!
- Hemos presentado un conjunto de modelos
estadísticos basados en la regresión simple y
múltiple (lineal y no lineal). La cuestión que se
nos plantea es la siguiente - Dados unos datos, cómo se procede para ajustar
un modelo estadístico?
122Proceso de ajuste del modelo estadístico
-
- Selección del modelo
-
- Estimación de parámetros
-
- Inferencia estadística
123Pasos para el ajuste
124Selección (1)
125Selección del modelo
- El modelo de la regresión se selecciona teniendo
en cuenta - a) la naturaleza de la variable dependiente
- b) cantidad de variables independientes o
- explicativas (su estatus teórico)
..//..
126- c) Si la variable dependiente es
cuantitativa de distribución normal, se aplica la
regresión lineal. Si la variable dependiente es
categórica, entonces la alternativa es la
regresión logística. - d) Cuando se tiene una sola variable
independiente, el modelo de la regresión es
simple. Con dos o más variables explicativas el
modelo de la regresión es múltiple.
127Estimación de parámetros (2)
128Parámetros del modelo
- Sea el modelo
- Yi bo b1X1 b2X2 e
- Los parámetros a estimar son
- b0 intercepto o constante
- b1 efecto asociado a la primera variable X1
- b2 efecto asociado a la segunda variable X2
- ?2e variancia del error o residual
..//..
129- b1 se interpreta como un cambio en Y por una
unidad de cambio en X1, siendo X2 constante. Este
enunciado no es muy claro cuando X1 y X2 no son
independientes. - Malentendido 1 bj siempre mide el efecto de Xj
sobre E(Y), independiente de otras variables X. - Malentendido 2 un valor b estadísticamente
significativo establece una relación de causa y
efecto entre X e Y.
130Resumen interpretación de los parámetros o
coeficientes
- Constante b0
- Intercepto o valor promedio de Y
cuando todas las Xj 0. - Pendiente bj
- Cambios estimados de Y por cada unidad
de cambio en Xj. Siendo todas las otras
variables constantes.
131Cuestión!
- Dada la importancia que tienen, para el ajuste el
modelo y la interpretación de los resultados, los
parámetros o coeficientes, se suele distinguir
entre los coeficientes b (no estandarizados) y
los coeficientes ß (beta o estandarizados).
..//..
132- El coeficiente b es, como se indicado, el
cambio esperado en Y por cada unidad de cambio en
Xj, cuando el resto de variables están
controladas. - El coeficiente ß es el cambio esperado en Y en
unidades de desviación estándar por cada unidad
estándar de cambio en Xj, cuando el resto de
variables están controladas.
133A propósito de la interpretación de los
coeficientes
- Los parámetros b tienen la ventaja de ser
interpretados en las unidades de medida
originales. - Los coeficientes ß son directamente comparables
por su importancia en la variable Y. No pueden
ser interpretados en la escala de medida
original.
134Ejemplo de ?
- El valor beta es una medida de la intensidad con
que cada predictor influye en la variable
criterio. Es medida en unidades de desviación
estándar. Así, un valor beta de 2.5 indica que un
cambio en una unidad estándar del predictor
resulta un cambio de 2.5 unidades estándar en la
variable criterio.
135Inferencia y significación estadística (3)
136Pasos a seguir en la evaluación del modelo
- Una vez especificado el modelo de la regresión,
se necesita conocer en qué medida se ajusta a los
datos. Para ello, - a) probaremos, en primer lugar, el ajuste del
modelo global de la regresión. - b) a continuación, probamos la significación de
cada variable independiente. - c) o bien, modelos parciales.
137Cómo evaluar el modelo de la regresión múltiple
- Se suele recurrir a distintas estrategias
según se trate del modelo global o de los
parámetros individuales. A veces se prueban
submodelos o modelos parciales. - Evaluación global
- Evaluación individual de los parámetros
- Evaluación de submodelos
138- Pruebas de significación a partir de un ejemplo
139Ejemplo práctico (datos simulados)
- Supongamos que se pretende estudiar el impacto
que sobre un Cuestionario sobre Satisfacción
Vital tienen las siguientes variables - Edad
- Ingresos
- Cantidad de hijos
- Salud
140Pruebas de significación
- En el contexto de la regresión pueden seguirse,
tres estrategias de prueba - a) Prueba del modelo completo o global, con
todos los coeficientes. Para ello se usa el
coeficiente de determinación (R2) mediante el
estadístico F. - b) Prueba de los coeficientes individuales de la
regresión mediante el estadístico t.
141- c) Cabe también la posibilidad de probar
subconjuntos de variables independientes o
modelos parciales.
142(a) Estadísticos para la prueba del modelo total
- Para conocer el grado de ajuste del modelo se
utilizan dos estadísticos R2 (coeficiente de
determinación) y R2 ajustado. - R2 indica la proporción de variación de la
variable criterio (Y) explicada por el modelo. En
suma, es un medida de la bondad de la predicción
de la variable criterio por las variables
predictoras.
..//..
143Coeficiente de determinación múltiple (R2)
- Proporción de variación en Y explicada por el
conjunto de variables X. - Nunca decrece cuando una nueva variable X es
introducida en el modelo. - La prueba de la hipótesis R2 0 indica que todas
las variables X, de forma conjunta, no explican
la variación de Y.
144sigue
- El estadístico R2 mide la contribución total de
las Xs. - Su cálculo viene dado por la expresión siguiente
145- El coeficiente de determinación R2 tiende, en
cierto modo, a sobre-estimar la bondad del modelo
cuando se aplica al mundo real. Por ello, se
calcula el coeficiente de determinación ajustado
que tiene en cuenta el número de variables del
modelo y el número de observaciones
(participantes) en que se basa el modelo. - Inconvenientes del R2 no sirve para comparar
modelos.
146R2 ajustado
- Dicho de forma más simple, el coeficiente de
determinación R2 es sensitivo a la magnitud de la
muestra (n) y a la cantidad de variables
independientes o regresores (p) cuando las
muestras son pequeñas. Si p es grande en relación
a n, el modelo tiende a ajustarse muy bien. - Una mejor medida de bondad de ajuste es el R2
ajustado.
147cálculo
- n -1
- R2 ajustado 1 - (--------------)(1-R2)
- n p 1
- Ventajas R2 es corregido por el tamaño de la
muestra y la cantidad de variables
independientes sirve para comparar modelos.
148Prueba de R2
- Se ha señalado que cuando se prueban todos los
coeficientes de la regresión, se utiliza el
coeficiente de determinación. En este caso, se
prueba si hay una relación lineal entre la
variable criterio y el conjunto de variables
independientes o predictores del modelo.
149- Hipótesis a probar
- H0 ß1 ßk 0
- H1 al menos un parámetro es no cero,
- ßk ? 0
- Puesto que no se conoce la forma de la
distribución de probabilidad del estadístico R2,
se utiliza en su lugar el estadístico F (ANOVA
aplicado a la regresión).
150Qué tipo de prueba ha de usarse?
La distribución utilizada se denomina
distribución de Fisher. El estadístico F toma la
siguiente forma.
151Curva de la distribución de F
152Prueba de significación total. Ejemplo hipotético
- H0 ß1 ß2 ßp 0
- H1 Al menos una ßp ? 0
- ? .05
- gl 4 y 14
- Valor crítico
Prueba estadística Decisión Conclusión
?
F
23.751
Rechazo con ? 0.05
Hay evidencia de que al menos una variable
independiente afecta a Y
? 0.05
F
0
3.11
153- (b) Significación individual de os parámetros.
Prueba de los coeficientes individuales
154Prueba de los coeficientes de la regresión
individuales
- Siguiendo los pasos del programa SPSS se tiene
- 1. Cálculo de los coeficientes no estandarizados
- 2. Estimación del error estándar de estos
coeficientes - 3. Obtención de los coeficientes beta
- 4. Cómputo del valor de t de los coeficientes no
estandarizados - 5. Significación estadística de las t
155Pruebas de hipótesis de los parámetros estimados
ß
- Prueba de una cola Prueba de dos colas
- H0 ßj 0
H0 ßj 0 - H1 ßj gt 0, o ßj lt 0
H1 ßj ? 0 -
- La prueba es de una cola o dos según la
hipótesis a probar sea unidireccional o
bidireccional (no importa que el valor del
estadístico sea mayor o menor que cero). ..//..
156- Prueba estadística
- Se utiliza la t de Student el valor estimado
del parámetro partido por su error estándar. - Región de rechazo de H0
- to gt t? (o to lt t?)
to gt t?/2
157Sea, por ejemplo, el siguiente modelo
- Y ß0 ß1X1 ß2X2 ß3X3 ß4X4 e
158Prueba de H0 bi 0
- H0 ß1 0 (X1 no contribuye)
- H1 ß1 ? 0 (X1 contribuye)
- H0 ß2 0 (X2 no contribuye)
- H1 ß2 ? 0 (X2 contribuye)
- H0 ß3 0 (X3 no contribuye)
- H1 ß3 ? 0 (X3 contribuye)
159sigue
-
- H0 ß4 0 (X4 no contribuye)
- H1 ß4 ? 0 (X4 contribuye)
160Pruebas estadísticas
161Significación coeficientes individuales
- Obsérvese que sólo el coeficiente asociado a la
variable ingresos es estadísticamente
significativo.
162 t Test Ejemplo hipotético
Test con un ? 0.05.
- H0 ß2 0
- H1 ß2 ? 0
- gl 14 Valores críticos
Prueba estadística Decisión Conclusión
t Test Statistic 3.491
Reject H0 con ? 0.05
Rechazo H
Rechazo H
0
0
.025
.025
Hay evidencia de un efecto significativo.
t
0
2.145
-2.145
163Intervalos de confianza
- Algunos autores prefieren los intervalos de
confianza a la prueba t. - El Intervalo de confianza se refiere al intervalo
que, a un cierto nivel de confianza, contiene al
parámetro estimando. - Nivel de confianza es la probabilidad de que el
intervalo calculado contenga el verdadero valor
del parámetro.
164- El cálculo es como sigue
- b t(?/2, g.l.)sb
- Donde t es el valor teórico del estadístico para
- ?/2 y los grados de libertad asociados a la
- SCR (g.l. de la Suma de Cuadrados Residual
- del ANOVA) sb el error estándar de b.
165- El IC se representa por (1-?)100.
- Calculemos el intervalo de confianza del 95 para
un valor estimado de b 1.18 y sb .28.
Entrando en las tablas de t con un alfa de .05/2
.025, y por ejemplo, con 18 g.l. (t 2.101). - El intervalo de confianza del 95 es
- 1.18 (2.101)(.28) .59 y 1.77
166- Con el intervalo de confianza, la prueba de la
hipótesis nula, ß 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de ß 0 es
por lo tanto rechazada con un ? 0.05
167- (c) Prueba de significación de modelos parciales
168Prueba de modelos parciales
- Se examina la contribución de un conjunto de
variables en Y. - La forma como se analiza la contribución
específica del conjunto de variables define el
procedimiento o método a seguir. - Varios procedimientos permiten evaluar la
contribución particular de cada variable o
predictor.
169- Métodos de selección de variables
170Cantidad de modelos
- Con el programa SPSS es posible construir
diferentes modelos a partir de las mismas
variables independientes. - Así, con 5 variables independientes es posible
construir 32 modelos diferentes 1 modelo con
sólo la constante, 5 modelos con sólo una
variable independiente, 10 modelos con 2
variables independientes, 10 modelos con 3
variables independientes, 5 modelos con 4
variables independientes y 1 modelo con 5
variables independientes.
171Procedimientos a seguir
- Con pocas variables independientes es posible
evaluar todos los posibles modelos. - Con muchas variables independientes se utilizan,
por lo general, métodos que añaden y quitan
secuencialmente las variables del modelo.
172Tipos de procedimientos
- Procedimiento enter o global
- Jerárquico (de acuerdo a un orden)
173Método simultáneo (Enter)
- En el método simultáneo, denominado en el SPSS
por ENTER, el investigador define e introduce en
el sistema el conjunto de predictores que forman
el modelo. A continuación se evalúa la capacidad
de este modelo en predecir la variable criterio. - Se trata, en definitiva, de probar un modelo
global o completo.
174Métodos jerárquicos de selección de variables
- En los métodos jerárquicos, las variables entran
en el modelo de acuerdo con un orden determinado.
El orden depende de las consideraciones teóricas
o de resultados previos. - Desde la perspectiva estadística, el orden de
entrada de las variables en el modelo viene
determinado por la fuerza de su correlación con
la variable criterio.
175- En la actualidad hay diferentes versiones de este
método stepwise selection, forward selection,
backward selection y remove.
176Stepwise selection
- La Stepwise selection es el método más común
usado en la construcción y prueba de un modelo. - Es similar al procedimiento forward excepto que
cuando se entra una variable en el modelo y se
constata que contribuye a la significación, el
resto de variables son entonces reevaluadas para
probar si siguen en el modelo o son eliminadas.
177Forward selection
- Forward selection con el programa SPSS se entran
las variables una a un tiempo, de acuerdo con la
intensidad de su correlación con la variable
criterio. Se evalúa el efecto de haber sido
añadida al modelo. - El procedimiento se para cuando no hay más
variables independientes que incrementen la
significación del estadístico (R2).
178Backward selection
- La Backward selection empieza con todas las
variables del modelo y elimina la menos útil a un
tiempo. - Una vez eliminada la variable del modelo, no
puede ser entrada de nuevo en un paso posterior.
179Remove
- El Remove es un procedimiento de selección de
variables en que se eliminan todas las variables
de un bloque en un solo paso.
180Diagnóstico del modelo
181Consideraciones generales
- Por lo general, para verificar si se cumplen o
violan los supuestos del modelo de la regresión,
se utilizan los residuales. - Cuando se estudian las relaciones entre las
variables se desconoce si los datos violan los
supuestos del análisis de la regresión. - No se sabe si hay una relación lineal entre las
variables (dependiente e independientes), si la
distribución de la variable dependiente es normal
y tiene variancia igual para todas las
combinaciones de valores de las independientes,
etc.
182Enfoques del diagnóstico
- Finalizada la prueba de significación del modelo
o de los coeficientes, es posible llevar a cabo
un análisis de residuales de forma gráfica
(mediante los correspondientes plots) o bien la
prueba de Durbin-Watson (para comprobar si ha
correlación serial entre los residuales).
183- Verificación del supuesto de
- no-colinealidad
184Estadísticos de colinealidadTolerancia y VIF
(factor deinflación de la varianza )
- Tolerancia es una primera medida de la fuerza de
dependencia lineal entre las variables
independientes (Tp 1 Rp2). - Un valor máximo de 1 indica que la variabilidad
de una variable independiente es escasamente
explicada por las otras. Un valor 0 indica que la
variable viene a ser una combinación lineal de
las restantes. Se dice, en este caso, que hay
multicolinealidad. Es deseable que, en general,
sea mayor a .40
185sigue
- VIF (variance inflation factor) a medida que la
multicolinealidad de uno de los regresores
aumenta, la variancia de su coeficiente comienza
a crecer. La multicolinealidad infla la variancia
del coeficiente (VIFp 1/(1-Rxp2). - La VIF tomará un valor mínimo de 1 cuando no hay
colinealidad y no tiene límite superior en el
caso de multicolinealidad. Por lo general,
valores superiores a 2 se consideran
problemáticos.
186sigue..
- Ante la presencia de colinealidad o
multicolinealidad, una solución lógica consiste
en quitar del modelo aquellas variables con más
alto VIF (o más baja tolerancia). - Estos dos coeficientes (tolerancia y VIF) son
recíprocos, de modo que valores bajos para la
tolerancia o altos para FIV indica la existencia
de colinealidad. El problema es que este
procedimiento no expresa las variables
involucradas.
187 Diagnóstico de la colinealidad
188Diagnósticos de la colinealidad
- Dimensiones factores diferentes que subyacen en
el conjunto de las variables independientes. - Autovalores o raíces características ordenados
de mayor a menor, los valores próximos a 0
indican colinealidad. - Índices de condición raíz cuadrada (autovalor
mayor/autovalor). Valores por encima de 15 (30)
indican posibles problema de colinealidad - Proporciones de variancia proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.
189sigue
- Proporciones de variancia Hay problema de
colinealidad si una dimensión (de índice de
condición alto) explica gran cantidad de la
variancia de dos o más variables. - Si no existe colinealidad entonces cada dimensión
explica casi la varianza de un solo coeficiente
(salvo el b0 o Constante que va asociado a uno de
los otros coeficientes). Hay problema de
colinealidad si una dimensión (de índice de
condición alto) explica gran cantidad de la
varianza de dos o más variables.
190Resto de supuestos mediante plots de los
residuales
191Obtención de los plots en el SPSS
- En el modelo de la Regresión múltiple, marcamos
la opción plots. - Al abrirse cuadro de diálogo, tenemos las
siguientes opciones - Obtener un scatterplot seleccionando las
variables del listado (una se mueve al recuadro Y
y la otra al recuadro X). - Generar todos los plots parciales.
- Obtener el histograma y el plot de probabilidad
normal.
192Variables disponibles (listadas en el recuadro)
- DEPENDEN variable dependiente
- ZPRED valores predichos estandarizados de la
variable dependiente valores pronósticos
divididos por su desviación estándar (media de 0
y desviación 1). - ZREDI residuales estandarizados.
- DRESID residuales eliminados es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico.
193Variables disponibles (listadas en el recuadro)
- DEPENDEN variable dependiente
- ZPRED pronósticos tipificados pronósticos
divididos por su desviación estándar (media de 0
y desviación 1) - ZREDI residuos tipificados
- DRESID residuos eliminados es decir, al
efectuar los pronósticos se eliminan de la
ecuación el caso sobre el que se efectúa el
pronóstico
194sigue
- ADJPRED valores predichos ajustados es decir,
valores pronosticados sin incluir el caso
pronosticado. - SRESID residual estudentizado dividido por su
desviación estándar que varía de un caso a otro y
se distribuye según la t de Student. - SDRESID residuales estudentizados eliminados de
la ecuación de la regresión.
1951) Prueba de la linealidad
- Por lo general, la prueba de linealidad o ajuste
lineal es mediante el gráfico de la variable
dependiente contra la variable independiente. Si
los puntos se hallan cercanos a un línea recta se
infiere el supuesto. Se puede evaluar, también,
la linealidad con el scatterplot de los
residuales estandarizados o estudentizados
contra los valores predichos.
196Scatterplot 1
197Scatterplot 1
1982) Prueba de independencia
- Uno de los supuestos básicos del MRL (modelos de
la regresión lineal) es la independencia entre
las observaciones (y en consecuencia residuales).
La dependencia, por lo general, es un problema
cuando los datos se obtienen de una serie.
199sigue
- Se puede probar la independencia mediante el plot
de los residuales estudentizados contra la
variable de secuencia (orden en que las
observaciones se obtienen). - Cabe la posibilidad de utilizar el estadístico de
Durbin-Watson que aporta información sobre si las
observaciones adyacentes están correlacionadas.
Si no hay correlación entre los residuales, el
valor del estadístico debería ser cerca de 2. Un
valor de 0 indicaría un correlación positiva
entre los residuales.
200El estadístico de Durbin-Watson
- El estadístico de Durbin-Watson (DW) proporciona
información sobre el grado de independencia entre
los residuales. El estadístico DW varía entre 0 y
4,y toma el valor 2 cuando los residuales son
independientes. Valores menores que 2 indica
autocorrelación positiva. - A nivel práctico, se asume la independencia entre
los residuales cuando DW toma valores entre 1.5 y
2.5
201sigue..
- El valor del residual es calculado por la
diferencia entre el correspondiente valor
empírico y teórico. - ei Yi - Yi
2023) Prueba de homoscedasticidad
- La variación de los residuos debe ser uniforme en
todo el rango de valores pronosticados es decir,
el tamaño de los residuos es independiente del
tamaño de los pronósticos. O sea, el diagrama de
dispersión no debe mostrar ninguna pauta de
asociación entre los pronósticos y los residuos. - Para ello, ZRESID se traslada al eje Y y ZPRED al
eje X. Los residuales se dispersan aleatoriamente
alrededor de la línea horizontal de 0.
203Variancia constante
2044) Prueba de normalidad
- Mediante el histograma de los residuos
estandarizados. La curva se construye con media 0
y un desviación típica de 1. Estos no ayuda ver
si tienen una distribución normal. - O bien, mediante el gráfico de probabilidad
normal. En el eje de las abscisas se representa
la probabilidad acumulada de cada residuo y en el
eje de las orden