Master Intervenci

About This Presentation

Title:

Master Intervenci

Description:

Master Intervenci n Psicosocial An lisis de la regresi n Modelos de an lisis estad stico I. Conceptos b sicos. II. Regresi n m ltiple Parte I. Conceptos ... – PowerPoint PPT presentation

Number of Views:316

Avg rating:3.0/5.0

Slides: 214

Provided by: Jaume6

Learn more at: http://www.ub.edu

Category:

more less

Transcript and Presenter's Notes

Title: Master Intervenci

1
Master Intervención Psicosocial
2
Análisis de la regresión
3
Modelos de análisis estadístico

I. Conceptos básicos.
II. Regresión múltiple

4
Parte I. Conceptos básicos
5
Análisis estadístico

En un sentido amplio, se refiere a todos los
métodos que describen las relaciones que se dan
entre diversas variables o dimensiones de
variación.

6
Modelos de análisis estadístico y diseño de
estudio
7
Conceptos básicos

Datos observaciones realizadas de los individuos
o grupos de individuos
Escalas de medida no métricas (nominales y
ordinales) y métricas (intervalos y de razón)
Diseños estrategias de recogida de datos
Estrategia del diseño transversal o longitudinal
Modelos de análisis sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos
Clases de relaciones asociativas y causales

8
A propósito de los datos (1)
9
Elaboración de datos

Observación Escala
Dato científico
directa de medida
o valor

numérico
La conversión de una observación directa en
un dato científico se realiza mediante la
aplicación de una adecuada escala de medida.

10
Reunión de datos

Sistemas de reunión de datos
Tablas
Gráficos

11
Tablas

Las tablas se usan en los informes
científicos para resumir los datos u otra
información que no puede ser presentada de forma
conveniente en la narrativa del texto.

12
Acerca de las tablas

Las tablas deben tener un título que informe
claramente sobre su contenido como por ejemplo
preferencias del partido político. Las tablas
estadísticas deberían informar también sobre el
número de observaciones que se incluyen
(frecuencia). La parte superior de la columna del
lado izquierdo de la tabla es referida como
título de filas e informa sobre el contenido de
las fila. El cuerpo de la tabla contiene los
datos de interés. En el ejemplo propuesto se
muestra el número de individuos que prefieren un
partido político. ..//..

Las tablas que se refieren a una sola variable
son conocidas por representaciones univariadas y
las que informan sobre dos variables,
representaciones bivariadas. En la
representaciones bivariadas una variables está
asociada a las filas y la otra a las columnas y
se conocen, también, por tablas de contingencia.
Ejemplo de tabla bivariada que relaciona
preferencia de un partido político y afiliación
religiosa (en paréntesis están los porcentajes).

14
Ejemplos (tablas)
15
Ejemplos (tablas)
16
Gráficos

Con los gráficos se consigue una representación
visual de los datos, por lo que es un
procedimiento útil a la investigación. Los
gráficos captan mejor la atención del lector,
permite clarificar los resultados y facilitar su
interpretación

17
Histograma de frecuencias o gráfico de barras

El histograma de frecuencias es un gráfico
que muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras presenta los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos
de cada categoría. El gráfico siguiente muestra
la cantidad de amigos reportados por estudiantes
de un College americano.
..//..

18
Cantidad de amigos reportados por estudiantes de
un College
19

En el segundo ejemplo, se muestra un gráfico de
barras sobre el efecto de dos drogas
antiansiolíticas. Se trata de una escala nominal
y la diferencia entre el primer y segundo panel
estriba en la forma de representar las unidades
en el eje vertical (unidades pequeñas en el
primer panel y punto cero y unidades grandes en
el segundo). Nótese que la gran diferencia entre
las dos drogas que se observa en el primer panel
y que desaparece en la segunda representación.

20
Efectos de dos psicofármacos sobre la ansiedad
21
Polígono de frecuencias

Es una forma alternativa de representa el
histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma información
sobre la cantidad de amigos, pero utilizando el
sistema de líneas y no de barras. De igual modo,
se tiene el gráfico de la cantidad de divorcios
al aprobarse correspondiente ley en el Estado de
Nebraska.

22
Cantidad de amigos reportados por estudiantes de
un College
23
Cantidad de divorcios antes y después de su
promulgación en el Estado de Nebraska
24
Escalas de medida y datos (2)
25
Cuantificación de las variables

Las variables se cuantifican al asignar valores
numéricos a los atributos o características de
los individuos, objetos y hechos de acuerdo a
reglas.
El proceso de asignación de los números de
acuerdo a reglas se denomina medida.

26
Escalas de medida

Las reglas particulares de asignación de números
a las variables se definen como escalas de
medida.
Clasificación
Nominal
Ordinal
débiles
Escalas
De intervalo
De razón
fuertes

27
Escalas de medida

Nominal 1 varón 2
hembra
Ordinal
1
2 3
De intervalo
15 16 17
18 19 20 21 22 23
De razón
0 1 2
3 4 5 6 7 8

28
Ejemplos de escalas

Nominal los valores sólo representan
categorías o nombres (género, raza, religión,
etc.)
Ordinal los valores representan el orden
en función del grado como actitud, preferencia,
etc.
De intervalo la distancia entre los
valores se mantiene constante como la
temperatura, respuestas correctas, etc.
De razón cuando además de la constancia
del intervalo hay un valor cero que coincide con
la ausencia del atributo.

29
Escalas y naturaleza de los datos

Escala Tipo
Dato
Nominal Cualitativa
No-paramétrico
Ordinal Cuantitativa
No-paramétrico
De intervalo Cuantitativa discreta
Paramétrico
De razón Cuantitativa continua
Paramétrico

30
Naturaleza de los datos y prueba estadística

Datos de escala Prueba estadística
Nominal Prueba
Ordinal no paramétrica
De intervalo Prueba no
paramétrica y
De razón paramétrica

31
Variable dependiente

Datos métricos o gaussianos
Datos no métricos o no gaussianos

32
En torno a los diseños (3)
33
Concepto de diseño

El diseño es una estrategia particular de
recogida de datos y es función de los objetivos o
hipótesis propuestos.
Los diseños son transversales y longitudinales,
según la no presencia o presencia de la dimensión
temporal en el estudio.

34
A modo de resumen

Cuál es la relación entre diseño (estudio)
matriz de datos y modelo de análisis?
Cuál es la estructura de cualquier investigación
científica?

35
Estructura de la investigación en ciencias
sociales

Diseño Datos
Modelo análisis
Problema
Estadístico
Hipótesis
Estimación
Variables
Inferencia
Modelo de escala

36
A modo de resumen

Se ha visto la secuencia entre las tres fases o
momentos de una investigación diseño, datos y
análisis.
Es importante conocer la estructura del diseño,
así como los distintos procedimientos o tipos de
investigación

37
Estructura del diseño (4)
38
Tipología del diseño de investigación

Diseños observacionales
Diseños correlaciones o predictivos (estudios de
encuesta)
Diseños cuasi-experimentales
Diseños experimentales

39
Naturaleza de los datos (variable dependiente)

Datos métricos o cuantitativos (de distribución
gaussiana o normal)
Datos no métricos o categóricos (de distribución
no-gaussiana)

40
Estrategia del diseño y modelo de
análisisDiseños experimentales y
cuasi-experimentales
41

Diseño
Datos cuantitativos Estrategia
Datos cualitativos
ANOVA Transversal
Longitudinal TC
Grupos
Medidas
AR paralelos
repetidas Modelo log-lineal
Factorial
Cross-over
MANOVA
Regresión
Medidas
Antes-después logística
repetidas
Cohortes
Factorial
mixto
Split-plot

42
Diseños no experimentales

En el contexto no experimental (experimento
verdadero y cuasi-experimentales) los diseños
suelen ser observacionales y correlacionales.Los
diseños correlacionales se basan en el análisis
de múltiples variables con el propósito de
estimar la magnitud de cambio entre ellas.

43
Sigue

El objetivo es poder predecir la variable
dependiente a partir de la o las variables
predictoras o independientes. También se pretende
explicar la proporción de variación de la
variable dependiente por la o las variables
independientes.

44
Modelos de análisis estadísticos (5)
45
Cuestión!

Una vez recogidos los datos, qué hacer con
ellos?
A esta cuestión cabe responder lo siguiente los
datos se analizan de acuerdo con modelos
estadísticos adecuados a fin de derivar
consecuencias teóricamente interpretables es
decir, se obtienen resultados que han de ser
interpretados.

46
El modelo lineal general
47
Modelo estadístico general

Y f(X) g(E)
V.Dep. Parte fija Parte aleatoria

48
Concepto

El modelo estadístico, o ecuación de carácter
lineal, asume que una observación Y es el
resultado de la combinación aditiva de alguna
función f de variables fijas y de alguna función
g de componentes aleatorios, y que tanto f como g
pueden tomar parámetros conocidos o desconocidos.
..//..

49
continuación

Considerada esta ecuación como un modelo
estadístico general, se tiene que cualquier
observación es la suma de dos partes o
componentes una parte fija o determinista, f(X),
y una parte aleatoria desconocida, g(E).

50
Clases de relaciones entre variables o hipótesis
(6)
51
Clases de hipótesis

Asociativa
Hipótesis
Causal

52
Hipótesis asociativa

X Y
Los valores de la variable X covarían con los
valores de la variable Y

53
Ejemplos (hipótesis asociativas)

a) Hay una correlación entre el estilo de
dirección y la moral de los empleados
b) La visualización de los dibujos animados
está asociado con el comportamiento agresivo de
los niños.
c) La percepción de culpabilidad o inocencia de
los acusados está asociada a los argumentos
legales.
..//..

d) El consumo de heroína es función de la
clase social.
e) El consumo de tabaco está positivamente
relacionado con el nivel de alerta en sujetos
humanos.
g) Los niños sensibles al ritmo progresan más
en el aprendizaje de lectura.

55
Hipótesis causal

X Y
Los valores de la variable X determinan los
valores de la variable Y

56
Ejemplos (hipótesis causales)

a) Leer dos veces una lista de ítems favorece
su recuerdo.
b) La intensidad de un estímulo determina una
respuesta de discriminación más rápida.
c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica.
..//..

d) El castigo genera respuesta de evitación.
e) La frustración es causa de conductas
agresivas.
f) El nivel de alerta aumenta la efectividad
del rendimiento escolar.
g) El ejercicio aumenta el rendimiento en
una actividad motora.

58
Contextos de las hipótesis

Hipótesis
Contexto
científico
asociativas
correlacional
causales de
manipulación

59
Universo de las hipótesis

Hipótesis de investigación
Hipótesis estadística

60
Hipótesis de investigación

Se plantean por intereses teóricos o sustantivos
Definen cómo se relacionan las variables
Suelen ser asociativas y causales

61
Hipótesis estadísticas

Las hipótesis estadísticas se establecen mediante
características de las poblaciones de origen. Las
poblaciones de origen están definidas por
parámetros, que son valores de la distribución
fijos pero desconocidos. Los parámetros
poblacionales se asemejan a los estadísticos de
muestra y se estiman a partir de estos últimos.

62
continuación

Mediante los datos de muestra podemos aceptar o
rechazar, con cierto grado de confianza
determinado numéricamente, una hipótesis hecha
sobre una población determinada. Tal proceso se
conoce como contraste de hipótesis estadísticas o
prueba de significación estadística.

63
Prueba de hipótesis estadística

En investigación social, interesa más los
parámetros asociados a la parte fija del modelo
estadístico porque representan la magnitud de un
cambio (grado de asociación entre las variables)
o el efecto causal (el impacto de una variable
sobre otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel de
significación de estos parámetros.

64
Hipótesis estadística sobre un parámetro
individual

H0 parámetro 0
H0 ß 0

65
O bien, sobre los parámetros del modelo

En el modelo de la regresión múltiple, se asume
que los distintos coeficientes (pendientes) son
cero
H0 b1 b2 ?p 0

66
en consecuencia,

Si se demuestra, como resultado de la prueba, que
H0 bi 0, entonces no hay relación lineal
entre la variable Xi e Y.
En caso contrario, se tiene
H1 bi ? 0, se infiere que hay una relación
lineal entre ambas v ariables.

67
Hipótesis nula H0

En teoría estadística se asume, inicialmente, la
no significación de los parámetros, siendo este
supuesto la hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se demuestra
que este supuesto no es aceptable, se recurre a
la hipótesis alternativa (H1) como la explicación
más plausible de los datos.

68
Prueba de la hipótesis estadística o prueba de
significación

La prueba de significación estadística contrasta
la hipótesis de nulidad con los datos del
estudio. A partir del resultado de la prueba de
significación, se procede a la toma de decisiones
estadísticas. El resultado de la prueba consiste,
de forma sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la no-relación
entre la variable independiente (predictora) y la
variable dependiente (criterio).
..//..

Cabe matizar, no obstante, que entre la variable
independiente y dependiente pueden darse
relaciones de asociación o de causalidad, de modo
que la posible implicación de una variable sobre
otra depende del diseño utilizado (correlacional
o experimental). La relación de asociación es la
magnitud de cambio que se da entre dos variables,
mientras que la relación de causalidad es el
tamaño del impacto de una variable sobre otra.

70
Inferencia de la hipótesis de nulidad

La inferencia de la hipótesis nulidad nos lleva a
aceptar que la variable independiente no está
relacionada con la dependiente (inferir su
efecto). En caso contrario, se toma la decisión
en favor de un modelo alternativo asumiendo, como
explicación más plausible (no exenta de riesgo),
el modelo de una relación efectiva entre ambas
variables. ..//..

Al tomar esta decisión, se corre el riesgo de que
sea falsa. Este riesgo se define, en teoría
estadística, en términos de probabilidad y es
conocido por nivel de significación. El nivel de
significación describe el grado de credibilidad
que merece la hipótesis considerada.

72
Errores en el rechazo o aceptación de H0

Situación actual de la H0
Decisión Verdadera
Falsa
Rechazo H0 Error Tipo I No
error
Aceptación H0 No error
Error Tipo II

73
Error Tipo I y error Tipo II

A) Error Tipo I o decisión positiva falsa se
comete al rechazar la hipótesis de nulidad cuando
es verdadera es decir, cuando se toma una
decisión positiva, en favor de la existencia de
un efecto cuando en realidad no existe (falsa
alarma).
La probabilidad de cometer este error es el
nivel de significación o valor a de la prueba
estadística. ..//..

B) Error Tipo II o decisión negativa falsa se
comete cuando la prueba lleva a la aceptación de
una hipótesis de nulidad falsa. Se trata de no
aceptar el hecho de un efecto de la variable
independiente cuando en realidad ocurre. El error
de Tipo II se define por la probabilidad ß y está
asociado inversamente con la probabilidad a y
directamente con la potencia de la prueba.

75
Decisión estadística y error

Resultado Probabilidad
Decisión
de la prueba de azar
estadística a 0.05
Significativo p lt a
NA(H0)
H0
No significativo p gt a
A(H0)

76
Inferencia de H0

Probabilidad 1 Región de
de azar
decisión
Si p gt 0.05 A(H0)
a
0.05
Si p lt 0.05 NA(H0)
0

77
Sobre la discusión de los resultados
78
Concepto

Las actividades propias de la discusión de los
resultados son las siguientes
a) Inferir a partir de la prueba estadística las
consecuencias de carácter teórico.
b) Interpretar estas consecuencias a la luz de
las hipótesis formuladas
c) Establecer el alcance de los resultados
mediante la generalización de los mismos

79
Inferencia teórica de la hipótesis

Supongamos que la prueba de la hipótesis
estadística nos lleva a no aceptar la hipótesis
de nulidad. En este caso, se suele inferir, como
la más adecuada, la hipótesis alternativa que
coincide con la hipótesis de trabajo o
investigación. Está claro que esta inferencia
está sujeta a un riesgo de error (definido en
términos de probabilidad).

80
Interpretación de los resultados

Las actividades propias de la interpretación de
los resultados son
a) Examinar y explicar los datos por la
hipótesis de investigación.
b) Extraer los contenidos científicamente
significativos.
c) Interpretar los resultados en términos de
hipótesis alternativas o rivales.

81
Generalización de los resultados

En la generalización se evalúa el alcance de los
resultados, es decir, para qué poblaciones son
vigentes los supuestos teóricos probados. La
generalización de los resultados suele
realizarse, por lo común, con la población de
sujetos.

82
Parte II. Modelos de la regresión múltiple y otros
83
Regresión múltiple
Modelos de la Regresión múltiple
No Lineal
Lineal
Lineal
V. Dummy
Interac.
Polinó-mica.
Raíz Cuadrada
Log-lineal
Recípro-ca
Expo-nencial
84
Modelo lineal de la regresión múltiple

El modelo lineal de la regresión es un caso
especial Modelo Lineal General. De este modo, el
componente determinista (parte fija del modelo)
está formado por un conjunto de variables objeto
de estudio en la investigación (predictores) y el
componente aleatorio por un término de error
(falta de ajuste).
..//..

El análisis de la regresión múltiple es utilizado
cuando se pretende predecir una variable
dependiente continua de un conjunto de variables
independientes (predictores). Cuando la variable
dependiente es dicotómica, se aplica, en este
caso, la regresión logística .
Las variables independientes usadas en la
regresión pueden ser cuantitativas o cualitativas
(dummy). ..//..

Por lo general, el análisis de la regresión
múltiple utiliza variables que son propias de los
contextos naturales, en oposición a variables que
son manipuladas experimentalmente, aunque es
posible utilizar la regresión con esta clase de
variables.
..//..

Cabe tener en cuenta, por último, que con el
análisis de la regresión (en sentido estricto) no
pueden inferirse relaciones causales entre las
variables. Por lo general, la terminología es la
siguiente X predice a Y, y no puede decirse que
X causa a Y.

88
Modelo de la regresión simple

Y b0 b1X1 e
Observación
Parte fija Parte
aleatoria
(determinista) (error)

89
Descripción

En el modelo de la regresión simple, Y denota la
variable dependiente (criterio), X la variable
explicativa, b0 es el intercepto, b1 (la
pendiente) denota el parámetro estimado de la
variable X y e es el término de error
aleatoriamente distribuido. Constituye, con el
modelo de la regresión múltiple, uno de los
modelos más utilizados en ciencias sociales.

90
Representación del modelo en forma condensada

Y1 b0 b1X11 e1
Y2 b0 b1X21 e2
...............................
Yn b0 b1Xn1 en
y Xß e (forma
matricial
compacta)

91
Modelo de la regresión múltiple

Y b0 b1X1 b2X2 ... bpXp e
Forma simplificada
Y b0 SpbpXp e

92
Modelo de la regresión múltiple

Expresa un modelo de la regresión de p variables
como una serie de ecuaciones.
Las p ecuaciones agrupadas en un sistema nos dan
el modelo lineal general familiar.
Los coeficientes ? son conocidos como
coeficientes de la regresión parciales.

93
Representación del modelo en forma condensada

Y1 b0 b1X11 b2X21 ... bpXp1 e1
Y2 b0 b1X12 b2X22 ... bpXp2 e2
.................................................
...............
Yn b0 b1X1n b2X2n ... bpXpn en
y X ?
e

94
Modelos de la regresión de p variables
?1 - Intercepto
?2??p - Coeficientes de pendiente parciales de la regresión
?i - Término residual asociado con Ia i observación
95
Supuestos del modelo de la regresión

Normalidad
Linealidad
Homoscedasticidad
Multicolinealidad y singularidad

96
Normalidad

En principio, cabe pensar que los datos tienen
una distribución normal. Es posible verificar
este supuesto, construyendo histogramas y
comprobando la distribución de los datos. A
veces, en los histogramas se incluye una línea
que representa la forma de la distribución con la
que es posible comprobar si la distribución de
los datos de desvía de esta línea.

97
En otras palabras

Los valores de la variable dependiente son
normalmente distribuidos para cada posible
combinación de los niveles de las variables X.

98
Distribución normal de la variable edad
99
Linealidad

Se asume una relación lineal recta entre las
variables independientes y la dependiente. En la
práctica, este supuesto no suele verificarse,
dado que los procedimientos de regresión múltiple
no suelen ser gravemente afectados por leves
desviaciones de este supuesto. Si la curvatura de
la relación es evidente, se pueden transformar
las variables o recurrir de forma explícita a
componentes no lineales.

100
Definición de modelo lineal

Los modelos en que todos los parámetros
(b0,b1,,bp) tienen exponentes de uno se
denominan modelos lineales.
Los modelos cuyos parámetros (b0,b1,,bp) tienen
exponentes con valores distintos de la unidad se
denominan modelos no-lineales.

101
Línea de ajuste del peso a la altura libras/pulgad
as
102
Líneas de Regresión (línea de mejor ajuste)
103
Cambio en la línea de mejor ajuste
104

Los supuestos de normalidad, linealidad y
homoscedasticidad pueden ser examinados al
inspeccionar el gráfico de dispersión con los
valores predichos de Y (Y ) en el eje X y los
residuales (Y-Y) en el eje Y.

105
Homoscedasticidad

Las variancias de los valores de la variable
dependiente (datos del estudio), para cada
posible combinación de niveles de la variable X,
son iguales es decir, la variancia de los
residuales es constante.

106
Multicolinealidad

La multicolinealidad significa que las variables
independientes están correlacionadas. Supóngase
que la altura de una persona tiene dos
predictores peso en libras y peso en kilos.
Estos dos predictores son redundantes, ya que el
peso es único independiente de si se mide con
libras o kilos.
..//..

107

Cuando ocurre esto significa que al menos una de
las variables predictoras es totalmente
redundante con otras. Los indicadores
estadísticos de este fenómeno es conocido por
tolerancia.

108
Relación entre variables independientes

De tolerancia el grado en que un predictor puede
ser predicho por otros predictores. La tolerancia
es igual a 1 cuando las variables independientes
no están relacionadas.

109

Singular De igual modo, la relación es singular
cuando un predictor es perfectamente predecible
de otros predictores (tolerancia igual a cero).

110
Resumen supuestos del modelo

Normalidad
- Y valores son normalmente distribuidos por
cada X
- La distribución de probabilidad del
error debe ser normal
Homoscedasticidad (variancia constante)
E(si2)

111
Sigue

Independencia de errores E(eiej)0 (i ? j)
Linealidad
Las variables independientes son medidas sin
error
No debe darse una relación lineal exacta entre
cualquier subconjunto de variables explicativas
(perfecta multicolinialidad)

112
Otros modelos
113

Modelos con variables dummy (categóricas) y de
interacción

114
Variables dummy

Las variables dummy (ficticias) se refieren a
las dimensiones en que se tienen en cuenta dos
valores o categorías. Por lo general, se utilizan
los valores 0 y 1 para representar una categoría
u otra de la variable (por ejemplo género).

115
Diseño experimental

En el diseño experimental, las variables
independientes suelen ser categóricas y, a veces,
dummy.
Suelen recibir el nombre de variables de
tratamiento.
El objetivo es comparar las medidas de los grupos
de tratamiento.
Se utiliza el modelo estadístico ANOVA.

116
Modelos con componentes no aditivos o interactivos

Y b0 b1X1 b2X2 b12X1X2 e
Y b0 Sj bjXj SjSk bjkXjXk e

117
Modelos no lineales

Modelos cuyas variables tienen exponentes, como
por ejemplo, los modelos polinómicos,
exponenciales, etc.

118
Modelos polinómicos no lineales

Y b0 b1X1 b2X1² ... bkX1k e

119
Modelo de dos variables, k 2

Y b0 b1X1 b2X2 b11X1² b22X2²
b12X1X2 e
Forma simplificada
Y b0 Sj bjXj Sj bjjXj² SjSk bjkXjXk
e

120
Cuestión!

Hemos presentado un conjunto de modelos
estadísticos basados en la regresión simple y
múltiple (lineal y no lineal). La cuestión que se
nos plantea es la siguiente
Dados unos datos, cómo se procede para ajustar
un modelo estadístico?

121
Proceso de ajuste del modelo estadístico

Selección del modelo
Estimación de parámetros
Inferencia estadística

122
Pasos para el ajuste
123
Selección (1)
124
Selección del modelo

El modelo de la regresión se selecciona teniendo
en cuenta
a) la naturaleza de la variable dependiente
b) cantidad de variables independientes o
explicativas (su estatus teórico) ..//..

125

c) Si la variable dependiente es
cuantitativa de distribución normal, se aplica la
regresión lineal. Si la variable dependiente es
categórica, entonces la alternativa es la
regresión logística.
d) Cuando se tiene una sola variable
independiente, el modelo de la regresión es
simple. Con dos o más variables explicativas el
modelo de la regresión es múltiple.

126
Estimación de parámetros (2)
127
Parámetros del modelo

Sea el modelo
Yi bo b1X1 b2X2 e
Los parámetros a estimar son
b0 intercepto o constante
b1 efecto asociado a la primera variable X
b2 efecto asociado a la segunda variable X
?2e variancia del error o residual
..//..

128

b1 se interpreta como un cambio en Y por 1 unidad
de cambio de X1, siendo X2 constante. Este
enunciado no es muy claro cuando X1 y X2 no son
independientes.
Malentendido 1 bj siempre mide el efecto de Xj
sobre E(Y), independiente de otras variables X.
Malentendido 2 un valor b significativo
estadísticamente establece una relación de causa
y efecto entre X e Y.

129
Resumen interpretación de los parámetros o
coeficientes

Constante b0
Intercepto o valor promedio de Y
cuando todas las Xj 0.
Pendiente bj
Cambios estimados de Y por cada 1 unidad
de cambio en Xj. Siendo todas las
otras variables constantes.

130
Cuestión!

Dada la importancia que tienen, para el ajuste el
modelo y la interpretación de los resultados, los
parámetros o coeficientes, cabe distinguir entre
los coeficientes b (no estandarizados) y los
coeficientes ? (beta o estandarizados).
..//..

131

El coeficiente b es el cambio esperado en Y por
cada unidad de cambio en Xj, cuando el resto de
variables están controladas.
El coeficiente ? es el cambio esperado en Y en
unidades de desviación estándar por cada unidad
estándar de cambio en Xj, cuando el resto de
variables están controladas.

132
A propósito de la interpretación de los
coeficientes

Los parámetros b tienen la ventaja de que se
interpretan en unidades de medida originales.
Los coeficientes ? son directamente comparables
en cuanto a su importancia en la variable Y. No
pueden ser interpretados en la escala de medida
original.
..//..

133
Ejemplo de ?

El valor beta es una medida de la intensidad con
cada predictor influye en la variable criterio.
Es medida en unidades de desviación estándar.
Así, un valor beta de 2.5 indica que un cambio en
una unidad estándar del predictor resulta un
cambio de 2.5 unidades estándar en la variable
criterio.

134
Inferencia y significación estadística (3)
135
Pasos a seguir en la evaluación del modelo

Una vez se ha especificado el modelo de la
regresión, se necesita conocer en qué medida se
ajusta a los datos.
En primer lugar, probaremos el ajuste del modelo
global de la regresión.
Luego, probamos la significación de cada variable
independiente.

136
Evaluación del modelo de la regresión múltiple

Medidas de variación
Pruebas de significación

137
Medidas de variación
138
Coeficiente de determinación múltiple (R2)

Proporción de variación en Y explicada por
todas las variables X tomadas en su conjunto.
Jamás decrece cuando una nueva variable X es
introducida en el modelo.
La prueba de R2 0 expresa que todas las
variables X, de forma conjunta, no explican la
variación de Y.

139

Prueba de significación global del modelo

140
Ejemplo práctico (datos simulados)

Supongamos que se pretende estudiar el impacto
que sobre un Cuestionario de Satisfacción Vital
tienen las siguientes variables
Edad
Ingresos
Cantidad hijos
Salud

141
Pruebas de significación

En el contexto de la regresión pueden seguirse,
como se ha indicado, dos estrategias de prueba
a) Prueba del modelo completo, con todos los
coeficientes. Para ello se usa el coeficiente de
determinación (R2) mediante el estadístico F.
b) Prueba de los coeficientes individuales de la
regresión con el estadístico t.

142

c) Cabe también la posibilidad de probar un
subconjunto de variables independientes o modelos
parciales.

143
Estadísticos para la prueba del modelo total (a)

Para conocer el grado de ajuste del modelo se
utilizan dos estadísticos R2 (coeficiente de
determinación) y R2 ajustado.
R2 indica la proporción de variación en la
variable criterio (y) explicada por el modelo. En
suma, es un medida de la bondad de la predicción
de la variable criterio por las variables
predictoras.

..//..

144

R2 ajustado el coeficiente de determinación
tiende, en cierto modo, a sobre-estimar la bondad
del modelo cuando se aplica al mundo real. Por
ello, se calcula el coeficiente de determinación
ajustado que tiene en cuenta el número de
variables del modelo y el número de observaciones
(participantes) en que se basa el modelo.
Inconvenientes de R2 no sirve para comparar
modelos.

145
R2 ajustado

Dicho de forma más simple
El coeficiente de determinación R2 es
sensitivo a la magnitud de la muestra (n) y a la
cantidad de variables independientes o regresores
(p) con muestras pequeñas. Si p es grande en
relación a n, el modelo tiende a ajustarse muy
bien. Una medida mejor de bondad de ajuste es
calculada como sigue

146
cálculo

n -1
R2 ajustado 1 - (--------------)(1-R2)
n p 1
Ventajas refleja el tamaño de muestra y la
cantidad de variables independientes sirve para
comparar modelos

147
Coeficiente de determinación múltiple (R2)

Proporción de variación en Y explicada por
todas las variables X tomadas conjuntamente.
El estadístico R2 mide la contribución total de
las Xs.

148
Prueba de R2

Se ha señalado que cuando se prueban todos los
coeficientes de la regresión, se utiliza el
coeficiente de determinación. En este caso, se
prueba si hay una relación lineal entre la
variable criterio y las variables independientes
o predictores del modelo.

149

Hipótesis a probar
H0 ?1 ?k 0
H1 al menos un parámetro es no cero,
?k ? 0
Puesto que no hay un forma de distribución de
probabilidad para el estadístico R2, se utiliza
en su lugar el estadístico F (ANOVA aplicado a la
regresión).

150
Qué tipo de prueba ha de usarse?
La distribución utilizada se denomina
distribución de Fisher. El estadístico F es
utilizado con esta
151
Curva de la distribución de F
152
Prueba de significación total Ejemplo hipotético

H0 ?1 ?2 ?p 0
H1 Al menos una ?I ? 0
? .05
gl 4 y 14
Valor crítico

Prueba estadística Decisión Conclusión
?
F
23.751
Rechazo con ? 0.05
Hay evidencia de que al menos una variable
independiente afecta a Y
F
0
3.11
153
Prueba de los coeficientes de la regresión
individuales (b)

Siguiendo los pasos del programa SPSS
1.Se calculan los coeficientes no estandarizados
2. Se calcula el error estándar de estos
coeficientes
3. Se calculan los coeficientes beta
4. Se calcula la t de los coeficientes no
estandarizados
5. Se obtiene la significación estadística de las
t

154

Significación individual de los coeficientes o
parámetros no estandarizados

155
Pruebas de hipótesis de los parámetros estimados
?

Prueba de una cola Prueba de dos colas
H0 ?j 0
H0 ?j 0
H1 ?j gt 0, o ?j lt 0
H1 ?j ? 0
La prueba es de una cola o dos según se tenga
una hipótesis unidireccional o bidireccional (no
importan que el valor del estadístico sea mayor o
menor que cero). ..//..

156

Prueba estadística
Se utiliza la t de Student el valor estimado
del parámetro partido por su error estándar.
Región de rechazo de H0
to gt t? (o to lt t?)
to gt t?/2

157
Sea, por ejemplo, el siguiente modelo

Y ?0 ?1X1 ?2X2 ?3X3 ?4X4 e

158
Prueba de H0 bi 0

H0 ?1 0 (X1 no contribuye)
H1 ?1 ? 0 (X1 contribuye)
H0 ?2 0 (X2 no contribuye)
H1 ?2 ? 0 (X2 contribuye)
H0 ?3 0 (X3 no contribuye)
H1 ?3 ? 0 (X3 contribuye)

159
Sigue

H0 ?4 0 (X4 no contribuye)
H1 ?4 ? 0 (X4 contribuye)

160
Pruebas estadísticas

161
Significación coeficientes individuales

El único parámetro estadísticamente significativo
es el asociado a la Variable Ingresos.

162
t Test Ejemplo hipotético
Test con un ? 0.05.

H0 ?2 0
H1 ?2 ? 0
gl 14 Valores críticos

Prueba estadística Decisión Conclusión
t Test Statistic 3.491
Reject H0 at ? 0.05
Rechazo H
Rechazo H
0
0
.025
.025
Hay evidencia de un efecto significativo.
Z
0
2.145
-2.145
163
Intervalos de confianza

Algunos autores prefieren los intervalos de
confianza a la prueba t.
El Intervalo de confianza se refiere al intervalo
que, a un cierto nivel de confianza, contiene al
parámetro estimando.
Nivel de confianza es la "probabilidad" de que el
intervalo calculado contenga al verdadero valor
del parámetro.

164

El cálculo es como sigue
b t(?/2, g.l.)sb
Donde t es el valor de t tabulado para ?/2, con
los grados de libertad asociados a la SCR (g.l.
de la Suma de Cuadrados Residual del ANOVA) y sb
el error estándar de b.

165

El IC se representa por (1-?)100. Calculemos el
intervalo de confianza del 95 para un valor
estimado de b 1.18 y sb .28. Entrando en las
tablas de t para un alfa de .05/2 .025 y, por
ejemplo, con 18 g.l. (t 2.101). El intervalo de
confinaza del 95 es
1.18 (2.101)(.28) .59 y 1.77
Con el intervalo de confianza, la prueba de la
hipótesis nula, ? 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de ? 0 es
por lo tanto rechazada con un ? 0.05.

166

Prueba de significación de modelos parciales

167
Prueba de modelos parciales (c)

Se examina la contribución de un conjunto de
variables en relación a Y.
La forma como se analiza la específica
contribución de las variables define el
procedimiento o método a seguir.
Hay varios procedimientos que permiten evaluar la
contribución particular de cada variable o
predictor.

168
Sigue

Hipótesis nula
La variables del conjunto no mejoran
significativamente el modelo, cuando todas las
otras son incluidas.
Los modelos deben estimarse por separado

169
Prueba estadística de partes del modelo
Test H0 b1 0 en un modelo de 2 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
170
Prueba estadística de partes del modelo
Test H0 ?1 ? 2 0 en un modelo de 3 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
171

Procedimientos de selección de variables

172
Tipos de procedimientos

Procedimiento enter o global
Jerárquico (de acuerdo a un orden)

173
Método simultáneo (Enter)

En el método simultáneo, denominado en el SPSS
por ENTER, el investigador define el conjunto de
predictores que forman el modelo. A continuación
se evalúa la capacidad de este modelo de predecir
la variable criterio.
Se trata, en definitiva, de probar el modelo
global o completo.

174
Métodos jerárquicos de selección de variables

En los métodos jerárquicos las variables entran
en el modelo de acuerdo con un orden determinado.
El orden depende de las consideraciones teóricas
o de resultados previos.
Desde la perspectiva estadística, el orden de
entrada de las variables en el modelo viene
determinado por la fuerza de su correlación con
la variable criterio.

175

En la actualidad hay diferentes versiones de este
método stepwise selection, forward selection,
backward selection y remove.

176
Stepwise selection

Cada predictor o variable independiente es
entrando de forma secuencial y su valor es
evaluado. Si añadir el predictor contribuye al
modelo, entonces es retenido y el resto de
variables son entonces reevaluadas para probar si
siguen contribuyendo al éxito del modelo. Si no
contribuyen significativamente son eliminadas.

177
Sigue

A cada paso del proceso, se observa si la
variable menos significativa del modelo puede ser
removida debido que a su valor F, FMIN, es menor
que el especificado o valor F por defecto.

178
Sigue

Si ninguna variable puede ser removida, se
verifica si la más significativa que no está en
el modelo puede ser añadida dado que su valor F,
FMAX, es el mayor que el especificado o por
defecto.
El procedimiento se para cuando no se puede
añadir o eliminar ninguna otra variable.

179
Forward selection

Al igual que el procedimiento stepwise, las
variables son entradas secuencialmente en el
modelo.
La primera variable considerada para entrar en el
modelo es la que tiene una mayor correlación
positiva o negativa con la variable dependiente.

180
Sigue

La variable es entrada en el modelo, sólo cuando
satisface el criterio de entrada (tiene un valor
F mayor que el criterio).
El procedimiento se para cuando no hay más
variables que se ajusten el criterio de entrada.

181
Backward selection

Se empieza con todas las variables del modelo y
se elimina la menos útil a un tiempo. Una
variable, cuyo valor p asociado a la F parcial es
mayor que un valor prescrito, PMIN, es la menos
útil y ha de ser eliminada del modelo. El proceso
continúa hasta que no puede eliminarse ninguna
otra variable de acuerdo con el criterio
propuesto.

182
Sigue

Una vez eliminada la variable del modelo, no
puede ser entrada de nuevo en un paso posterior.

183
Remove

Es un procedimiento de selección de variables en
que se eliminan todas las variables de un bloque
en un solo paso.

184
A modo de resumen

Finalizada la prueba de significación del modelo
o de los coeficientes, es posible llevar a cabo
un análisis de residuales de forma gráfica
(mediante los correspondientes plots) o bien
utilizando la prueba de Durbin-Watson.

185

Verificación de los supuestos del modelo

186
Multicolinealidad
187
Estadísticos de colinealidadTolerancia y VIF
(variancia inflation factors)

Tolerancia Una primera medida para para probar
la colinealidad o no dependencia lineal entre los
regresores (Tp 1 Rp2).
Cuando tiene un valor máximo de 1, la variable no
tiene ningún grado de colinealidad con las
restantes, Un valor 0 indica que la variable es
una combinación lineal perfecta de otros
regresores. Es deseable que, en general, sea
mayor a .40

188
Sigue

VIF (variance inflation factor) a medida que es
mayor la multicolinealidad, en un de los
regresores, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp 1/(1-Rxp2).
La VIF tomará un valor mínimo de 1 cuando no hay
colinealidad y no tendrá límite superior en el
caso de multicolinealidad.

189
Sigue..

En presencia de multicolinealidad, una solución
lógica consiste en eliminar del modelo aquellas
variables con más alto VIF (o más baja
tolerancia).

190
Diagnósticos de colinealidad

Dimensiones factores diferentes que se hallan en
el conjunto de variables independientes.
Autovalores los valores próximos a 0 indican
colinealidad.
Índices de condición raíz cuadrada
(autovalormayor/autovalor). Valores por encima de
15 indican posibles problemas de colinealidad
Proporciones de variancia proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.

191
Sigue

Proporciones de variancia Hay problema de
colinealidad si una dimensión (de índice de
condición alto) explica gran cantidad de la
variable de dos o más variables.

192
Resto de supuestos
193
Pruebas del resto de supuestos del modelo

Prueba de la linealidad
Pruebas de independencia
Prueba de homoscedasticidad
Prueba de normalidad

194
Scatter- plot (gráfico de dispersión)

El scatter plot nos permite obtener respuesta a
la siguientes cuestiones
1. Las variables X e Y están relacionadas?
2. Las variables X e Y están linealmente
relacionales?
3. Las variables X e Y están relacionadas
no- linealmente?
4. La variación en el cambio de Y depende de
X?
5. Hay outliers (valores extremos o atípicos)?

195
Variables listadas en el SPSS

DEPENDEN variable dependiente.
ZPRED valores pronósticos tipificados valores
pronósticos divididos por su desviación estándar
(media de 0 y desviación 1).
ZRESID residuos tipificados.

196
Sigue

DRESID residuos eliminados es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico.
ADJPRED pronósticos ajustados es decir, valores
pronosticados sin incluir el caso pronosticado.
SRESID residuos estudentizados divididos por su
desviación estándar y se distribuyen según la t
de Student.
SDRESID residuos estudentizados

197
Interpretando los plots de valores predichos y
residuales

Los plots de los valores predichos, observados y
residuales son esenciales en determinar si el
modelo ajustado satisface los cuatro
presupuestos de la regresión lineal
1. Linealidad de la relación entre la variable
dependiente e independientes.
2. Independencias o no autocorrelación de los
errores.
3. Homoscedasticidad o variancia constante de
los errores.
4. Normalidad de la distribución del error.

198
1. Linealidad

Se obtiene del plot de los valores observados y
predichos versus la variable independiente. Si la
relación no es lineal, la dispersión (scatter) de
los puntos mostrará una desviación sistemática de
la línea de regresión.
Con el modelo de la regresión múltiple es mejor
generar un gráfico simple (plot) de los valores
observados versus los valores predichos.
Teóricamente, en un gráfico de observados vs.
predichos los puntos deberían moverse entre torno
a la línea recta diagonal.

199
Sigue

El gráfico de valores residuales vs. valores
predichos es esencialmente el mismo que el
anterior, a excepción de que la línea de
referencia es horizontal más que de 45 grados.

200
2) Independencia

Uno de los supuestos básicos del MRL (modelos de
la regresión lineal) es la independencia entre
los residuos. El estadístico de Durbin-Watson
aporta información sobre el grado de
independencia existente entre ellos

201
El estadístico de Durbin-Watson

El estadístico de Durbin-Watson (DW) proporciona
información sobre el grado de independencia entre
los residuales. El estadístico DW varía entre 0 y
4, y toma el valor 2 cuando los residuales son
independientes. Valores menores que 2 indica
autocorrelación positiva. Podemos asumir
independencia entre los residuales cuando DW toma
valores entre 1.5 y 2.5

202
Residual Analysis Autocorrelation

Durbin-Watson Test for Autocorrelation
Statistic
The statistic ranges in value from zero to four.
If successive values of the residuals are close
together (positive autocorrelation), the
statistic will be small.
If successive values are far apart (negative
auto-
correlation), the statistic will be large.
A value of two indicates no autocorrelation.

203
Sigue..

El valor del residual se calcula por
ei Yi - Yi

204
3) Homoscedasticidad

En el cuadro de diálogo de Gráficos de la
regresión lineal del SPSS, se obtienen una serie
de variables listadas para obtener diferentes
gráficos de dispersión

205
Prueba de homoscedasticidad

Los valores ZRESID se trasladan al eje Y y los
valores ZPRED al eje X.
La variación de los residuos debe ser uniforme en
todo el rango de valores pronosticados es decir,
el tamaño de los residuos es independiente del
tamaño de los pronósticos. Por lo tanto, el
gráfico de dispersión no debe mostrar ninguna
pauta de asociación entre los pronósticos y los
residuos.

206
4) Prueba de normalidad

A) Mediante el histograma de los residuos
tipificados. La curva se construye con media 0 y
un desviación típica de 1.
B) Gráfico de probabilidad normal. En el eje de
las abscisas se representa la probabilidad
acumulada de cada residuo y en de las ordenadas
la probabilidad acumulada teórica o esperada.

207
Sigue

Teóricamente este gráfico debería ser una línea
recta diagonal. Si los datos se inclinan hacia
arriba o hacia abajo, indica una distribución
asimétrica (sesgada).
Si el gráfico de probabilidad normal muestra una
línea recta, es razonable asumir que los datos
observados proceden de una distribución normal.
Si los puntos se desvían de la línea recta, hay
evidencia en contra de la distribución normal e
independiente.

208
Correlaciones
209
Correlaciones

Correlaciones de orden cero Se presentan en la
matriz de correlaciones simples entre todas las
variables, incluyendo la variable de control. Se
trata de la correlación ordinaria entre dos
variables, no controlando ninguna (cero) otra
variable.

210
Sigue

Correlación parcial La correlación que hay entre
dos variables después de remover la correlación
debida a su asociación con otras variables. Es
decir, la correlación entre la variable
dependiente y una variable independiente cuando
los efectos lineales de las otras variables
independientes del modelo han sido removidos.
Neutralizando su efecto sobre la dependiente e
independiente.

211
Sigue

Part Correlation (semiparcial). Es la posible
relación entre un variable dependiente e
independiente, controlando la relación que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza los
efectos lineales de una variable independiente
del resto de variables independientes.
Está relacionada al cambio en R al cuadrado
cuando una variable es añadida a la ecuación.
Es conocida, también, por correlación semiparcial.