Title: Sin t
1INFERENCIA ESTADÍSTICA
Proceso y resultado de extraer conclusiones
respecto a una población a partir de una o más
muestras.
obtención de la muestra
conclusiones
P
M
2Problema de estimación Por qué una encuesta de
1500 personas permite predecir bastante bien el
resultado de una elección con 10 millones de
votantes? Cómo se consigue? Cómo se mide la
precisión del resultado? Problema de test de
hipótesis Las normas de calidad exigen que, en
un lote de 5000 bombillas, a lo sumo el 3 pueden
durar menos de 1000 horas. En un estudio de
control de calidad de una fabrica de bombillas
sería muy costoso examinar cada una. Se decide
usar una muestra de 500 bombillas. Si obtenemos
el 3,2 de bombillas defectuosas, deberíamos
declarar el lote completo defectuoso?
3Problema de estimación Se busca precisar una
característica totalmente desconocida de la
población a partir de los datos obtenidos sobre
una muestra. Estimar el porcentaje de la
población (10 millones) que votó a ZP a partir
de una muestra de 1500 votantes. O estimar la
duración promedio de las bombillas del lote de
5000, a partir de una muestra de 500.
4 Problema de test de hipótesis Se busca
comprobar alguna información sobre la población
a partir de los datos obtenidos de una
muestra. ZP obtiene más del 65 de los
votos. Menos del 3 de las bombillas del lote de
5000 duran menos de 1000 horas. Las bombillas
duran más de 1000 horas en promedio.
5Muestra aleatoria simple con reemplazo
- Supongamos una población de tamaño N donde cierta
característica se distribuye como la variable
aleatoria X. Una muestra aleatoria simple con
reemplazo de n observaciones de la variable
aleatoria X es un conjunto de variables
aleatorias X1, X2, ..., Xn independientes e
idénticamente distribuidas (iid). - Cada una de ellas tiene la misma distribución de
probabilidad que la variable aleatoria X.
6Observa que las probabilidades de escoger
cualquier elemento de la población para formar
parte de la muestra son iguales (1/N) y que
además las extracciones son independientes. Se
puede escoger por azar varias veces al mismo
elemento. Pero si la población N es muy superior
al tamaño n de la muestra esa probabilidad es
despreciable. En ese caso una muestra con
reposición es equivalente a una muestra sin
reposición. Trabajaremos siempre con reposición.
7Ejemplo Sea una población compuesta por 5
unicornios con las siguientes longitudes de
cuerno 6, 8, 10, 12 y 14. Escribamos todas las
muestras aleatorias con reemplazo posibles de
tamaño 2. En total serán 52 25.
Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
6 8 10 12 14
Primer elemento de la muestra 6 6,6 6,8 6,10 6,12 6,14
Primer elemento de la muestra 8 8,6 8,8 8,10 8,12 8,14
Primer elemento de la muestra 10 10,6 10,8 10,10 10,12 10,14
Primer elemento de la muestra 12 12,6 12, 8 12,10 12,12 12,14
Primer elemento de la muestra 14 14,6 14,8 14,10 14,12 14,14
8- En el ejemplo la variable aleatoria X de la
población puede tomar los valores 6, 8, 10, 12
y 14, cada uno con probabilidad 1/5. Es decir la
variable aleatoria X tiene una densidad de
probabilidad discreta uniforme. - Una muestra consta de n 2 observaciones de esa
variable aleatoria X. Podemos interpretarla como
una variable aleatoria bidimensional - (X1, X2), donde X1 y X2 son independientes y
están idénticamente distribuidas (iid). De hecho
cada una de ellas tiene la misma distribución de
probabilidad que la variable aleatoria X.
9Estadísticos
- Cualquier función de las variables aleatorias
observadas se denomina estadístico - Los dos estadísticos mas conocidos son
- la media muestral y la varianza muestral.
- La raíz cuadrada de la varianza muestral es la
desviación estándar muestral.
10- Los parámetros poblacionales son fijos, no
aleatorios. - Por ejemplo, la media de la población anterior
es - ? (6 8 10 12 14) / 5 10.
- Mientras que los estadísticos son variables
aleatorias (su valor depende de la muestra
seleccionada los estadísticos calculados para
distintas muestras darán, en general, resultados
distintos). - Por ejemplo, la media de la muestra (6, 6) es
- (6 6) / 2 6.
- Y la de la muestra (6, 12) es
- (6 12) / 2 9. Etc...
11- Como estos estadísticos son variables aleatorias,
podemos entonces hablar de sus distribuciones. - Si tomamos una muestra de tamaño n y calculamos
la media de esta muestra obtenemos un valor
determinado. - Si repetimos este mismo experimento un gran
número de veces obtendremos una gran cantidad de
valores distintos para . - A partir de esta variedad de valores distintos
obtenidos para la media muestral, podemos obtener
la distribución de probabilidad de la misma. Esta
distribución será la distribución de la media
muestral.
12Calculemos para el ejemplo anterior todas las
medias muestrales posibles
donde i 1, ..., 25 es ahora el índice de las
posibles muestras.
Medias muestrales Medias muestrales Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
Medias muestrales Medias muestrales 6 8 10 12 14
Primer elemento de la muestra 6 6 7 8 9 10
Primer elemento de la muestra 8 7 8 9 10 11
Primer elemento de la muestra 10 8 9 10 11 12
Primer elemento de la muestra 12 9 10 11 12 13
Primer elemento de la muestra 14 10 11 12 13 14
13- La distribución de medias muestrales es
P
5/25
4/25
4/25
3/25
3/25
2/25
2/25
1/25
1/25
6 7 8 9 10
11 12 13 14
14Como es una variable aleatoria y ya conocemos
su distribución, podemos calcular su esperanza,
la media de medias muestrales
Y observa que coincide con la media poblacional
Ocurre siempre?
15Estimación de parámetros
Población P. ej. todas las familias españolas
(N). Variable aleatoria de interés X P. ej.
consumo de vino. La media de las N familias
será La varianza
La desviación típica
16Tomemos una muestra. Sean
las familias elegidas en la
muestra y los consumos
anuales de vino. Para simplificar los llamaremos
La media muestral de las n
familias que forman la muestra será
17La desviación típica y la varianza muestral de
las n familias de la muestra serán
Se llama a la media muestral un estimador
de la media poblacional ? y a la varianza
muestral s2 un estimador de la varianza
poblacional?2.
18Dado un muestreo, el valor xi será uno de los
posibles valores que puede tomar la variable
aleatoria Xi. Cuál es su valor esperado? Como Xi
se distribuye como X.
Para la distribución de la media muestral
De modo que
Cuando se cumple la igualdad, se dice que el
estimador de ? es insesgado.
19Calculemos para el ejemplo de los unicornios
todas las varianzas muestrales posibles
donde i 1, ..., 25 es ahora el índice de las
posibles muestras.
Varianzas muestrales Varianzas muestrales Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
Varianzas muestrales Varianzas muestrales 6 8 10 12 14
Primer elemento de la muestra 6 0 1 4 9 16
Primer elemento de la muestra 8 1 0 1 4 9
Primer elemento de la muestra 10 4 1 0 1 4
Primer elemento de la muestra 12 9 4 1 0 1
Primer elemento de la muestra 14 16 9 4 1 0
20- Hemos obtenido de nuevo una distribución,
- ahora la distribución de varianzas muestrales
P
8/25
6/25
5/25
4/25
2/25
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16
21Como s2 es una variable aleatoria y ya conocemos
su distribución, podemos calcular su esperanza,
la media de las varianzas muestrales
La varianza poblacional es
Observa que ahora
Decimos entonces que el estimador s2 de ?2 es
sesgado.
22Definamos el estimador (seudovarianza
muestral) que solo se distingue de la
varianza muestral en dividir entre (n-1) en vez
de n. Para el ejemplo de los unicornios
tendremos ahora que
que si que es insesgado para la varianza
poblacional
23Muestreo desde una población Normal
- Sea X una variable aleatoria que se distribuye
en una población como una normal con media ? y
varianza ?2, es decir N(?, ?). - Tomemos una muestra aleatoria de tamaño n de esta
población normal. - Cuál es la distribución muestral de ?
24Observemos que
De modo que la varianza de la distribución de la
media muestral será
Y además suponemos independencia entre las
variables Xi
25- Si la muestra aleatoria x1, x2, ..., xn se toma
a partir de una población normal con media ? y
varianza ?2, la media muestral tendrá
distribución normal con media ? y varianza ?2/n,
N(?, ?/?n). - Vemos entonces que la distribución de la media
muestral tiene una dispersión menor alrededor de
la media poblacional y cuanto más grande es la
muestra, menor es la varianza.
26Distribuciones para muestras grandes
- Cuando el tamaño de la muestra es grande,
podemos derivar un número de propiedades que son
muy útiles en la práctica. Dos de esas
propiedades son la LEY DE LOS GRANDES NUMEROS y
el TEOREMA CENTRAL DEL LIMITE.
27Ley de los grandes números
- Sea la media de una muestra aleatoria de
valores z1, z2, ..., zn que son iid. Entonces a
medida que aumenta el tamaño de la muestra, la
media muestral se encuentra más y más cerca de su
valor esperado E(Z). - Como caso especial, cuando es , la media
muestral, tenemos que E( ) ? y
converge a ? . - De la misma manera, s2 converge a ?2 cuando n
tiende a infinito.
28Teorema central del límite
- Sea x1, x2, ..., xn una muestra aleatoria de
observaciones tomadas de la misma distribución y
sea E(Xi) ? y Var(Xi) ?2. - Entonces la distribución muestral de la variable
aleatoria - converge a la normal standard N(0, 1) cuando n
tiende a infinito. - El TCL se cumple aún cuando la distribución desde
la que se toman las observaciones no sea normal.
Esto significa que si nosotros nos aseguramos que
el tamaño de la muestra es grande, entonces
podemos usar la variable Zn para responder
preguntas acerca de la población de la cual
provienen las observaciones.
29Distribución muestral de la media Veremos
primero el caso de que la distribución subyacente
sea normal, con media y varianza La media de
la distribución muestral de medias es La
varianza de la distribución muestral de medias es
La forma de la distribución muestral de la media
es normal.
Nota La desviación típica de la distribución
muestral suele ser denominada error típico de
tal estadístico (v.g., error típico de la
media, etc.)
Veamos varios ejemplos donde iremos variando el
tamaño n de las muestras.
30Distribución muestral de la media. Ejemplo 1
Distribución poblacional subyacente (dist.
Normal) Media 100 Varianza 225 Desv. típica
15
La línea (en este y sucesivos ejemplos) es una
curva normal
Distribución muestral de la media Tamaño
muestral 10 Media 100 Varianza 225/10
22.5 Desv.típica
En este y sucesivos gráficos Número de muestras n
31Distribución muestral de la media. Ejemplo 2
Distribución poblacional subyacente (dist.
Normal) Media 100 Desv. Típica 15
Distribución muestral de la media Tamaño
muestral 20 Media 100 Varianza 225/20
11.3 Desv. típica 3.35
32Distribución muestral de la media. Ejemplo 3
Distribución poblacional subyacente (dist.
Normal) Media 100 Desv. Típica 15
Distribución muestral de la media Tamaño
muestral 50 Media 100 Varianza 225/50
4.5 Desv. típica 2.12
33Distribución muestral de la media Veamos ahora
el caso en que la distribución subyacente sea
arbitraria, si bien sabemos que la media es
y la varianza es La media de la distribución
muestral de medias es La varianza de la
distribución muestral de medias es
La forma de la distribución muestral de la media
TAMBIÉN tiende a ser normal. En concreto, la
distribución muestral se acercará más y más a la
distribución normal (media m y varianza s2/n) a
medida que se aumente el tamaño de cada muestra.
34Distribución muestral de la media. Ejemplo 4
Distribución poblacional subyacente (dist.
Gamma) Media 100 Varianza 100
35Distribución muestral de la media. Ejemplo 4
Distribución poblacional subyacente (dist.
GAMMA) Media 100 Varianza 100
Distribución muestral de la media Tamaño
muestral 10 Media 100 Varianza 100/10
10 Desv. típica
36Distribución muestral de la media. Ejemplo 5
Distribución poblacional (dist.
EXPONENCIAL) Media 0.1 1/l Varianza 0.01
1/l2
La distribución EXPONENCIAL tiene 1 parámetro l
(en el ejemplo 10)
37Distribución muestral de la media. Ejemplo 5a
Distribución poblacional (dist.
EXPONENCIAL) Media 0.11/l Varianza 0.01
1/l2
Distribución muestral de la media Tamaño
muestral 10 Media 0.1 Varianza 0.01/10
0.001 Desv. típica 0.03
Observad que la dist. muestral se aproxima a la
normal
38Distribución muestral de la media. Ejemplo 5b
Distribución poblacional (dist.
EXPONENCIAL) Media 0.1 1/l Varianza 0.01
1/l2
Distribución muestral de la media Tamaño
muestral 20 Media 0.1 Varianza 0.01/20
0.0005 Desv. típica 0.022
Observad que la distribución muestral se aproxima
más a la normal (al elevar el tamaño muestral).
39Distribuciones usadas en inferencia
Distribución Ji-Cuadrado o Chi-cuadrado o c2 de
Pearson con n grados de libertad. Sean X1 ,
X2 , ... ,Xn n variables aleatorias continuas
independientes tal que Xi N (0,1) con i
1, ..., n (i.i.d.). Definamos la variable
aleatoria
Su densidad de probabilidad será
40la función gamma es 1. 2.
41TABLA DE c2
orden percentílico
0.99 0.975 0.025 0.01
n
1 2 3 4 5
p
c2n
grados de libertad
valores acumulados de c2n
42Distribución muestral del estadístico
Cuando las distribución de la que obtenemos la
varianza muestral es normal, el estadístico
anterior se distribuye según la distribución
chi-cuadrado con n -1 grados de libertad. Es
fácil de demostrar
43Tipificando
44Otra distribución que aparece en inferencia es
la t-Student, tn Student era el seudónimo de
W.S. Gosset, un pionero estadista que trabajó en
la Cervecería Guiness de Dublín. Sea X v.a.c.
tal que X N (0,1) Y v.a.c. tal que Y ?2n
Con función de densidad de probabilidad
45 46TABLA DE LA DISTRIBUCION DE t (Student)
orden percentílico
t.55 t.60 t.99 t.995
n
1 2 3 4 5
valores acumulados de tp
grados de libertad
tp
47Distribución muestral de
Cuando la distribución de la que obtenemos las
medias muestrales es normal, el estadístico
anterior, se distribuye según la distribución t
de Student con tn-1 grados de libertad. Cuando
la distribución de la que obtenemos las medias
muestrales no es normal, el estadístico anterior,
se distribuye como una normal tipificada para
valores de n gt 30. Nota comparar con el teorema
central del límite.
48La distribución F de Fisher o F-Snedecor es otra
distribución que aparece con frecuencia en
inferencia Sea X v.a.c. tal que X ?2n Y
v.a.c. tal que Y ?2m independientes
Definamos
49(m,n)
50Distribución muestral del estimador
Cuando las distribuciones de la que obtenemos las
varianzas muestrales son normales y extraemos
dos muestras de tamaño n y m respectivamente. El
estadístico anterior se distribuye según la
distribución F de Fisher con n - 1 grados de
libertad en el numerador y m -1 grados de
libertad en el denominador, Fn-1, m-1.