Sin t - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Sin t

Description:

Title: Sin t tulo de diapositiva Author: Nancy Lacourly Last modified by: Bartolo Created Date: 7/1/2000 7:57:58 PM Document presentation format – PowerPoint PPT presentation

Number of Views:35
Avg rating:3.0/5.0
Slides: 51
Provided by: Nancy530
Category:
Tags: guiness | sin

less

Transcript and Presenter's Notes

Title: Sin t


1
INFERENCIA ESTADÍSTICA
Proceso y resultado de extraer conclusiones
respecto a una población a partir de una o más
muestras.
obtención de la muestra
conclusiones
P
M
2
Problema de estimación Por qué una encuesta de
1500 personas permite predecir bastante bien el
resultado de una elección con 10 millones de
votantes? Cómo se consigue? Cómo se mide la
precisión del resultado? Problema de test de
hipótesis Las normas de calidad exigen que, en
un lote de 5000 bombillas, a lo sumo el 3 pueden
durar menos de 1000 horas. En un estudio de
control de calidad de una fabrica de bombillas
sería muy costoso examinar cada una. Se decide
usar una muestra de 500 bombillas. Si obtenemos
el 3,2 de bombillas defectuosas, deberíamos
declarar el lote completo defectuoso?
3
Problema de estimación Se busca precisar una
característica totalmente desconocida de la
población a partir de los datos obtenidos sobre
una muestra. Estimar el porcentaje de la
población (10 millones) que votó a ZP a partir
de una muestra de 1500 votantes. O estimar la
duración promedio de las bombillas del lote de
5000, a partir de una muestra de 500.
4
Problema de test de hipótesis Se busca
comprobar alguna información sobre la población
a partir de los datos obtenidos de una
muestra. ZP obtiene más del 65 de los
votos. Menos del 3 de las bombillas del lote de
5000 duran menos de 1000 horas. Las bombillas
duran más de 1000 horas en promedio.
5
Muestra aleatoria simple con reemplazo
  • Supongamos una población de tamaño N donde cierta
    característica se distribuye como la variable
    aleatoria X. Una muestra aleatoria simple con
    reemplazo de n observaciones de la variable
    aleatoria X es un conjunto de variables
    aleatorias X1, X2, ..., Xn independientes e
    idénticamente distribuidas (iid).
  • Cada una de ellas tiene la misma distribución de
    probabilidad que la variable aleatoria X.

6
Observa que las probabilidades de escoger
cualquier elemento de la población para formar
parte de la muestra son iguales (1/N) y que
además las extracciones son independientes. Se
puede escoger por azar varias veces al mismo
elemento. Pero si la población N es muy superior
al tamaño n de la muestra esa probabilidad es
despreciable. En ese caso una muestra con
reposición es equivalente a una muestra sin
reposición. Trabajaremos siempre con reposición.
7
Ejemplo Sea una población compuesta por 5
unicornios con las siguientes longitudes de
cuerno 6, 8, 10, 12 y 14. Escribamos todas las
muestras aleatorias con reemplazo posibles de
tamaño 2. En total serán 52 25.
Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
6 8 10 12 14
Primer elemento de la muestra 6 6,6 6,8 6,10 6,12 6,14
Primer elemento de la muestra 8 8,6 8,8 8,10 8,12 8,14
Primer elemento de la muestra 10 10,6 10,8 10,10 10,12 10,14
Primer elemento de la muestra 12 12,6 12, 8 12,10 12,12 12,14
Primer elemento de la muestra 14 14,6 14,8 14,10 14,12 14,14
8
  • En el ejemplo la variable aleatoria X de la
    población puede tomar los valores 6, 8, 10, 12
    y 14, cada uno con probabilidad 1/5. Es decir la
    variable aleatoria X tiene una densidad de
    probabilidad discreta uniforme.
  • Una muestra consta de n 2 observaciones de esa
    variable aleatoria X. Podemos interpretarla como
    una variable aleatoria bidimensional
  • (X1, X2), donde X1 y X2 son independientes y
    están idénticamente distribuidas (iid). De hecho
    cada una de ellas tiene la misma distribución de
    probabilidad que la variable aleatoria X.

9
Estadísticos
  • Cualquier función de las variables aleatorias
    observadas se denomina estadístico
  • Los dos estadísticos mas conocidos son
  • la media muestral y la varianza muestral.
  • La raíz cuadrada de la varianza muestral es la
    desviación estándar muestral.

10
  • Los parámetros poblacionales son fijos, no
    aleatorios.
  • Por ejemplo, la media de la población anterior
    es
  • ? (6 8 10 12 14) / 5 10.
  • Mientras que los estadísticos son variables
    aleatorias (su valor depende de la muestra
    seleccionada los estadísticos calculados para
    distintas muestras darán, en general, resultados
    distintos).
  • Por ejemplo, la media de la muestra (6, 6) es
  • (6 6) / 2 6.
  • Y la de la muestra (6, 12) es
  • (6 12) / 2 9. Etc...

11
  • Como estos estadísticos son variables aleatorias,
    podemos entonces hablar de sus distribuciones.
  • Si tomamos una muestra de tamaño n y calculamos
    la media de esta muestra obtenemos un valor
    determinado.
  • Si repetimos este mismo experimento un gran
    número de veces obtendremos una gran cantidad de
    valores distintos para .
  • A partir de esta variedad de valores distintos
    obtenidos para la media muestral, podemos obtener
    la distribución de probabilidad de la misma. Esta
    distribución será la distribución de la media
    muestral.

12
Calculemos para el ejemplo anterior todas las
medias muestrales posibles
donde i 1, ..., 25 es ahora el índice de las
posibles muestras.
Medias muestrales Medias muestrales Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
Medias muestrales Medias muestrales 6 8 10 12 14
Primer elemento de la muestra 6 6 7 8 9 10
Primer elemento de la muestra 8 7 8 9 10 11
Primer elemento de la muestra 10 8 9 10 11 12
Primer elemento de la muestra 12 9 10 11 12 13
Primer elemento de la muestra 14 10 11 12 13 14
13
  • La distribución de medias muestrales es

P
5/25
4/25
4/25
3/25
3/25
2/25
2/25
1/25
1/25
6 7 8 9 10
11 12 13 14
14
Como es una variable aleatoria y ya conocemos
su distribución, podemos calcular su esperanza,
la media de medias muestrales
Y observa que coincide con la media poblacional
Ocurre siempre?
15
Estimación de parámetros
Población P. ej. todas las familias españolas
(N). Variable aleatoria de interés X P. ej.
consumo de vino. La media de las N familias
será La varianza
La desviación típica
16
Tomemos una muestra. Sean
las familias elegidas en la
muestra y los consumos
anuales de vino. Para simplificar los llamaremos
La media muestral de las n
familias que forman la muestra será
17
La desviación típica y la varianza muestral de
las n familias de la muestra serán
Se llama a la media muestral un estimador
de la media poblacional ? y a la varianza
muestral s2 un estimador de la varianza
poblacional?2.
18
Dado un muestreo, el valor xi será uno de los
posibles valores que puede tomar la variable
aleatoria Xi. Cuál es su valor esperado? Como Xi
se distribuye como X.
Para la distribución de la media muestral
De modo que
Cuando se cumple la igualdad, se dice que el
estimador de ? es insesgado.
19
Calculemos para el ejemplo de los unicornios
todas las varianzas muestrales posibles
donde i 1, ..., 25 es ahora el índice de las
posibles muestras.
Varianzas muestrales Varianzas muestrales Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra Segundo elemento de la muestra
Varianzas muestrales Varianzas muestrales 6 8 10 12 14
Primer elemento de la muestra 6 0 1 4 9 16
Primer elemento de la muestra 8 1 0 1 4 9
Primer elemento de la muestra 10 4 1 0 1 4
Primer elemento de la muestra 12 9 4 1 0 1
Primer elemento de la muestra 14 16 9 4 1 0
20
  • Hemos obtenido de nuevo una distribución,
  • ahora la distribución de varianzas muestrales

P
8/25
6/25
5/25
4/25
2/25
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16
21
Como s2 es una variable aleatoria y ya conocemos
su distribución, podemos calcular su esperanza,
la media de las varianzas muestrales
La varianza poblacional es
Observa que ahora
Decimos entonces que el estimador s2 de ?2 es
sesgado.
22
Definamos el estimador (seudovarianza
muestral) que solo se distingue de la
varianza muestral en dividir entre (n-1) en vez
de n. Para el ejemplo de los unicornios
tendremos ahora que
que si que es insesgado para la varianza
poblacional
23
Muestreo desde una población Normal
  • Sea X una variable aleatoria que se distribuye
    en una población como una normal con media ? y
    varianza ?2, es decir N(?, ?).
  • Tomemos una muestra aleatoria de tamaño n de esta
    población normal.
  • Cuál es la distribución muestral de ?

24
Observemos que
De modo que la varianza de la distribución de la
media muestral será
Y además suponemos independencia entre las
variables Xi
25
  • Si la muestra aleatoria x1, x2, ..., xn se toma
    a partir de una población normal con media ? y
    varianza ?2, la media muestral tendrá
    distribución normal con media ? y varianza ?2/n,
    N(?, ?/?n).
  • Vemos entonces que la distribución de la media
    muestral tiene una dispersión menor alrededor de
    la media poblacional y cuanto más grande es la
    muestra, menor es la varianza.

26
Distribuciones para muestras grandes
  • Cuando el tamaño de la muestra es grande,
    podemos derivar un número de propiedades que son
    muy útiles en la práctica. Dos de esas
    propiedades son la LEY DE LOS GRANDES NUMEROS y
    el TEOREMA CENTRAL DEL LIMITE.

27
Ley de los grandes números
  • Sea la media de una muestra aleatoria de
    valores z1, z2, ..., zn que son iid. Entonces a
    medida que aumenta el tamaño de la muestra, la
    media muestral se encuentra más y más cerca de su
    valor esperado E(Z).
  • Como caso especial, cuando es , la media
    muestral, tenemos que E( ) ? y
    converge a ? .
  • De la misma manera, s2 converge a ?2 cuando n
    tiende a infinito.

28
Teorema central del límite
  • Sea x1, x2, ..., xn una muestra aleatoria de
    observaciones tomadas de la misma distribución y
    sea E(Xi) ? y Var(Xi) ?2.
  • Entonces la distribución muestral de la variable
    aleatoria
  • converge a la normal standard N(0, 1) cuando n
    tiende a infinito.
  • El TCL se cumple aún cuando la distribución desde
    la que se toman las observaciones no sea normal.
    Esto significa que si nosotros nos aseguramos que
    el tamaño de la muestra es grande, entonces
    podemos usar la variable Zn para responder
    preguntas acerca de la población de la cual
    provienen las observaciones.

29
Distribución muestral de la media Veremos
primero el caso de que la distribución subyacente
sea normal, con media y varianza La media de
la distribución muestral de medias es La
varianza de la distribución muestral de medias es
La forma de la distribución muestral de la media
es normal.
Nota La desviación típica de la distribución
muestral suele ser denominada error típico de
tal estadístico (v.g., error típico de la
media, etc.)
Veamos varios ejemplos donde iremos variando el
tamaño n de las muestras.
30
Distribución muestral de la media. Ejemplo 1
Distribución poblacional subyacente (dist.
Normal) Media 100 Varianza 225 Desv. típica
15
La línea (en este y sucesivos ejemplos) es una
curva normal
Distribución muestral de la media Tamaño
muestral 10 Media 100 Varianza 225/10
22.5 Desv.típica
En este y sucesivos gráficos Número de muestras n
31
Distribución muestral de la media. Ejemplo 2
Distribución poblacional subyacente (dist.
Normal) Media 100 Desv. Típica 15
Distribución muestral de la media Tamaño
muestral 20 Media 100 Varianza 225/20
11.3 Desv. típica 3.35
32
Distribución muestral de la media. Ejemplo 3
Distribución poblacional subyacente (dist.
Normal) Media 100 Desv. Típica 15
Distribución muestral de la media Tamaño
muestral 50 Media 100 Varianza 225/50
4.5 Desv. típica 2.12
33
Distribución muestral de la media Veamos ahora
el caso en que la distribución subyacente sea
arbitraria, si bien sabemos que la media es
y la varianza es La media de la distribución
muestral de medias es La varianza de la
distribución muestral de medias es
La forma de la distribución muestral de la media
TAMBIÉN tiende a ser normal. En concreto, la
distribución muestral se acercará más y más a la
distribución normal (media m y varianza s2/n) a
medida que se aumente el tamaño de cada muestra.
34
Distribución muestral de la media. Ejemplo 4
Distribución poblacional subyacente (dist.
Gamma) Media 100 Varianza 100
35
Distribución muestral de la media. Ejemplo 4
Distribución poblacional subyacente (dist.
GAMMA) Media 100 Varianza 100
Distribución muestral de la media Tamaño
muestral 10 Media 100 Varianza 100/10
10 Desv. típica
36
Distribución muestral de la media. Ejemplo 5
Distribución poblacional (dist.
EXPONENCIAL) Media 0.1 1/l Varianza 0.01
1/l2
La distribución EXPONENCIAL tiene 1 parámetro l
(en el ejemplo 10)
37
Distribución muestral de la media. Ejemplo 5a
Distribución poblacional (dist.
EXPONENCIAL) Media 0.11/l Varianza 0.01
1/l2
Distribución muestral de la media Tamaño
muestral 10 Media 0.1 Varianza 0.01/10
0.001 Desv. típica 0.03
Observad que la dist. muestral se aproxima a la
normal
38
Distribución muestral de la media. Ejemplo 5b
Distribución poblacional (dist.
EXPONENCIAL) Media 0.1 1/l Varianza 0.01
1/l2
Distribución muestral de la media Tamaño
muestral 20 Media 0.1 Varianza 0.01/20
0.0005 Desv. típica 0.022
Observad que la distribución muestral se aproxima
más a la normal (al elevar el tamaño muestral).
39
Distribuciones usadas en inferencia
Distribución Ji-Cuadrado o Chi-cuadrado o c2 de
Pearson con n grados de libertad. Sean X1 ,
X2 , ... ,Xn n variables aleatorias continuas
independientes tal que Xi N (0,1) con i
1, ..., n (i.i.d.). Definamos la variable
aleatoria
Su densidad de probabilidad será
40
la función gamma es 1. 2.
41
TABLA DE c2
orden percentílico
0.99 0.975 0.025 0.01
n
1 2 3 4 5
p
c2n
grados de libertad
valores acumulados de c2n
42
Distribución muestral del estadístico
Cuando las distribución de la que obtenemos la
varianza muestral es normal, el estadístico
anterior se distribuye según la distribución
chi-cuadrado con n -1 grados de libertad. Es
fácil de demostrar
43
Tipificando
44
Otra distribución que aparece en inferencia es
la t-Student, tn Student era el seudónimo de
W.S. Gosset, un pionero estadista que trabajó en
la Cervecería Guiness de Dublín. Sea X v.a.c.
tal que X N (0,1) Y v.a.c. tal que Y ?2n
Con función de densidad de probabilidad
45

46
TABLA DE LA DISTRIBUCION DE t (Student)
orden percentílico
t.55 t.60 t.99 t.995
n
1 2 3 4 5
valores acumulados de tp
grados de libertad
tp
47
Distribución muestral de
Cuando la distribución de la que obtenemos las
medias muestrales es normal, el estadístico
anterior, se distribuye según la distribución t
de Student con tn-1 grados de libertad. Cuando
la distribución de la que obtenemos las medias
muestrales no es normal, el estadístico anterior,
se distribuye como una normal tipificada para
valores de n gt 30. Nota comparar con el teorema
central del límite.
48
La distribución F de Fisher o F-Snedecor es otra
distribución que aparece con frecuencia en
inferencia Sea X v.a.c. tal que X ?2n Y
v.a.c. tal que Y ?2m independientes
Definamos
49
(m,n)
50
Distribución muestral del estimador
Cuando las distribuciones de la que obtenemos las
varianzas muestrales son normales y extraemos
dos muestras de tamaño n y m respectivamente. El
estadístico anterior se distribuye según la
distribución F de Fisher con n - 1 grados de
libertad en el numerador y m -1 grados de
libertad en el denominador, Fn-1, m-1.
Write a Comment
User Comments (0)
About PowerShow.com