Title: MUESTREO ESTRATIFICADO
1 MUESTREO ESTRATIFICADO
- El muestreo estratificado consiste en dividir la
población en L subconjuntos o estratos, y de cada
uno de ellos seleccionar una muestra
probabilística de manera independiente de un
estrato a otro. - Existen tres razones importantes para utilizar
este tipo de muestreo - estadísticas,
- marcos y de
- costos.
2 MUESTREO ESTRATIFICADO
- La razón estadística ocurre cuando la población
está constituida por unidades heterogéneas y
podemos tener una idea previa de los grupos de
unidades más homogéneas entre sí, entonces es
conveniente formar estratos. - Los estratos son subconjuntos de la población
que agrupan unidades homogéneas, aunque sean
heterogéneas entre estratos. - Cada estrato se muestrea por separado y se
obtienen los estimadores de parámetros (totales,
medias, proporciones) para cada estrato.
3MUESTREO ESTRATIFICADO
Se supone que se conoce el número de unidades en
cada estrato (Nh). Aunque esto se verá
después, es importante señalar que si se usan
estimadores de razón o de regresión o si el
muestreo se hace con probabilidad proporcional al
tamaño, los estratos se forman con subconjuntos
de unidades donde sea constante la
proporcionalidad de Y a X, aunque esa
proporcionalidad cambie de estrato a estrato.
4 MUESTREO ESTRATIFICADO
Como ejemplos de la razón estadística para usar
estratos, considérense (a) En un muestreo
donde interesa conocer alguna característica de
los hogares en la Ciudad de México (por ejemplo
gastos en alimentos, ropa, ingresos, tipo de casa
habitación, años de escolaridad del padre, número
de hijos, etcétera). Se sabe que esas
características dependen fuertemente del nivel
socioeconómico de las familias, por lo tanto
conviene hacer estratos considerando áreas de la
ciudad con niveles socioeconómicos semejantes.
5 MUESTREO ESTRATIFICADO
Así, las colonias se pueden clasificar a priori
con relación al nivel socioeconómico como muy
alto, alto, medio, medio bajo y bajo, formando de
esta manera cinco estratos. La encuesta se
planea para cada estrato por separado. El efecto
de formación de estratos es reducir la
variabilidad de los estimadores. La variabilidad
de se puede reducir mucho si los estratos
son muy homogéneos dentro de cada uno de ellos y
heterogéneos entre los mismos.
6 MUESTREO ESTRATIFICADO
- (b) En un muestreo para estimar la cosecha total
de café en México, se conocía que el estado
fisiológico, edad y estado de sanidad de los
árboles influye mucho en su producción. Entonces,
se tomaron como estratos, categorías de árboles
bien definidas y homogéneas en lo que respecta a
edad, estados fisiológicos y de sanidad. Además,
los predios se agruparon en estratos de acuerdo a
la región ecológica donde estaban ubicados. Esto
es porque la productividad del café varía según
las condiciones ecológicas como altura sobre el
nivel del mar, vientos, temperaturas extremas,
etcétera.
7 MUESTREO ESTRATIFICADO
- (c) En una encuesta para estimar el consumo de
energía eléctrica es conveniente agrupar las
fábricas en estratos, así quedarían agrupadas en
fábricas grandes, fábricas pequeñas, empresas de
producción familiar y un estrato final
constituido por casa-habitación. Esto, porque
sabemos que el consumo de electricidad va a ser
muy variable entre estratos, y esperamos que sea
menor dentro de estos.
8 MUESTREO ESTRATIFICADO
- Otra razón poderosa para formar estratos es la
disponibilidad de marcos. - Si para una parte de la población se tiene un
buen marco, éste se usa para el muestreo de esa
parte y la o las otras partes de la población se
muestrean usando otros marcos más imprecisos y,
posiblemente distintos esquemas (diseños) de
muestra.
9 MUESTREO ESTRATIFICADO
- Por ejemplo, en encuesta de hogares se cuenta
con un buen marco para la zona urbana de
construcción antigua pero las zonas rurales y
las urbanas de construcción reciente no tienen un
marco adecuado. - Entonces se utilizan planos catastrales para las
zonas urbanas antiguas (un estrato), se usan
fotografías aéreas para zonas rurales (otro
estrato) y las áreas de posible nueva
urbanización (otro estrato) se delimitan como
otro marco se muestrean áreas y se investigan
las nuevas urbanizaciones (muestreo en etapas o
conglomerados).
10 MUESTREO ESTRATIFICADO
- Otra razón más para construir estratos puede ser
el costo de localizar y levantar la información
de las unidades, por ejemplo si en una encuesta
de predios agrícolas hay una región cuyo acceso
es difícil (por avión o a caballo únicamente),
esa región puede constituir un estrato, que será
muestreado con un tamaño de muestra pequeño.
11MUESTREO ESTRATIFICADO
- Lo más frecuente es que los tres criterios para
formación de estratos coincidan, de modo que los
estratos formen unidades homogéneas con un mismo
tipo de marco y con costos de localización y
captación de información semejantes.
12 MUESTREO ESTRATIFICADO
- Se pueden utilizar diferentes formas de muestreo
en los diferentes estratos, sin embargo, se
considerará en este escrito como una introducción
al tema, aquel en el cual cada estrato se
muestrea usando mas. - Más adelante se consideran las muestras
complejas, donde se amplia el uso de estratos.
13 MUESTREO ESTRATIFICADO
- Considérese la siguiente notación
- Nh número de unidades en estrato h-ésimo
- h1,2,...,L
- L número de estratos.
14 MUESTREO ESTRATIFICADO
- Valores Poblacionales
- valor de la medición en el elemento
- i-ésimo del estrato h-ésimo.
- total de unidades en la población.
- media poblacional del estrato h-ésimo.
15 MUESTREO ESTRATIFICADO
- total poblacional del estrato
- h-ésimo.
- varianzas poblacionales del
- estrato h-ésimo.
-
16 MUESTREO ESTRATIFICADO
- total de toda la población.
- media de los valores Yhi
- en toda la población.
17 MUESTREO ESTRATIFICADO
- proporción del tamaño del estrato h-ésimo.
18 MUESTREO ESTRATIFICADO
- Valores muestrales
-
- En esta parte se considera cualquier estrategia
de muestreo probabilístico en cada estrado,
incluso pueden ser diferentes de un estrato a
otro.
19 MUESTREO ESTRATIFICADO
-
- Supóngase que de manera independiente se toman
muestras de cada estrato. Sea nh el tamaño de
muestra en el estrato h-ésimo. - La muestra total es
-
20 MUESTREO ESTRATIFICADO
Supóngase que se quiere estimar el total de la
población, esto es Para esto con la muestra
de cada estrato se estima el total, sea el
estimador insesgado o con sesgo despreciable para
el caso de estimadores de razón o de regresión,
su varianza , además, sea un
estimador de esa varianza.
21 MUESTREO ESTRATIFICADO
- El estimador del total es
- la suma de los estimadores de los totales de los
estratos (es un estimador insesgado). - Esto es válido con cualquier diseño de muestra y
estimadores por estrato, los que pueden ser
distintos en los diferentes estratos.
22 MUESTREO ESTRATIFICADO
- La varianza del estimador del total es
- ,
- que es la suma de las varianzas de los
estimadores de los totales de estratos. - Esto es por tener muestras independientes en los
estratos.
23 MUESTREO ESTRATIFICADO
- Además el estimador de la varianza del estimador
del total es
24 MUESTREO ESTRATIFICADO
- Suponiendo distribución normal de se tiene
25 MUESTREO ESTRATIFICADO
- Si no se puede suponer normalidad úsese el valor
4.4 en lugar de 1.96 (T. Tchebycheff). - Estas expresiones para son válidas para
cualquier forma de muestrear estratos.
26 MUESTREO ESTRATIFICADO
- La primera aproximación al uso de estratos es
considerar que se usa mas en cada estrato
entonces - donde yhi son los valores observados en la
unidad i-ésima de la muestra (tamaño nh) del
estrato h-ésimo.
27 MUESTREO ESTRATIFICADO
- El estimador del total poblacional es
- (6.1)
donde corresponde al factor de expansión,
de las unidades obtenidas en cada estrato.
28 MUESTREO ESTRATIFICADO
- Su varianza teórica es
- (6.2)
- Esta varianza se estima al sustituir S2h por
su estimador en cada estrato.
29 MUESTREO ESTRATIFICADO
- El estimador insesgado de S2h es
- .
- Nótese que es la misma expresión que S2h,
pero la primera es con valores de la muestra y la
segunda con los valores de todo el estrato
h-ésimo.
30 MUESTREO ESTRATIFICADO
- Recurriendo al Teorema central del límite, para
cada estrato , se tendrá
que - .
- Esto es mucho más factible aunque cada
- no tenga distribución normal, si se tienen
muchos estratos. Se puede decir que los errores
de estimación tienden a cancelarse de un estrato
a otro.
316. MUESTREO ESTRATIFICADO
- Si se estima , se puede construir un
intervalo de confianza aproximado para el total
de la población -
- Al dividir cada término de (6.3) entre
, tenemos el intervalo de confianza para
- , la media de la población.
(6.3)
326. MUESTREO ESTRATIFICADO
- Si se considera que la muestra es grande en cada
estrato, la muestra total será mayor aún. Esto
justifica el uso del valor 1.96 en lugar del
valor de las tablas de t. Nótese que - (6.4)
336. MUESTREO ESTRATIFICADO
- Si lo que se quiere estimar es , se tendrá
que, - (6.5)
- donde proporción del tamaño de
estrato h-ésimo.
346. MUESTREO ESTRATIFICADO
- Nótese que (6.5) es un promedio ponderado de los
promedios muestrales y su varianza es - (6.6)
- la que se estima con
- (6.6a)
356. MUESTREO ESTRATIFICADO
- De manera semejante, el intervalo de confianza
aproximado para es el siguiente - Aún con muestras chicas en cada estrato (nh
2,3,4) si se tienen mas de 10 estratos se puede
tener normalidad para , esto en virtud de la
compensación de errores.
366. MUESTREO ESTRATIFICADO
- Proporciones
-
- Si lo que se requiere estimar es P, la
proporción de elementos de la población que
tienen una característica determinada, se usan
las equivalencias dadas por
376. MUESTREO ESTRATIFICADO
- Estas equivalencias surgen al considerar que
-
-
- 1 Si la unidad i-ésima del estrato h
- Yhi tiene la característica
-
- 0 De otro modo
386. MUESTREO ESTRATIFICADO
- Sólo si las Ph son muy diferentes de estrato a
estrato, vale la pena estratificar. - Si , no conviene usar
los estratos.
396.1 Distribución (afijación) de la Muestra a los
Estratos
- Antes de considerar el problema de la
determinación del tamaño de muestra, se discute
la forma de distribuir el tamaño de muestra
total, n, a los diferentes estratos.
406.1.1. Distribución Proporcional
- Un criterio es lo que se le llama distribución
(afijación) proporcional, donde la muestra se
divide de manera proporcional a los tamaños de
los estratos Nh.
416.1.1. Distribución Proporcional
- Se busca que se cumpla la relación
- De esta relación se tiene
- (6.7)
-
426.1.1. Distribución Proporcional
- Esta distribución de la muestra total se usa
cuando no se tiene información sobre la magnitud
de las S2h, o que esas S2h sean semejantes se
usa además cuando los costos de muestrear las
unidades en los diferentes estratos son
semejantes.
436.1.1. Distribución Proporcional
- También se emplea cuando el muestreo o encuesta
va a determinar varias características (varias
mediciones) en cada unidad de la población,
incluso cuando se quiere que sea autoponderado,
es decir, todos los elementos de la muestra
tienen un mismo factor de expansión
446.1.1. Distribución Proporcional
- Con esta distribución proporcional se tiene
- donde
456.1.2 Distribución Óptima
- Cuando se tienen costos muy diferentes para el
muestreo de unidades en los diferentes estratos,
se usa la distribución (afijación) óptima. - Si el costo para obtener información de una
unidad en el estrato h-ésimo es Ch, el costo
total será - (6.8)
- C0 es costo administrativo, de instalación,
etcétera, general.
466.1.2 Distribución Óptima
- La minimización (variando las nh, sin cambiar
otras condiciones), de la varianza del estimador
(6.2) con costo fijo (6.8) o viceversa, produce
la distribución óptima que es - (6.9)
- Esto es para muestreo mas en todos los estratos.
476.1.2 Distribución Óptima
- Para cualquier diseño de muestreo en los
estratos, la varianza del estimador del total se
podrá expresar como - Entonces la distribución óptima es
486.2 Tamaño de Muestra Total
- Si lo que se quiere es encontrar aquel valor de
n que produce la mínima varianza para un costo
total fijo C0, se deberá usar la expresión (6.9)
y sustituir en (6.8).
496.2 Tamaño de Muestra Total
- Entonces tenemos
-
- Esto es usando la distribución óptima.
- Los valores de Sh se deberán obtener con base en
muestras piloto de cada estrato, o bien por
conocimiento previo de la forma de la
distribución en cada estrato y el rango de
variación.
(6.10)
506.2 Tamaño de Muestra Total
- Si lo que se quiere es encontrar el valor de n
que produce el costo mínimo para un error de
estimación d determinado, entre el estimador del
total y el verdadero total, entonces se tiene
. - Si se sustituye la varianza de la expresión (6.2)
con distribución óptima, se obtiene
(6.11)
516.2 Tamaño de Muestra Total
- Las expresiones (6.10) y (6.11) se refieren a la
estimación del total. Para estimar un promedio,
, la expresión (6.10) sigue siendo válida pero
la (6.11) debe modificarse
526.2 Tamaño de Muestra Total
- Sustituyendo la varianza por la expresión (6.6) y
con nh óptimo se tiene
(6.11)
Donde ahora d es el error máximo permisible, con
confianza del 95, entre el estimador del
promedio , y el promedio poblacional .
Nótese que las d en expresiones (6.11) y
(6.11) son muy diferentes.
536.2 Tamaño de Muestra Total
- Las expresiones (6.10), (6.11) y (6.11) se usan
cuando se quiere optimizar algo que involucra el
costo. - Si el costo no es determinante y si se usa la
distribución óptima para Ch constante, (6.10) no
deberá usarse. - Es importante enfatizar que en (6.10), (6.11) y
(6.11) se usa la distribución óptima.
546.3 Distribución Proporcional
- Si se va a usar la distribución proporcional se
puede recurrir a la expresión de la varianza que
es - Si se sustituye se tiene
(6.12)
(6.12)
556.3 Distribución Proporcional
- Con este valor en lugar de las S2, se pueden usar
las expresiones (5.3) y (5.4) para obtener n. - Si se quiere tener un coeficiente de variación
fijo (CVo), sin tomar en cuenta el tipo de
distribución del estimador , se tendrá
566.3 Distribución Proporcional
(6.13)
576.3 Distribución Proporcional
- Si se considera que y se
desea tener - de aquí se tiene que
586.3 Distribución Proporcional
- de donde a partir de se obtiene que n
debe de ser
(6.14)
596.3 Distribución Proporcional
- Es relativamente sencillo modificar las
expresiones (6.13) y (6.14) para considerar la
estimación de . El cambio fundamental está en
que se debe sustituir por que es ,
entonces
606.4 Conclusiones
- Si se considera que el costo es importante, esto
es, hay costos diferenciales en los estratos,
conviene usar la distribución óptima (6.9) y
determinar el tamaño de muestra con expresiones
(6.10), (6.11) o (6.11). - Si no hay costos diferenciales muy marcados y se
decide usar la distribución proporcional (6.7)
para determinar el tamaño de muestra total, se
usará (6.13), si se quiere fijar el coeficiente
de variación, sin consideraciones sobre la
distribución de los estimadores.
616.4 Conclusiones
- Si se quiere fijar la precisión (? ) y la
confiabilidad (1-?) considerando distribución
normal para el estimador, se usará la expresión
(6.14). - Debe tenerse cuidado al señalar que todas las
expresiones anteriores determinan el tamaño de
muestra para estimadores globales de toda la
población. Las inferencias no son para cada
estrato con esas muestras.
626.4 Conclusiones
- Si lo que se desea es estimar media o totales en
cada estrato, las expresiones anteriores no se
deben usar, lo que se debe emplear son fórmulas
(5.3) y (5.4) para cada estrato por separado y
así determinar las nh a usarse en cada uno de
ellos. Por supuesto que en este último caso la
muestra total n es mucho más grande. Esto es de
esperarse, puesto que ahora se están haciendo
inferencias por separado para L poblaciones.