Title: MODULO 3. DISTRIBUCIONES UNIVARIADAS. MEDIDAS DE TENDENCIA CENTRAL
1MODULO 3. DISTRIBUCIONES UNIVARIADAS. MEDIDAS DE
TENDENCIA CENTRAL
2MEDIDAS DE TENDENCIA CENTRAL
- Estas medidas se denominan de tendencia central
porque fijan su atención en el centro de la
distribución o punto central sobre el que
gravitan el conjunto de valores de la
distribución.
3- La más habitual de las medidas de tendencia
central es la MEDIA ARITMÉTICA del conjunto de
observaciones individualmente obtenidas. - Sin embargo, su uso lleva algunos presupuestos
infranqueables, lo que conlleva a que NO SIEMPRE
PUEDA USARSE LA MEDIA como indicador de
tendencia central. - Nivel de medición cuantitativo.
- Presupone que el conjunto de los datos posibles
tienen una distribución simétrica. - Por tanto mirar el nivel de medición de la
variable y el gráfico para estudiar la forma de
su distribución.
4Concepto de Simetría
- Supongamos que hemos representado gráficamente
una distribución de frecuencias. - Si trazamos una perpendicular al eje de abscisas
por la media y tomamos esta perpendicular como
eje de SIMETRÍA, diremos que una distribución es
simétrica respecto a la media si existe el mismo
número de valores a ambos lados de dicho eje,
equidistantes de uno a uno y tales que cada par
de valores equidistantes tengan la misma
frecuencia. En caso contrario, las distribuciones
serán asimétricas.
5- Si no se cumplen estos supuestos deben usarse
alternativamente otros indicadores la MEDIANA
(en caso de no contarse con variables intervales
o cuando la población sigue una distribución
bastante poco simétrica) o la MODA o MODO.
6- La mediana requiere para su uso también de un
nivel de medición mínimo, la escala o nivel
ordinal
7- La MODA, por tanto, es la medida de tendencia
central apropiada cuando se dispone de variables
que tienen un nivel de medición nominal.
8NIVEL DE MEDICION NIVEL DE MEDICION MEDIDA DE TENDENCIA CENTAL MEDIDA DE TENDENCIA CENTAL MEDIDA DE TENDENCIA CENTAL
NIVEL DE MEDICION NIVEL DE MEDICION MEDIA MEDIANA MODA
INTERVAL O RAZON Distribución simétrica Si, la más adecuada Si Si
INTERVAL O RAZON Distribución asimétrica No Si, la más adecuada Si
ORDINAL ORDINAL No Si Si
NOMINAL NOMINAL No No Si
9MEDIA (o PROMEDIO)
- la media aritmética de una variable estadística
es la suma de todos sus posibles valores dividida
por el total de observaciones.
10MEDIA en tablas de datos originales
- si los valores de una tabla son
- x1 x2 x3 xi
11MEDIA en tablas de frecuencias simples
Xi fi fr
x1 f1 fr1
... ... ...
xk fk frk
En este caso la media puede ser expresada como
suma ponderada de los valores de la variable por
las frecuencias absolutas promediada por el total
de observaciones (N)
12MEDIA - tablas de frecuencias con datos agrupados
en intervalos de clase
- En el caso de las tablas de frecuencias agrupadas
en intervalos de clase, dada la pérdida del dato
original, en estos casos la media debe ser
definida como la suma ponderada no de los
valores originales- sino de las marcas de clase
ponderada por sus frecuencias relativas (ya
usando la expresión simplificada).
13Observaciones sobre la media
- La media (o promedio), en todos los casos, es un
número comprendido entre el mínimo y el máximo de
los valores observados. - El promedio no tiene por qué coincidir con alguno
de los valores observados en la población. - Si la distribución de la variable no es muy
dispersa (porque se concentra en unos pocos
valores) entonces el promedio es un buen
indicador de la posición de la distribución. - Como medida de tendencia central, tiene el
defecto de estar muy influido por los valores
extremos de la distribución. Ya que todas las
observaciones intervienen en el cálculo de la
media, la aparición de una observación extrema,
hará que la media se desplace en esa dirección. - no es recomendable usar la media como medida
central en las distribuciones muy asimétricas
14Observaciones 2
- En general, la media aritmética obtenida a
partir de las marcas de clase xc, diferirá de la
media obtenida con los valores reales, xi. - Es decir, habrá una pérdida de precisión que será
tanto mayor cuanto mayor sea la diferencia entre
los valores reales y las marcas de clase, o sea,
cuanto mayores sean las amplitudes de los
intervalos de clase ai. - la media calculada sobre datos agrupados en
intervalos dependerá siempre de la división en
intervalos de clase.
15- es muy sensible a los valores extremos de la
variable ya que todas las observaciones
intervienen en el cálculo de la media, la
aparición de una observación extrema, hará que la
media se desplace en esa dirección. En
consecuencia, remarcaremos 1. no es recomendable
usar la media como medida central en las
distribuciones muy asimétricas 2. la media
calculada sobre datos agrupados en intervalos
dependerá siempre de la división en intervalos de
clase.
16LA MEDIANA
- Consideramos una variable X cuyas observaciones
en una tabla estadística han sido ordenadas de
menor a mayor. Llamaremos mediana, Mdn al primer
valor de la variable que deja por debajo de sí al
50 de las observaciones y por encima de sí al
restante 50.
17- Si la distribución es simétrica, la MEDIA
coincidirá con la MEDIANA.
18MEDIANA tablas de datos originales
- Si N es el número de observaciones, la mediana
corresponderá a la observación N1/2 en el
caso de N impar, y a una observación intermedia
entre las observaciones N/2 y N2/1 en el
caso de N par. - Ejemplo
- N5 número de observaciones impar
- 1 - 3 - 7 15 - 24 (datos ordenados)
- Por tanto, la mediana corresponde a la
observación que ocupa la posición 51/2 3
(tercera posición en la serie ordenada). Es
decir, 7. - Si N 6 número de observaciones par
- 1 - 3 - 7 15 - 24 -35 (datos ordenados)
- Por tanto, la mediana corresponde a la
observación intermedia entre la observación que
ocupa el lugar 6/2 (tercera posición en la
serie ordenada) y la observación 6/21 (cuarta
posición en la serie ordenada). Es decir,
intermedia entre los valores 7 y 15 (valores que
ocupan respectivamente las posiciones 3era y
4ta). Este valor surge de promediar los valores
correspondientes a estas dos posiciones (715)/2
11. - Por tanto, el valor de la variable que deja por
debajo de sí el 50 de las observaciones menores
y por encima de sí el 50 de las observaciones
mayores es 11. La mediana es 11. - Otra forma de leer este resultado es diciendo que
el 50 de las observaciones no superan el valor
11.
19MEDIANA tablas de frecuencias simples
- En el caso de datos agrupados en tablas, la forma
más práctica de ubicar la mediana es guiándose
por la columna de frecuencias relativas
acumuladas. La mediana será entonces aquel valor
de la variable que acumula antes el 50 de las
observaciones.
20Ejemplo
Accidentes Laborales fi fr Fi Fr
Xi fi fr Fi Fr
3 3 0,15 3 0,15
4 6 0,3 9 0,45
5 Mediana 5 0,25 14 0,7
6 4 0,2 18 0,9
7 1 0,05 19 0,95
8 1 0,05 20 1
20 1
21MEDIANA tablas de frecuencias agrupadas en
intervalos de clase
- (no lo trataremos en clase por ser bastante poco
común recurrir a esto) - En el caso de variables continuas, las clases
vienen dadas por intervalos, y aquí la fórmula de
la mediana se complica un poco más debido a que
supone una interpolación de datos. - fórmula para interpolar
-
- donde
- Li límite inferior del intervalo mediano
- N total de observaciones de la población
- Fiant frecuencias acumuladas en la clase
anterior del intervalo mediano - fi frecuencia absoluta simple del intervalo
mediano - Ai amplitud del intervalo mediano
22- Sin embargo, sugerimos que para facilitar la
comprensión del tema se maneje con el concepto de
intervalo mediano. De esta manera, a igual que
en las tablas de frecuencias, bastará con
identificar cual es el intervalo que primero deja
por debajo de sí el 50 de las observaciones más
pequeñas.
23MEDIANA - Propiedades
- Como medida descriptiva, tiene la ventaja de no
estar afectada por las observaciones extremas, ya
que no depende de los valores que toma la
variable, sino del orden de las mismas. Por ello
es adecuado su uso en distribuciones asimétricas.
- Es de cálculo rápido y de interpretación
sencilla. - A diferencia de la media, la mediana de una
variable discreta es siempre un valor de la
variable que estudiamos (ej. La mediana de una
variable número de hijos toma siempre valores
enteros). - Es función de los intervalos escogidos.
- Puede ser calculada aunque el intervalo inferior
o el superior no tenga límites. - En variables ordinales puede ser calculada pero
sólo indica una clase dentro de la distribución.
Por ejemplo, si se analiza el nivel educativo
podría suceder que al menos el 50 tienen
estudios de cuando más (por ejemplo) secundaria,
porque se alcanza este porcentaje en esta
categoría de la variable.
24MODA o MODO
- Llamaremos moda o modo a cualquier máximo de la
distribución de frecuencias, es decir, cualquier
valor de la variable que posea una frecuencia
mayor que todas sus anteriores y todas sus
posteriores. - En el caso de variables continuas es más correcto
hablar de intervalos modales.
25- Cómo se reconoce la moda (las modas) en una
tabla estadística? Observando el valor (los
valores) de la variable que tiene(n) la mayor
frecuencia relativa. Cómo se reconoce la moda
(las modas) en el diagrama de barras? Observando
el valor (los valores) de la variable que
presenta(n) el rectángulo más alto. La notación
habitual para el modo es XMo.
26MODA - Propiedades
- Es muy fácil de calcular ( o identificar)
- Puede no ser única (distribución unimodal,
bimodal, etc). - Es función de los intervalos elegidos a través de
su amplitud, número y límites de los mismos. - Aunque el primero o el último de los intervalos
no posean extremos inferior o superior
respectivamente, la moda puede ser calculada.