Title: Cap
1 Capítulo 1. Vistazo
y Estadística Descriptiva
I Parte 1.0 .Introducción 1.1 Poblaciones,
Muestras y Procesos 1.2 Métodos Gráficos y
Tabulares
2Estadística?
- Ejemplo 1. Para la población de USA de más de 18
años. La propiedad de interés podría ser el peso
aquellos que estudian ingeniería y que además son
estudiantes universitarios. - Ejemplo 2. La tragedia del Challenger de enero
28, 1986. Los datos incluyen las temperaturas de
los anillos O para cada encendido de prueba o
lanzamiento real del transbordador. Estamos
interesados en si la temperatura ambiente al
lanzamiento, tiene algún efecto sobre la
posibilidad de un lanzamiento exitoso o fallido.
3(No Transcript)
4(No Transcript)
5(No Transcript)
6(No Transcript)
7Mmm Qué respondo? Si? o No?
81.1 Poblaciones,Muestras, y
Procesos
9Poblaciones y muestras
Una población (population) es una colección bien
definida de objetos, sobre la cual hay interés de
obtener información. Normalmente es demasiado
grande como para poder abarcarla
Cuando al información está disponible para la
población entera se tiene un censo (census). Un
subconjunto de la población es una muestra
(sample). Generalmente es el subconjunto al cual
se tiene acceso y sobre el cual se hacen
realmente las observaciones o mediciones
10Variable
- Una variable es cualquier característica cuyo
valor puede cambiar de objeto en objeto. Es
decir, es una característica observable que varía
entre los diferentes objetos de una población. La
información de la cual se dispone de cada objeto
se resume en variables
Género, altura, ingreso, y PGB
11Unidades de Observación
- Los elementos de una población se llaman en
general unidades de observación. Las
características de interés (edad, consumo,
resultado) se denominan variables pues su valor
varía en función de la unidad observada
12Propiedades deseables de las Muestras
- Deberían ser representativas
- Están formadas por objetos seleccionados de la
población (individuos, unidades experimen-tales)
Estos dos puntos son básicos para hacer lo
esencial de esta disciplina hacer inferencia
(inducción) hacia lo general.
El proceso de extraer muestras de la población se
llama Muestreo
13Variables según variación
- Las variables pueden ser de acuerdo a su
variación - Determinísticas cuando varían de objeto en objeto
de la población de un modo completamente
predecible. - Aleatorias cuando varían de objeto en objeto de
la población de un modo impredecible o de un modo
que parece o se supone depende del azar.
14Datos y Observaciones
Los datos univariados constan de observaciones
de una sola variable (multivariable más de dos
variables).
15Notación
- Las variables se denotarán por su inicial
mayúscula (A, B, R ...) o de un modo más general
por X, Y, Z, etc. Los valores numéricos o no
numéricos (ver ejemplos más adelante) o
modalidades de una variable serán indicados por
la misma letra pero minúscula tal vez
subindiciada x1, x2, . . ., y1, y2, ... Las
modalidades de una variable X son todas
diferentes - Si no hay lugar a confusión, se utilizan las
mismas notaciones x1, x2, . . ., xn para indicar
los n valores observados de X para una muestra
particular. En este caso, ciertos valores podrán
ser idénticos. Se dirá que x1, x2, . . ., xn son
n observaciones de X.
16Tipos de variables
- Por características
- variable cuantitativa cuando puede asumir
cualquier valor numérico las modalidades son
números que expresan cantidades, con las cuales
tiene sentido realizar operaciones algebraícas
con ellos (ingresos de 300 pesos, altura 185 cm,
etc..) - variable cualitativa o categórica (nominal)
cuando las modalidades representan cualidades o
atributos (sexo masculino, femenino, genotipo,
fenotipo, etc) Es decir, cuando no se les puede
asociar naturalmente números a los valores (y en
consecuencia, no es posible realizar operaciones
algebraícas con ellos).
17Variables Cuantitativas
- variable cuantitativa continua (o de intervalo)
si el conjunto de valores o modalidades es un
intervalo (posiblemente no acotado) de los
números reales (pesos entre 0 y 300 Kg, talla
entre 20 y 50 cm, etc.), surgen de mediciones - variable cuantitativa discreta si el conjunto de
los valores posibles es finito o infinito
numerable (número de hermanos, número de
accidentes de un seguro), es decir puede sumir
valores numéricos aislados, surgen de conteos
18Variables Cualitativas
- variable cualitativa o categórica (nominal)
cuando las modalidades representan cualidades o
atributos (sexo masculino, femenino, genotipo,
fenotipo, etc) - variable categórica ordinal cuando las
modalidades no son cantidades numéricas pero
pueden ser ordenadas de un modo natural (el
estado de un paciente si va mal, delicado, está
estable, si le va mejor).
19Variables
- Una variable es una característica observable que
varía entre los diferentes individuos de una
población. La información que disponemos de cada
individuo es resumida en variables.
- En los individuos de la población chilena, de uno
a otro es variable - El grupo sanguíneo
- A, B, AB, O ? Var. Cualitativa
- Su nivel de felicidad declarado
- Deprimido, Ni fu ni fa, Muy Feliz ? Var.
Ordinal - El número de hijos
- 0,1,2,3,... ? Var. Numérica discreta
- La altura
- 162 174 ... ? Var. Numérica continua
20- Es buena idea codificar las variables como
números para poder procesarlas con facilidad en
un ordenador. - Es conveniente asignar etiquetas a los valores
de las variables para recordar qué significan los
códigos numéricos. - Sexo (Cualit Códigos arbitrarios)
- 1 Hombre
- 2 Mujer
- Raza (Cualit Códigos arbitrarios)
- 1 Blanca
- 2 Negra,...
- Felicidad Ordinal Respetar un orden al
codificar. - 1 Muy feliz
- 2 Bastante feliz
- 3 No demasiado feliz
- Se pueden asignar códigos a respuestas especiales
como - 0 No sabe
- 99 No contesta...
- Estas situaciones deberán ser tenidas en cuentas
en el análisis. Datos perdidos (missing data)
21- Aunque se codifiquen como números, debemos
recordar siempre el verdadero tipo de las
variables y su significado cuando vayamos a usar
programas de cálculo estadístico. - No todo está permitido con cualquier tipo de
variable.
22Para qué sirve la estadística?
- La Ciencia se ocupa en general de fenómenos
observables - La Ciencia se desarrolla observando hechos,
formulando leyes que los explican y realizando
experimentos para validar o rechazar dichas leyes - Los modelos que crea la ciencia son de tipo
determinista o de tipo aleatorio (estocástico) - La Estadística se utiliza como tecnología al
servicio de las ciencias puras e ingenieriles
donde la variabilidad y la incertidumbre forman
parte de su naturaleza es decir, donde estas no
son la excepción sino la regla
23(No Transcript)
24Definición
- La Estadística es la Ciencia de la
- Sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de - deducir las leyes que rigen esos fenómenos,
- y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones
(inducción).
Descriptiva
Probabilidad
Inferencia
25Pasos en un estudio estadístico
- Plantear hipótesis sobre una población
- Los fumadores tienen más licencias laborales
que los no fumadores - En qué sentido? Mayor número? Tiempo medio?
- Decidir qué datos recoger (diseño de
experimentos) - Qué individuos pertenecerán al estudio (muestras)
- Fumadores y no fumadores en edad laboral.
- Criterios de exclusión Cómo se eligen?
Descartamos los que padecen enfermedades
crónicas? - Qué datos recoger de los mismos (variables)
- Número de licencias
- Tiempo de duración de cada licencia
- Sexo? Sector laboral? Otros factores?
- Recoger los datos (muestreo)
- Estratificado? Sistemáticamente?
- Describir (resumir) los datos obtenidos
- tiempo medio de licencia en fumadores y no
(estadísticos) - de licencias por fumadores y sexo
(frecuencias), gráficos,...
Todavía no es necesario entender esto
26Método científico y estadística(Primera
aproximación)
27Ramas de la Estadística
Estadística descriptiva resumen y descripción
de los datos recolectados.
Probabilidad
Estadística inferencial generalización de una
muestra a una población.
28Relaciones entre Probabilidad y Estadística
Inferencial
29(No Transcript)
30Ejemplo 1 Datos del Challenger
- gtSTEM C1
-
- Stem and Leaf Plot of variable C1, N
36 - Minimum 31.000
- Lower hinge 59.000
- Median 67.500
- Upper hinge 75.000
- Maximum 84.000
-
- 3 1
- Outside Values
- 4 0
- 4 59
- 5 23
- 5 H 788
- 6 0113
- 6 M 6777789
- 7 000023
- 7 H 556689
Min. 1st Qu. Median Mean 3rd Qu. Max.
31.00 59.50 67.50 65.86 75.00
84.00 The decimal point is 1 digit(s) to the
right of the 3 1 4 059 5 23788
6 01136777789 7 000023556689 8 0134
31Histograma
Programa Comercial
R
32Ejemplo 2 Resistencia del concreto
superplatificantes
- gtSTEM C1
-
- Stem and Leaf Plot of variable C1, N
27 - Minimum 5.900
- Lower hinge 7.000
- Median 7.700
- Upper hinge 8.850
- Maximum 11.800
-
- 5 9
- 6 33
- 6 588
- 7 H 00234
- 7 M 677889
- 8 12
- 8 H 7
- 9 0
- 9 77
- 10
C1 Presión en mega pascales
331.2 Métodos gráficos y Tabulares de la
Estadística Descriptiva
34... recopilación de datos...
35(No Transcript)
36(No Transcript)
37(No Transcript)
38(No Transcript)
39(No Transcript)
40(No Transcript)
41(No Transcript)
42(No Transcript)
43Datos reales
44Diagrama de puntos
Los datos se representan con puntos. Para pocos
datos con relativamente pocos valores distintos
de los datos. .
Temperatura de los anillos O (para los
pernos de junturas)
Temperatura de los anillos O
45Pesos de estudiantes
46(No Transcript)
47Diagramas de Tallo y Hojas
- Selecciones uno o más dígitos iniciales para
valores del tallo. El dígito, o dígitos,
final(es) se convierte(n) en hojas. - Haga una lista de los valores de tallos en la
columna vertical. - Registre una hoja por cada observación junto al
valor correspondiente del tallo. - Indique las unidades para tallos y hojas en
algún lugar del diagrama
48(No Transcript)
49(No Transcript)
50(No Transcript)
51Otro ejemplo de tallo y hojas
Valores observados
9, 10, 15, 22, 9, 15, 16, 24,11
Tallo Decenas
Hojas unidades
52Despliegues de los Diagramas de Tallo y hojas
- Identificación de un valor característico o
representativo. - Grado de dispersión respecto al valor
característico. - Presencia de huecos en los datos.
- Grado de simetría en los valores de la
distribución - Cantidad y ubicación de los picos
- Presencia de cualquier valor alejado o atípico.
53Otro ejemplo de tallo y hojas
Porcentaje de alumnos que consumen alcohol en
140 colegios, 1994 (P12) 0 4 1
1345678889 2 1223456666777889999 3
0112233344555666677777888899999 4
111222223344445566666677788888999 5
00111222233455666667777888899 6
01111244455666778
6 2 se lee 62
Decenas
Unidades
54Diagrama de Tallos y Hojas
Decodificar los datos para Calcular estadísticos
básicos. Qué tipo de distribución es
esta? Normal?
La idea que está detrás del diseño de los
diagramas de tallo y hojas es hacer efectivo todo
elemento gráfico de la información. Al presentar
su invención, John Tukey escribió Si uno hace
una marca, puede que tenga algún sentido. La
marca mas simple, con mayor sentido y más útil es
un dígito.
55...No siempre conviene el stem
Producción de cerveza
- stem(ventas,.5)
-
- 3 5666699
- 4 11122444444
- 4 5678899
- 5 0223334
- 5 5
Tomando en cuenta el tiempo
Sin tomar en cuenta el tiempo
Tiempo
1
5
9
13
17
21
25
29
56Tipos de Variables
Una variables es discreta si su conjunto de
valores posibles constituye un conjunto finito o
una secuencia infinita. Una variable es continua
si su conjunto de valores posibles consiste de un
intervalo entero de la recta numérica.
571867 Una dama victoniana..
58La estadística (posterior enfermera) Florence
Nightingale recogió las estadísticas de los
hospitales militares británicos, produciendo
histogramas como este que se presenta aquí
El eje radial indica los muertos en hospitales
como también en el campo de batalla de soldados
británicos en la guerra de Crimea.
Sus esfuerzos estadísticos mejoraron directamente
las condiciones de los hospitales y la reducción
de las tazas de mortalidad.
59Histogramas de Datos Discretos
Determine las frecuencias absolutas y relativas
para cada valor de x. Después marque los valores
posibles de x sobre una escala horizontal.
Arriba de cada valor, dibuje un rectángulo cuya
altura relativa es la frecuencia de ese valor.
60Ej. A 150 estudiantes de un pequeño CFT se les
pregunta sobre cuando cambios de tarjetas de
crédito realizaban. x es la variable que
representa el número de tarjetas y resultados de
abajo.
Distribución de frecuencia
x personas
0 12
1 42
2 57
3 24
4 9
5 4
6 2
Frec. Rel.
0.08
0.28
0.38
0.16
0.06
0.03
0.01
61Histogramas
Resultados de las tarjeta de crédito
x Rel. Freq.
0 0.08
1 0.28
2 0.38
3 0.16
4 0.06
5 0.03
6 0.01
62Histogramas Datos Continuos Caso de Anchos
Iguales
Determine la frecuencia absoluta y relativa de
cada clase. Marque los límites de clase en el eje
de medición horizontal. Arriba de cada intervalo
de clase, dibuje un rectángulo cuya altura es la
frecuencia relativa.
63Histogramas Datos
Continuos Caso de Anchos Desiguales
Después de determinar las frecuencias absolutas y
relativas, calcule la altura de cada rectángulo
usando
Las alturas que resultan se llaman densidades y
la escala vertical se llama escala de densidad.
64Formas de Histogramas
Unimodal Simétrica
Bimodal
Asimétrica Positiva
Asimétrica Negativa
65Ejemplo
- Población conjunto de estudiantes de en la UACH
en 1981. - Unidad de observación estudiantes de primer año
en la UACH 1981. - Variables Sexo (S, cualitativa), Talla en cm (T,
cuantita-tiva continua), Pesos en Kg (P,
cuantitativa continua), Número de hermanos y de
hermanas (F, cuantitativa discreta), Color de los
ojos (C, cualitativa). - Modalidades o valores de las variables S
hombre, mujer T 120, 210 P 40, 200 F
0, 1, . . . , 10 C café, azul, verde,
negro, gris.
66Ejemplo
67Distribución de una variable cualitativa
68Ejemplo
69Histograma de color de ojos
70Distribución de una variable cuantitativa
71Número de observaciones ltlt n
72n gt 20
73Recomendaciones para histogramas
74Organización de los datos
75Tabla de frecuencias
76(No Transcript)
77(No Transcript)
78Curva de distribución de una población
79Función de distribución acumulativa empírica
80Fn(x) suavisada
?
81Características principales de una distribución
82Ej. 1.9 Distribución de los hits de los juegos
de beisball de 9 entradas desde 1989 a 1993
Frecuencia relativa
Hit/juego
83Ejemplo 1.10 Consumos de energía en BTU
C1 Consumo de energía en BTU
84Ejemplo 1.11 Corrosión del acero reforzado en
estructuras de concreto
- Stem and Leaf Plot of variable C1, N
48 - Minimum 3.400
- Lower hinge 4.500
- Median 5.950
- Upper hinge 10.700
- Maximum 25.500
-
- 3 466667889
- 4 H 01289
- 5 M 0112224567
- 6 26
- 7 068
- 8 259
- 9 339
- 10 H 77
- 11 5
- 12 16
- 13 148
- 14 2
85(No Transcript)
86Histograma de los accidentes
87Tarea
Cap 1. Sec 1. Problemas 4, 6, 8.
Cap 1. Sec 2. Problemas 10, 12, 14, 16, 22, 24,
26, 28, 32.