Title: Diapositiva 1
1Epidemiología Clínica y Estadística
Aplicada Revisión de conceptos básicos en
Estadística I.
David Cao Carreño Primer Premio de Fotografía
(Libre) S.A.E.M. THALES SEVILLA CONCURSO DE
FOTOGRAFÍA Y MATEMÁTICAS E IMÁGENES MATEMÁTICAS
Juan José de la Cruz Troca
2Epidemiología Clínica y Estadística Aplicada
BIOESTADISTICA Ciencia que estudia la obtención
y condiciones de aplicación de determinados
procedimientos que resuelvan científicamente el
problema de la recogida, organización y análisis
de datos que provienen de la observación de los
fenómenos biológicos
Juan José de la Cruz Troca.
3Epidemiología Clínica y Estadística Aplicada
- CONCEPTO COMO CIENCIA
- Por sus procedimientos es una ciencia matemática.
- Por su naturaleza es un ciencia aplicada.
- Por su objetivo es un ciencia metodológica.
Juan José de la Cruz Troca.
4Epidemiología Clínica y Estadística Aplicada
Herramienta para
Estadística (Bioestadística)
Investigación (en ciencias de la Vida)
Reglas para
- Formulación de Hipótesis
- Análisis de Resultados
- Conclusiones
Juan José de la Cruz Troca.
5Epidemiología Clínica y Estadística Aplicada
- Análisis de Resultados y Conclusiones
- Estadística descriptiva
- Estadística univariante
- Estadística multivariante
Juan José de la Cruz Troca.
6Epidemiología Clínica y Estadística Aplicada
INTRODUCCIÓN A LA ESTADÍSTICA CONCEPTOS
BÁSICOS Población diana Conjunto de referencia
sobre el que se recogen las observaciones,
pueden ser finitas o infinitas, dependiendo de
la cantidad de elementos que la compongan.
NTamaño de la población Unidad muestral o
elemento Cada uno de los componentes de una
población. Muestra Subconjunto de la población
total. nTamaño de la muestra Carácter
(Variable) Cada una de las cualidades que poseen
los individuos de la población y que permiten su
descripción. Cualitativo o cuantitativo. Ej.
Altura, peso, color... Modalidad (categoría)
Cada uno de los posibles valores numéricos o
descriptivos de un carácter. Ej. color de pelo
moreno, rubio, pelirrojo...
Juan José de la Cruz Troca.
7Epidemiología Clínica y Estadística Aplicada
CONSIDERACIONES GENERALES SOBRE MUESTREO
Tomamos una población y queremos estudiar una
determinada característica, para ello
seleccionamos una muestra y estudiamos la
característica X, después extrapolamos las
conclusiones a la población usando estimadores
(inferencia estadística).
Representativa de la población en la
característica de estudio
POBLACIÓN
MUESTRA
Generalizar
Media poblacional (µ) Varianza poblacional (s2)
Media muestral x Varianza muestral
S2n Cuasivarianza muestral S2n-1
Estimación puntual
Juan José de la Cruz Troca.
8Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA DESCRIPTIVA La estadística
descriptiva se encarga de estructurar la
información referente al fenómeno o experimento
estudiado.
TIPOS DE VARIABLES Y SUS REPRESENTACIONES
GRÁFICAS Cualitativas. Describen cualidades de
los elementos de la muestra. Nominales.
Categorías excluyentes y sin orden. Ej.
Sexo Ordinales. Categorías con cierto orden.
Ej. Clase Social Diagrama de Barras
Gráfico de Sectores (Tartas o quesitos)
Juan José de la Cruz Troca.
9Epidemiología Clínica y Estadística Aplicada
TIPOS DE VARIABLES Y SUS REPRESENTACIONES
GRÁFICAS (II) Cuantitativas (numéricas).
Devuelven valores numéricos para cada caso.
Continuas. Existe un valor intermedio entre dos
valores. Ej. Talla Discretas. Toma solo
valores determinados. Ej. Nº de
hijos Histograma y polígono de frecuencias
Polígono de frecuencias acumuladas
Fi
Juan José de la Cruz Troca.
10Epidemiología Clínica y Estadística Aplicada
PICTOGRAMAS
Juan José de la Cruz Troca.
11Epidemiología Clínica y Estadística Aplicada
Tabla de frecuencias de una variable cualitativa
o cuantitativa discreta.
Variable xi ni fi F Ni Fi
Frecuencia absoluta (ni) Número de veces que
aparece cada modalidad de la variable. Frecuencia
relativa (fi ni/n) Cociente entre frecuencia
absoluta y tamaño muestral. Frecuencia porcentual
(F fi100) Frecuencia absoluta acumulada (Ni)
Suma de frecuencias absolutas de las
modalidades inferiores o iguales a xi. Frecuencia
relativa acumulada (Fi) Suma de frecuencias
relativas de las modalidades inferiores o iguales
a xi.
Razón o cociente Expresa una relación cuando
las magnitudes son independientes. Ej. Razón
entre varones y mujeres RV/M.
Juan José de la Cruz Troca.
12Epidemiología Clínica y Estadística Aplicada
EJEMPLO Cualitativas y Cuantitativas
Discretas.
Variable Nº de personas con gripe en familias de
5 ó más miembros
Juan José de la Cruz Troca.
13Epidemiología Clínica y Estadística Aplicada
Estadísticos Resumen de Variables Cuantitativas.
Medidas de Tendencia Central Valor al que
tienden a agruparse los datos Media Aritmética
(X). Suma de valores entre nº de
casos. Mediana (Me). Valor Observado que,
ordenados los valores de forma creciente, divide
el número de casos en dos partes iguales. 50
Me 50 Moda (Mo).
Valor observado que tiene mayor ni. (que más se
repite)
Juan José de la Cruz Troca.
14Epidemiología Clínica y Estadística Aplicada
Estadísticos Resumen de Variables Cuantitativas.
Medidas de Dispersión Miden la variabilidad o
dispersión de los datos. Rango ó Amplitud (R).
Diferencia entre el valor máximo observado y
el valor mínimo en la muestra.
RMáx-Mín. Cuartiles (Q1, Q2, Q3). Rango
intercuartílico (Q3-Q1). Percentiles
(Pi). Varianza (?2). Mide la distancia entre los
valores y la media estimada. Desviación
Típica (?). Es la raíz cuadrada de la Varianza.
Coeficiente de Variación (CV). Se usa para
comparar distribuciones. Suele expresarse
en .
Juan José de la Cruz Troca.
15Epidemiología Clínica y Estadística Aplicada
Medidas de forma Permiten la descripción de la
gráfica de la distribución de frecuencias. Medida
s de simetría. Para saber si los valores de la
variable se concentran en una determinada
zona. Coeficiente de Asimetría de
Pearson Coeficiente de Asimetría de Fisher
Juan José de la Cruz Troca.
16Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
17Epidemiología Clínica y Estadística Aplicada
Medidas de aplastamiento. El Coeficiente de
Curtosis analiza el grado de concentración que
presentan los valores alrededor de la zona
central de la distribución. Se definen 3 tipos
de distribuciones según su grado de curtosis
Coeficiente de Curtosis
g2 0 (distribución mesocúrtica). g2 gt 0
(distribución leptocúrtica). g2 lt 0 (distribución
platicúrtica).
Juan José de la Cruz Troca.
18DISTRIBUCIÓN NORMAL
Epidemiología Clínica y Estadística Aplicada
La mayoría de las variables aleatorias que se
presentan en los estudios relacionados con las
ciencias sociales, físicas y biológicas, por
ejemplo, el peso de niños recién nacidos, talla
de jóvenes de 18 años en una determinada región,
son continuas y se distribuyen según una función
de densidad , que tiene la siguiente expresión
analítica Donde µ es la media de la
variable aleatoria y s es su desviación típica.
Este tipo de variables se dice que se distribuye
normalmente. El área bajo la función de densidad
es 1. La función de densidad, en el caso de la
distribución Normal, tiene forma de campana
Juan José de la Cruz Troca.
19Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
20Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA BÁSICA Y BIVARIANTE
Estimación de Parámetros. Error Muestral
(Error estándar) (ET). Mide la dispersión de los
estadísticos de todas las posibles muestras de la
población. Intervalos de Confianza (IC).
Valores entre los cuáles se encuentra el valor de
la población con una probabilidad p. Muestras
grandes. Se calcula a partir del
ET. Variables Cuantitativas. Si definimos el
ET como ET?/?n. Calculamos el IC de la Media
según el valor p. Para p0,95 (95). ICX ?
1,96.ET Para p0,99 (99). ICX ? 2,6.ET
Juan José de la Cruz Troca.
21Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA BÁSICA Y BIVARIANTE
Estimación de Parámetros. Variables
Cualitativas. Si definimos el ET como
ET?p(1-p)/n. Calculamos el IC del porcentaje
según el valor p. Para p0,95 (95). IC ?
1,96.ET Para p0,99 (99). IC ? 2,6.ET
Muestras pequeñas (nlt30, nlt100). Variables
Cuantitativas. Según la tabla de la t de
Student. Variables Cualitativas. Según la
tabla de la Binomial
Juan José de la Cruz Troca.
22Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA BÁSICA Y BIVARIANTE
Tipos de Hipótesis y Errores. Tipos de
Hipótesis. Hipótesis Nula (H0). Cualquier
Diferencia que observemos al azar. Hipótesis
Alternativa (H1). Difiere de H0, y es la
diferencia excesiva no atribuible al azar.
Tipos de Error. Error Tipo I (Error a).- Riesgo
de equivocarse al rechazar H0 Error Tipo II
(Error b).- Riesgo de rechazar H1 siendo
cierta.
Juan José de la Cruz Troca.
23Epidemiología Clínica y Estadística Aplicada
Situaciones entre Hipótesis y Error. H0
Cierta H1 Cierta Rechazo H0 Error Tipo
I Decisión correcta pa (0,05) p1-b (poder
o potencia) No rechazo H0 Decisión
correcta Error Tipo II p1-a pb (0,2)
Juan José de la Cruz Troca.
24Epidemiología Clínica y Estadística Aplicada
Tests Estadísticos utilizados con mayor
frecuencia entre variables cualitativas. Para
medir la posible asociación entre dos variables
cualitativas se emplea el test ji-cuadrado de
Pearson. Si tenemos un 20 de casillas con una
frecuencia esperada menor de 5 se aplica la
corrección de Yates. H0 ? x y . H1
? x ? y .
Juan José de la Cruz Troca.
25Epidemiología Clínica y Estadística Aplicada
Debemos decidir si existe evidencia
significativa de que los porcentajes de cada
categoría en cada variable son iguales (aceptamos
H0). Si rechazamos H0
entonces aceptamos H1 Calculamos
el valor ?2Pearson ?Oi-Ei2/Ei donde Oi
es el valor de frecuencias observadas y Ei el
valor esperado en cada celda. A partir de este
valor estan tabulados los valores p asociados a
cada uno de ellos y se decide si se rechaza Ho.
Juan José de la Cruz Troca.
26 Observadas Esperadas x1 x2 x
1 x2 y1 a b ny1 y1 a b ny1 y2 c d ny2
y2 c d ny2 nx1 nx2 N nx1 nx2 N
Epidemiología Clínica y Estadística Aplicada
Tablas de Frecuencia
xi Categoría variable 1, yiCategoría
variable2 ninº de casos marginales, NMuestra
total anúmero de casos de la categoría x1 de la
variable 1 y con la categoría y1 de la
2. bnúmero de casos de la categoría x2 de la
variable 1 y con la categoría y1 de la
2. cnúmero de casos de la categoría x1 de la
variable 1 y con la categoría y2 de la
2. dnúmero de casos de la categoría x2 de la
variable 1 y con la categoría y2 de la
2. a(nx1. ny1)/N b(nx2 . ny1)/N
c(nx1. ny2)/N d(nx2 . ny2)/N
Juan José de la Cruz Troca.
27Epidemiología Clínica y Estadística Aplicada
?2Pearson ?Oi-Ei2/Ei ((a-a)2/a)
((b-b)2/b) ((c-c)2/c) ((d-d)2/d)
Miramos en la tabla ?2 Lilt ?2 ltLs y obtenemos
la p asociada o error tipo I. La corrección de
Yates es ?2Yates ?(Oi-Ei-1/2)2/Ei
((a-a-0,5)2/a) ((b-b-0,5)2/b)
((c-c-0,5)2/c) ((d-d-0,5)2/d) Como
medida de Asociación usamos el valor Odds Ratio
(OR). OR (a.c)/(b.d)
Juan José de la Cruz Troca.
28Test Exacto de Fisher
- El contraste de homogeneidad mediante la prueba
Chi-Cuadrado entre dos variables cualitativas (o
también llamado contraste de independencia entre
dos variables cualitativas) se basa en la
comparación de las frecuencias obtenidas con las
frecuencias esperadas. - La prueba exacta de Fisher está basada en la
distribución exacta de los datos y no en
aproximaciones asintóticas, y presupone que los
marginales de la tabla de contingencia están
fijos. - En general, cuando las frecuencias absolutas
esperadas, en la gran mayoría de casillas o
celdas son relativamente grandes (más de 5), se
utiliza el estadístico Chi-Cuadrado para realizar
el contraste mencionado. - Cuando en un 20 de las casillas el valor
esperado no es superior a 5, el estadístico
anterior no es válido y generalmente se utiliza
la prueba exacta de Fisher. - Habitualmente, la prueba exacta de Fisher es más
conservadora que la prueba Chi-Cuadrado. - La prueba exacta de Fisher se aplica a variables
dicotómicas
29Test Exacto de Fisher
Para calcular el estadístico de contraste, se
construye en primer lugar la tabla de
contingencia de dimensiones 2x2 con las
frecuencias absolutas observadas, con la notación
siguiente
A continuación, se construyen todas las tablas de
contingencia 2x2 posibles con celdas a, b, c,
d, siendo 0 lt a lt mínc1 , f1, b f1 a, c
c1 a y d f2 c. A partir de dichas
tablas se calcula
Donde X! indica el factorial de X que se calcula
como x(x-1)(x-2)21, por ejemplo,
5!54321120.
El p-valor unilateral-izquierda es el
p-valor unilateral-derecha es
y el p-valor bilateral resultante es
30Ejemplo A partir de la tabla F1 F2 C1 4 1 5 C
2 16 21 37 20 22 42
Calcular el valor p correspondiente al Test de
Fisher 1º Calculamos la tabla para
a0 entonces 2ºº Calculamos la tabla para
a1 entonces
31 3º Calculamos la tabla para a2 entonces 4º
Calculamos la tabla para a3 Entonces Para
a4 pa40,1253 Para a5 pa50,0182
Los valores de P para cada a
a Pa 0 0.0310 1 0.1720 2 0.3440 3 0.3096 4
0.1253 5 0.0182
El valor p bilateral es
El valor p unil-izq.es
El valor p unil-der.es
32Prueba Test de Mc Nemar
Prueba no paramétrica para dos variables
dicotómicas relacionadas. Contrasta los cambios
en las respuestas utilizando la distribución de
chi-cuadrado. Es útil para detectar cambios en
las respuestas debidas a la intervención
experimental en los diseños del tipo
"antes-después o para comparar dos tipos de
tratamiento. Típicamente, un valor de
significación menor que 0,05 se considera
significativo, pero podemos establecer un nivel
de significación distinto (0,01 0,1.)
Matemáticamente el Estadístico de Mc Nemar se
define por
Nota Para el valor p, se utiliza la Tabla de
con 1 grado de libertad
33Ejemplo 1 Se ejecutó la intervención educativa
Salud bucal para modificar los conocimientos
sobre higiene bucal en alumnos de tercer grado
durante el primer semestre de 1998. La tabla
muestra los resultados obtenidos en conocimientos
generales Despues Inadecuado Adecuado Antes In
adecuado 14 102 Adecuado 0 7
34Epidemiología Clínica y Estadística Aplicada
Si hay más de un 20 de celdas con frecuencia
esperada lt 5 ó algún valor 0, muestra pequeña.
Tabla de Pruebas para variables cualitativas
Variable 1 Variable 2 Muestra Grande Muestra
pequeña Cualita. (2 cat.) Cualita. (2 cat.) ?2
de Pearson Test de Fisher Cualita. (2 ó más
cat) Cualita. (2 ó más cat) ?2 de
Pearson Correción de Yates Muestras
Relacionadas Diseños del tipo "antes-después o
para comparar dos tipos de tratamiento. Cualita.
(2 cat.) Cualita. (2 cat.)
Test de Mc Nemar
Juan José de la Cruz Troca.
35Epidemiología Clínica y Estadística Aplicada
Test Estadístico utilizado con mayor frecuencia
entre variables cualitativas y cuantitativas. Par
a medir la posible asociación entre una variable
cualitativa y una variable cuantitativa,
decidimos si existe diferencia de medias en la
variable cuantitativa según el grupo de la
variable cualitativa. Empleamos el test de la t
de Student si la variable cualitativa es
dicotómica (tiene dos categorías) y el ANOVA si
tiene más de 2 categorías. En ambos casos la
distribución de la cuantitativa se asume como
Normal. Veamos el caso de la T-student
H0 ? m1 m2 . H1 ? m1 ? m2. Si
S2((n1-1).S12) ((n2-1).S22) / (n1 n2 -2).
S? S2 t (m1 m1 )/ (S. ? (1/ n1) (1/
n2). Miramos en las tablas de la distribución t
el valor p asociado Si es lt de 0,05 rechazo
H0 (diferencia de medias estadísticamente
significativa). Si gt de 0,05 rechazo H0 (no
encontramos evidencia de que exista diferencia de
medias).
Juan José de la Cruz Troca.
36Epidemiología Clínica y Estadística Aplicada
Tipos de Pruebas Estadísticas. Paramétricas.
Para variables cuantitativas normales. No
Paramétricas. Para variables cuantitativas no
normales. TCL (Teorema Central del Límite).
Si ngt30 Distribución Normal.
Tabla de Pruebas para variables cuantitativas
Juan José de la Cruz Troca.
37Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
38Epidemiología Clínica y Estadística Aplicada
39Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
40Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
41Epidemiología Clínica y Estadística Aplicada
Teorema original de Pitágoras. (Distancias
euclídeas)