Title: Distribuci
15. Distribuciones discretas
- Qué tal van las clases,
- Bartolo? Me pregunta mi barbero.
- Bien... Dando probabilidad
- y estadística... Respondo.
- Ah! Probabilidad... Yo
- suelo jugar a la lotería...
- Dice mientras me pasa la cuchilla.
- Cuando compro un número, tal y como yo lo veo,
hay dos posibilidades ganar o perder. De modo
que tengo un 50 de - probabilidad de ganar y un 50 de perder.
- -Muy bien, Ricardo! Respondo, mientras pienso
que no es bueno contradecir a nadie que tenga una
navaja en mi cuello...
2Distribución de Bernoulli
Experimento de Bernoulli solo son posibles dos
resultados éxito o fracaso. Podemos definir una
variable aleatoria discreta X tal que éxito ?
1 fracaso ? 0
Si la probabilidad de éxito es p y la de fracaso
1 - p, podemos construir una función de
probabilidad
Un típico experimento de Bernoulli es el
lanzamiento de una moneda con probabilidad p
para cara y (1-p) para cruz.
3Función de distribución
4Ejercicio Calcular la esperanza y la varianza
de la distribución de Bernoulli.
5Distribución binomial
La distribución binomial aparece cuando estamos
interesados en el número de veces que un suceso A
ocurre (éxitos) en n intentos independientes de
un experimento. P. ej. de caras en n
lanzamientos de una moneda.
Si A tiene probabilidad p (probabilidad de éxito)
en un intento, entonces 1-p es la probabilidad de
que A no ocurra (probabilidad de fracaso).
6Experimento aleatorio n 3 lanzamientos de una
moneda. Probabilidad de éxito en cada lanzamiento
(cara) p. Probabilidad de fracaso en cada
lanzamiento (cruz) 1- p q.
7Supongamos que el experimento consta de n
intentos y definamos la variable aleatoria X
Número de veces que ocurre A. En nuestro
ejemplo X Número de veces que sale cara.
Entonces X puede tomar los valores 0, 1, 2, ... n.
Si consideramos uno de estos valores, digamos el
valor x , i.e. en x de los n intentos ocurre A y
en n - x no. Entonces la probabilidad de cada
posible ordenación es pxqn-x y existen
idénticas ordenaciones.
8La función de probabilidad P(X x) será la
distribución binomial
9(No Transcript)
10Tablero de Galton o quincunx
Sir Francis Galton(1822-1911)
Quincunx
11Ejercicio Cuál es la probabilidad de que en
una familia de 4 hijos exactamente 2 sean niñas?
12Ejercicio Si una décima parte de personas tiene
cierto grupo sanguíneo, cuál es la probabilidad
de que entre 100 personas escogidas al azar
exactamente 8 de ellas pertenezcan a este grupo
sanguíneo?
13Y si la pregunta es 8 como máximo?
14Calcula la probabilidad de obtener al menos dos
seises al lanzar un dado cuatro veces.
p 1/6, q 5/6, n 4
Al menos dos seises, implica que nos valen k 2,
3, 4. P(2) P(3) P (4)
15Ejercicio Supongamos que la probabilidad de
encontrar una estrella de masa m gt10 M? en un
cúmulo estelar joven es del 4. Cuál es la
probabilidad de que en una muestra escogida al
azar, entre 10 miembros del cúmulo encontremos 3
estrellas con m gt10 M??
16Chuck-a-luck Elige un número entre 1 y 6. Lanzas
3 dados. Si el número que has elegido sale en
los 3 dados cobras 3 euros. Si sale en 2 cobras
2 euros. Si sale en un dado cobras 1 euro. Y si
no sale en ninguno, pagas 1 euro. Es un juego
justo?
17Características de la distribución binomial
- Media
- E(X) n p
- 5 0.1 0.5
- 5 0.5 0.25
n 5 p 0.1
P(X)
.6
.4
.2
0
X
0
1
2
3
4
5
Desviación estándar
n 5 p 0.5
P(X)
.6
.4
.2
X
0
0
1
2
3
4
5
18(No Transcript)
19Distribución multinomial
Cuando hay más de dos acontecimientos posibles
(A1, A2, A3 ...) con probabilidades p1 , p2 ,
p3 ... constantes y tales que
20Un método de diagnóstico tiene 3 resultados
posibles positivo (P), negativo (N) y dudoso
(D). Se sabe que, en la población, el 10 de los
sujetos son positivos, el 70 negativos y el
resto dudosos. Qué probabilidad hay de, en una
muestra de 5 individuos, obtener exactamente 1
positivo, 1 negativo y 3 dudosos ?
21Distribución geométrica
- Consideremos el siguiente experimento
- Partimos de un experimento de Bernoulli donde la
- probabilidad de que ocurra un suceso es
- p (éxito) y la probabilidad de que no ocurra
- q 1- p (fracaso). Repetimos nuestro experimento
- hasta conseguir el primer éxito. Definimos la
variable - aleatoria X, como el número de fracasos hasta que
- se obtiene el primer éxito. Entonces
22p(x)
x
Función de distribución
23Cómo simular de manera sencilla en el ordenador
una variable aleatoria binomial X? Sumando n
variables aleatorias independientes cuyos
valores pueden ser 1 o 0, con probabilidad p y
1-p respectivamente.
Y cómo simular una distribución geométrica de
parámetro p? Una manera es generar una
secuencia de números aleatorios en 0, 1) con la
función rnd, y paramos cuando obtengamos un
número que no exceda a p, que es el equivalente
al primer éxito. El problema es que si p es
pequeño, en promedio se necesitan 1/p pasos de
tiempo y se consume mucho tiempo de cómputo.
24Una forma alternativa con tiempo de cómputo
independiente del valor de p sería Sea q 1-
p y definamos la variable Y como el menor entero
que satisface
Entonces tenemos
De modo que Y está distribuida geométricamente
con parámetro p.
25Para generar Y, basta con que despejemos de
26(No Transcript)
27Un acontecimiento ocurre, en la población, en el
10 de los casos. Qué tamaño de muestra debo
tomar para tener una probabilidad del 95 de
obtener al menos un éxito ?
28Distribución binomial negativa(de Pascal o de
Pólya)
- Consideremos el siguiente experimento
- Partimos de un experimento de Bernoulli donde la
probabilidad - de que ocurra un suceso es p (éxito) y la
probabilidad de que - no ocurra q 1- p (fracaso). Repetimos nuestro
experimento - hasta conseguir el r-ésimo éxito. Definimos la
variable - aleatoria X, como el número de fracasos x hasta
que se - obtiene el r-ésimo éxito. Entonces
El último tiene que ser un éxito.
Se denomina binomial negativa porque los
coeficiente provienen de la serie binomial
negativa
29Distribución binomial negativa(de Pascal o de
Pólya)
La distribución binomial negativa también se
puede definir como el número de pruebas x hasta
la aparición de r éxitos. Como el número de
pruebas x, en este caso, contabiliza tanto los
éxitos como los fracasos se tendría según ésta
definición que
30Disponemos de una moneda trucada con probabilidad
de cara igual a p0.25. La lanzamos hasta que
obtenemos 2 caras. La distribución del número de
lanzamientos x será
P(x)
x
31Elegir al azar con reemplazo
Elegir al azar con reemplazo significa que
escogemos al azar un elemento de un conjunto y lo
regresamos para elegir de nuevo al azar. Esto
garantiza la independencia de las elecciones y
nos lleva a una distribución binomial.
Si una caja contiene N bolas de las cuales A son
rojas, entonces la probabilidad de escoger al
azar una bola roja es p A/N.
Si repetimos el experimento sacando n bolas con
reemplazo la probabilidad de que x sean rojas es
(Una distribución binomial)
32Elegir al azar sin reemplazo
Elegir al azar sin reemplazo significa que no
devolvemos el elemento elegido al azar al
conjunto. De modo que las probabilidades de la
siguiente elección dependen de las anteriores.
Si repetimos el experimento anterior sacando n
bolas sin reemplazo, cuál será ahora la
probabilidad de que x sean rojas?
Para calcular los casos favorables observa que N
A (N A). De las A bolas rojas tomaremos x y
de las N A bolas no rojas tomaremos n x.
33Distribución hipergeométrica
34Queremos seleccionar al azar dos bolas de una
caja que contiene 10 bolas, tres de las cuales
son rojas. Encuentra la función de probabilidad
de la variable aleatoria X Número de bolas
rojas en cada elección (con y sin reemplazo).
Tenemos N 10, A 3, N - A 7, n 2
Escogemos con reemplazo
Escogemos sin reemplazo
35Hipergeométrica
Binomial
N 24
n 5
X 8
p 8/24 1/3
Observa que si N, A, N-A son grandes comparados
con n no hay gran diferencia en qué distribución
empleemos. La distribución binomial es una
aproximación aceptable a la hipergeométrica si
n lt 5 de N.
n 5
Error
P(x)
P(x)
x
-0.0289
0
0.1028
0.1317
0.0133
1
0.3426
0.3292
0.0397
2
0.3689
0.3292
-0.0065
3
0.1581
0.1646
-0.0148
4
0.0264
0.0412
-0.0028
5
0.0013
0.0041
N 240
n 5
X 80
p 80/240 1/3
n 5
x
P(x)
Error
P(x)
-0.0028
0
0.1289
0.1317
0.0014
1
0.3306
0.3292
0.0035
2
0.3327
0.3292
-0.0004
3
0.1642
0.1646
-0.0014
4
0.0398
0.0412
-0.0003
5
0.0038
0.0041
36Distribución de Poisson
- Cuando en una distribución binomial el número de
intentos (n) - es grande y la probabilidad de éxito (p) es
pequeña, la - distribución binomial converge a la distribución
de Poisson -
donde np ?
Observa que si p es pequeña, el éxito es un
suceso raro. La distribución de Poisson, junto
con la uniforme y la binomial, son las
distribuciones más utilizadas.
37Un proceso poissoniano es aquél compuesto de
eventos discretos que son independientes en el
espacio y/o en el tiempo. Por ejemplo la llegada
de fotones a un detector. Usemos la distribución
binomial para modelar el proceso. Podemos dividir
el intervalo de tiempo en el que ocurre el
proceso en n subintervalos suficientemente
pequeños, como para asegurarnos que a lo sumo se
produce un evento en cada subintervalo. De modo
que en cada subintervalo, o se producen 0 o 1
ocurrencias. A lo sumo llega un fotón en cada
subintervalo o ninguno. De modo que podemos
entender el proceso como un experimento de
Bernoulli. Para determinar p, podemos razonar de
la siguiente manera
38En promedio se producirán ?t ocurrencias en un
intervalo de tiempo t. Si este intervalo se
divide en n subintervalos, entonces esperaríamos
en promedio (usando Bernoulli) np ocurrencias.
Así ?t np, p ?t / n. Sin pérdida de
generalidad supongamos que t 1 y que X es la
variable aleatoria número total de
ocurrencias. Sabemos que
Observa que para n grande P(X 0) es
aproximadamente e-?. Además para n grande (y por
tanto p muy pequeño)
39Tenemos entonces la siguiente ecuación iterada
Que nos proporciona
40Bombas sobre Londres en la II Guerra Mundial
(Feller)
Supón que vivías en uno de los 100 bloques que
aparecen en la gráfica inferior. La probabilidad
de que una bomba cayera en tu bloque era 1/100.
Como cayeron 400 bombas, podemos entender el
número de impactos en tu bloque como el número de
éxitos en un experimento de Bernoulli con n 400
y p 1/100. Podemos usar una Poisson con ?400
1/1004
400 bombas
Observado
Predicho
10 x 10
41Características de la distribución de Poisson
Media
?? 0.5
P(X)
.6
?
?
E
X
?
?
(
)
.4
.2
X
0
Desviación estándar
1
2
3
4
5
0
?
?
?
?? 6
P(X)
.6
.4
Nota el máximo de la distribución se encuentra
en x ? ?
.2
X
0
2
4
6
8
10
0
42La distribución de Poisson se obtiene como
aproximación de una distribución binomial con la
misma media, para n grande (n gt 30) y p
pequeño (p lt 0,1). Queda caracterizada por un
único parámetro µ (que es a su vez su media y
varianza). ? ? n p ?
Distribución de Poisson para varios valores de ?.
43Si la probabilidad de fabricar un televisor
defectuoso es p 0.01, cuál es la probabilidad
de que en un lote de 100 televisores contenga más
de 2 televisores defectuosos?
La distribución binomial nos daría el resultado
exacto
El suceso complementario Ac No más de 2
televisores defectuosos puede aproximarse con una
distribución de Poisson con ? np 1, sumando
p(0) p(1) p(2).
44La señal promedio recibida en un telescopio de
una fuente celeste es de 10 fotones por segundo.
Calcular la probabilidad de recibir 7 fotones en
un segundo dado.
45Si en promedio, entran 2 coches por minuto en un
garaje, cuál es la probabilidad de que durante
un minuto entren 4 o más coches?
46(No Transcript)
47 Ley de Benford
48Primer dígito significativo
0,0174
299.959
1,74 10-2 1,74 1
2,99959 105 2,99959 2
49Las barras negras representan las frecuencias de
aparición como primer dígito significativo (d
1,2,3,...,9) en una lista de N 201 constantes
físicas.
50En barras blancas aparecen las frecuencias de
aparición como primer dígito de los números 1 a 9
en el tamaño en bytes de N 1.295.777 ficheros.
51Simon Newcomb (1835-1909).
Note on the frequency of use of the different
digits in natural numbers. Amer. J. Math. 4
(1881) 39-40.
52Frank Benford
1
Sampls
9
8
7
6
5
4
3
2
Title
335
5.1
4.2
5.5
8.6
7.2
11.3
10.7
16.4
31.0
Rivers, Area
3259
2.2
3.7
4.1
6.2
7.2
8.1
14.2
20.4
33.9
Population
104
10.6
2.9
1.0
5.8
10.6
8.6
4.8
14.4
41.3
Constants
100
5.0
5.0
6.0
6.0
8.0
10.0
12.0
18.0
30.0
Newspapers
1389
4.1
4.8
3.2
4.1
10.6
14.6
16.2
18.4
24.0
Specific Heat
703
4.7
4.4
5.7
6.4
8.3
9.8
12.8
18.3
29.6
Pressure
690
3.6
5.1
5.1
7.0
8.1
10.8
11.9
18.4
30.0
H.P. Lost
1800
3.2
2.8
4.1
5.1
6.7
10.8
15.4
25.2
26.7
Mol. Wgt.
159
1.9
2.5
5.0
5.0
8.2
12.6
13.8
23.9
27.1
Drainage
91
5.5
4.4
3.3
4.4
6.6
4.4
5.5
18.7
47.2
Atomic Wgt.
5000
8.9
8.0
7.2
6.8
6.6
6.8
9.7
20.3
25.7
,
560
5.6
7.3
7.0
8.4
8.3
7.5
14.3
14.8
26.8
Design
308
4.2
4.9
5.5
6.5
7.1
7.5
12.4
18.5
33.4
Reader's Digest
741
3.1
5.5
4.7
5.5
9.8
10.1
10.1
18.8
32.4
Cost Data
707
4.8
5.8
5.1
7.4
8.1
9.0
14.4
17.5
27.9
X-Ray Volts
1458
3.0
5.6
4.9
6.4
7.4
9.8
12.6
17.6
32.7
Am. League
1165
5.4
4.7
5.2
7.0
6.6
8.7
14.1
17.3
31.0
Blackbody
342
5.0
5.0
5.6
6.4
8.5
8.8
12.6
19.2
28.9
Addresses
The law of anomalous numbers. Proc. Am. Philos.
Soc. 78 (1938) 551-538.
900
5.5
7.1
6.8
8.8
8.5
10.0
12.0
16.0
25.3
,
418
4.1
4.8
7.2
6.5
6.7
9.4
15.7
18.6
27.0
Death Rate
1011
4.7
4.9
5.1
6.4
8.0
9.4
12.4
18.5
30.6
Average
Probable Error
53(No Transcript)
54Las barras representan las frecuencias de
aparición como primer dígito de los números 10 a
99 en los N 1.295.777 ficheros medidos. La
línea continua representa la ley de Benford
generalizada para dos dígitos.
55Invarianza de base y de escala en la densidad de
probabilidad
Theodore Hill
Invarianza de escala
Invarianza de base
No toda lista de números que cumple la Ley de
Benford proviene de una distribución invariante
de escala. Pero seguro que es invariante de base.
56Procesos multiplicativos
57? -1
5 décadas
5 décadas
58Para una lista de números que siga una
distribución de probabilidad en forma de ley de
potencias N-1, tendremos que la probabilidad del
primer dígito significativo es independiente de
la década y sigue la ley de Benford
Normalizando
59The demonstration of Benfords Law (and also for
the distribution of the second digit) was done in
1996 by Professor Theodore Hill (School of
Mathematics, Center for Applied Probability,
Georgia Institute of Technology) in his article
A Statistical Derivation of the
Significant-Digit law. Hill later showed there
was a kind of central limit theorem that applied
to a wide variety of distributions--that
combinations of distributions tend towards the
distribution predicted by Benfords law even when
the original distributions do not Hill1996.