Title: Probabilit
1Probabilités et statistiques dans le traitement
de données expérimentales
E2phy Nantes 22-25/8/2006
Jacques Bouchez CEA-Saclay
premier cours rappel de probabilités second
cours estimation de paramètres, tests
dhypothèses
2Un cas concret illustrant le type de questions
que lon se pose
histogramme
a
N
?
b
a
b
-1 0 1
cos ?
loi suivie par la population de chaque bin
? corrélations entre bins? distribution plate
? dN/dcos? 1/2 a cos? compatible avec les
données? estimation de a
3Rappel de probabilités
Notion de variable aléatoire Définition et
propriétés des probabilités lois de probabilités
cas discret et continu caractérisation des lois
moyenne, variance, covariance changement de
variables somme de variables indépendantes lois
des grands nombres lois usuelles
4variable aléatoire, probabilité
Lorsque le résultat dune observation ne peut pas
être prédit avec certitude, celui-ci est décrit
par une variable aléatoire X (dont les valeurs,
ou réalisations, sont notées x) prenant ses
valeurs dans O. Les sous-ensembles de O, appelés
événements, sont munis dune mesure P (pour
probabilité). A ? O P(A) est la probabilité que
x ? A (lévénement A a eu lieu, sest produit)
P(A) ? 0,1 pour tout A P(O) 1 P(Ø)
0 P(A ? B) P(A) P(B) P(A ? B) si
A ? B Ø (evenements exclusifs) alors P(A ? B)
P(A) P(B)
O
A
B
5probabilité conditionnelle, indépendance
P(AB) est la probabilité que x ? A sachant que x
? B (probabilité de A conditionnée par B)
Formule de Bayes P(AB) P(A ? B) /P(B)
satisfait à tous les axiomes lorsquon
restreint O à B définition A
est indépendant de B si P(AB) P(A) alors
P(A?B) P(A) x P(B) et P(BA) P(B)
A et B sont indépendants IL NY A FACTORISATION
DES PROBABILITES QUE POUR DES EVENEMENTS
INDEPENDANTS exemple (météo à Nantes et
ailleurs)
6lois de probabilité
une variable aléatoire peut etre uni- ou multi-
dimensionnelle, prendre des valeurs discrètes (en
nombre fini ou infini dénombrable) ou
continues Cas discret X prend des valeurs xi
P(xi ) pi ? 0,1 ? pi 1 Cas continu
F(x) P(X x) F fonction cumulative P(X? x,
xdx) F(xdx) F(x) F (x) dx f(x) dx
f densité de probabilité
1
f(x)
1
F(x)
7cas continu, multidimensionnel densité de
probabilité multidimensionnelle
f(x,y,z) P(X?x, xdx ? Y?y, ydy ? Z?z,
zdz) f(x,y,z) dx dy dz densité de
probabilité réduite fX(x) ? dy dz
f(x,y,z) densite de probabilite conditionnelle
fC (xy0) f(x, y0) / ? dx f(x,y0) Si X et Y
sont indépendantes, alors f(x,y) fX(x)
fY(y) (factorisation ? indépendance sous
certaines conditions)
f(cos?, f ) (1 cos? sinf ) / 4p non
factorisable, non indépendants f(cos?, f) 3
cos2? sin2f / 2p 3/2 cos2? sin2f /
p factorisation, indépendance
8changement de variable aléatoire
y H(x) y nouvelle variable aléatoire liée
fonctionnellement à la variable aléatoire x (par
exemple variable initiale x ?, nouvelle
variable y cos? ) si x a pour densite de
probabilite f(x), quelle est la densite de
probabilite g(y) ? si la correspondance x ? y
est biunivoque, f(x) dx g(y) dy
g(y) f(x) /H
(x) x et y multidimensionnels H(x) remplacé
par le determinant de la matrice des derivees
partielles ?y/?x (Jacobien du changement de
variables) si correspondance non univoque, plus
compliqué (exemple yx2 g(y) f(x)
f(-x)/2x g(y) f(?y) f(-?y)
/(2?y)
9Caractéristiques des lois de probabilité
- variable aléatoire x de densité de probabilité
f(x) - valeur moyenne (espérance mathématique) x ,
ltxgt , E(x) - discret ltxgt ? pi xi continu x ?
x f(x) dx - ne pas confondre avec x médian, ou x max
(maximum de f(x) - variance, notée s2 s est appelé sigma,
écart quadratique moyen, -
incertitude, erreur, resolution.. - s2 lt(x-E(x))2gt ? (x-E(x))2 f(x) dx
ltx2gt - ltxgt2
s
Pile ou face pile x0 face x1 ltxgt 0.5 s
0.5
x
10Cas multidimensionnel covariance
densité de probabilité f(x,y) on définit ltxgt,
ltygt, s2(x) ,s2(y) et C(x,y) lt (x-E(x))
(y-E(y)gt covariance de x et y coefficient
de correlation r(x,y) C(x,y) /( s(x) s(y))
inégalite de Schwartz -1 ? r ? 1 x
et y indépendants ? C(x,y) 0 ATTENTION
réciproque fausse !! Matrice de
variance-covariance (
s2(x) C(x,y) ) V (
)
( C(x,y) s2(y) ) changement
lineaire de variable Z M X C (M et C
matrices constantes)
VZ M VX MT cas non
lineaire Formule fausse, approximation parfois
dangereuse
11Somme de variables aléatoires indépendantes
s x y f(x,y) fX(x) fY(y) ltsgt
ltxgt ltygt (vrai même si x et y corrélés) s2(s)
s2(x) s2(y) les variances sajoutent (remarqu
e d x - y s2(d) s2(x) s2(y)
) application N tirages indépendants xi selon
f(x) s ?xi s2(s) N s2(x) N s2
m s/N ltmgt ltxgt et s2(m)
s2/N premiere loi des grands nombres m tend vers
ltxgt avec une variance qui décroît en 1/N (la
précision augmente comme ?N )
12Théorème central limit
N tirages indépendants xi dont on fait la moyenne
m lorsque N ? ? ,la densité de probabilité de m
tend vers une loi universelle, la loi normale (ou
loi de Gauss) de moyenne ltxgt et de variance
s2(x)/N Gas (x)
1/s(2p)1/2 exp- (x-a)2/2s2 ou si lon
préfère, z N ½ (m -ltxgt) a pour densité de
probabilité asymptotique
G 0,1
(z) illustration loi de tirage RNDM des
ordinateurs
13 Quelques lois usuelles
14loi binomiale
N observations(N fixé) la probabilité que
lévénement A soit vrai est p n observations
satisferont lévénement A. n est une variable
aléatoire (discrète) Sa loi de probabilité sera
P(n) B N,p(n) CNn pn (1-p) N-n exercice
ltngt Np s2(n) Np(1-p) événements exclusifs A
(probabilité pA) et B (probabilité pB) nA
satisfont A, nB satisfont B ?calculer
C(nA,nB)
15Loi de Poisson
Limite de la loi binomiale lorsque N ? ?, p ? 0,
Np ? a exemple Nombre dexplosions de SN par
siècle dans notre galaxie n observations
satisfaisant le critère demande exercice
p(n) Pa (n) exp(-a) an / n! ltngt a
s2(n) a la fluctuation dune loi de Poisson de
moyenne a est la racine de a application
fluctuations sur le nombre daccidents proprietes
la somme de 2 variables aleatoires independantes
suivant chacune une loi de Poisson (de moyennes
respectives m et n) suivra une loi de Poisson de
moyenne mn Consequence (theoreme central limit)
une loi de Poisson ressemblera dautant plus a
une loi de Gauss que sa moyenne est grande.
16loi exponentielle
exemple typique temps de désintégration dune
particule instable f(t) 1/ ?exp (-t/ ?) lttgt
? s2(t) ?2
17Probabilités et statistiques dans le traitement
de données expérimentales
E2phy Nantes 22-25/8/2006
Jacques Bouchez CEA-Saclay
premier cours rappel de probabilités second
cours estimation de paramètres, tests
dhypothèses
18Un cas concret illustrant le type de questions
que lon se pose
histogramme
a
N
?
b
a
b
-1 0 1
cos ?
loi suivie par la population de chaque bin
? corrélations entre bins? distribution plate
? dN/dcos? 1/2 a cos? compatible avec les
données? estimation de a
19Estimation de paramètres
X variable aléatoire dont la densité de
probabilité f(x?) dépend dun paramètre inconnu
? . Etant donné N tirages xi de X, que peut-on
dire de ? ? But de lexercice construire une
variable aléatoire, fonction des xi , dont
lespérance mathématique sera (au moins
asymptotiquement) ? (et dont la variance sera la
plus faible possible). une telle variable est
appelée estimateur, ou encore statistique
! Biais dun estimateur de ? différence entre
son espérance et ? Un estimateur sera convergent
si le biais BN et sa variance s2N tendent vers 0
comme 1/N lorsque N ? ? Les propriétés de
convergence des estimateurs usuels découlent de
la loi des grands nombres (démonstration plus ou
moins facile) Un estimateur qui a une variance
plus faible que les autres est dit optimal et si
sa variance est le minimum théorique (théorie de
linformation), il est dit efficace. il
nexiste pas forcément destimateur efficace pour
N fini
20Estimation par méthode des moments
distribution angulaire dune collision la
densité de probabilité pour xcos? est de la
forme f(x a0, a1,,ak) S0k al Pl(x) ai
paramètres inconnus Pl(x) polynôme de Legendre
de degré l propriété de ces polynômes ?
Pm(x) Pn(x) dx dmn Je considère la variable
aléatoire z Pl(x) sa valeur moyenne est par
construction al, et sa variance V est
calculable Depuis mes N observations xi, je
détermine N valeurs zi et je construis la moyenne
des zi r 1/N S zi r a pour espérance al
et pour variance 1/N V r est un estimateur non
biaisé, convergent du paramètre inconnu al r
nest pas optimal
21Estimation par moindres carrés
Exemple je dispose de plusieurs mesures dune
règle à diverses températures Ti, et je veux
estimer son coefficient de dilatation a. Je
suppose mes diverses mesures Li indépendantes,
chacune affectée dune incertitude si Je
dispose dun modèle théorique
L(T) L0 (1 a T) avec 2 paramètres inconnus
L0 et a Problème Estimer au mieux ces 2
paramètres depuis les observations
Jestime les paramètres inconnus en prenant pour
valeurs celles qui minimisent la somme
?2 S Li L(Ti)2/si2
L
Cas général estimation biaisée,
convergente Variance-covariance des estimateurs
donnée asymptotiquement par 2 fois linverse de
la matrice des dérivées secondes au minimum
T
22Cas particulier le modèle linéaire
- Le modèle est dit linéaire si la prédiction
théorique dépend linéairement des paramètres
inconnus, et si les variances des observations ne
dépendent pas de ces parametres. Dans ce cas - la recherche du minimum se fait analytiquement
(équations linéaires) - lestimation des paramètres est non biaisée et
optimale - la matrice de variance-covariance des estimateurs
est exactement - V 2
D2-1 - subtilité de lexemple précédent le modèle nest
pas linéaire pour L0 et a - mais il est linéaire pour L0 et (L0 a) !!
- L0 et L0.a sont estimés de manière optimale, mais
pas a - Autre subtilité Lestimation de paramètres par
ajustement dun histogramme par moindres carres
nest jamais linéaire car les variances des
populations de chaque bin dépendent des
paramètres inconnus
23méthode du maximum de vraisemblance
f(x?) ? parametre inconnu. N observations xi
f(x?1)
f(x?2)
les observations xi tombent préférentiellement là
où la densité de probabilité est élevée
estimation de ? valeur maximisant le produit ?
f(xi) ou de manière équivalente la somme S log
f(xi) Cas général estimateur biaisé,
convergent. Asymptotiquement efficace variance de
lestimateur donnée asymptotiquement par
linverse de la dérivée seconde au maximum
24cas particulier Théorème de Darmois
Si f(x?) est de la forme exp a(x) b(?)
c(x) d(?) et si le domaine de variation de x ne
dépend pas de la valeur de ?, alors La méthode
du maximum de vraisemblance fournit une
estimation efficace à échantillon fini du
paramètre µ b(?)/d(?)
application le maximum de vraisemblance donne
un estimateur efficace du temps de vie dune
particule et lestimation est tout simplement la
moyenne des temps de vie observés Mais le
théorème de Darmois est rarement vérifié
(efficacités de détection, présence de bruits de
fond,.)
25Incertitudes statistiques et systématiques
La variance des estimateurs décroît comme
1/N Mais il peut exister dautres sources
dincertitude indépendantes du nombre N
dobservations. Exemple masse dune résonance en
formation Taux dinteraction en fonction de
lénergie 100 événements observes m 100 /- 8
GeV 400 événements observes m 102 /- 4
GeV mais si les ingénieurs de la machine me
disent quils connaissent lénergie du faisceau
avec une incertitude de 5 100 événements m100
/- 8 (stat) /- 5 (syst) GeV 100 /- 9.5
GeV 400 événements m103 /- 4(stat) /- 5
(syst) GeV 103 /- 6.4 GeV 10000 événements
m101 /- 0.8 (stat) /- 5 (syst) 101 /- 5.1 GeV
26Estimateurs gaussiens et degrés de confiance
si, en vertu du théorème central limit, je peux
supposer quun estimateur est distribue
gaussiennement, et comme je connais sa variance,
je peux donner des intervalles de confiance sur
le paramètre inconnu m 100 /- 5 GeV veut
alors dire lestimateur m de m0 est distribué
gaussiennement avec comme valeur moyenne m0 et
comme écart quadratique 5 GeV P(m ?m0 -5 GeV,
m0 5 GeV) 0.68 P(m ?m0 -10 GeV, m0 10 GeV)
0.954 P(m ?m0 -15 GeV, m0 15 GeV)
0.997 quon ecrit plus souvent (puisque
lestimateur m 100 GeV) P(95GeVltm0lt105GeV)
0.68 P(90GeVltm0lt110GeV) 0.954 P(85GeVltm0lt115GeV)
0.997
27test dhypothese (I) classification en 2
catégories
les observations appartiennent a 2 classes
différentes catégorie A densité de probabilité
fA(x) catégorie B densité de probabilité f
B(x) je veux sélectionner au mieux des événements
de la catégorie A ce qui veut dire que pour une
efficacité de sélection donnée, je veux la
contamination la plus faible venant de la
catégorie B (ou vice versa) exemples 1. classer
des particules entre protons et muons selon leur
pouvoir ionisant 2. mettre en
évidence un signal hypothétique faible parmi un
bruit de fond important Le critère le plus
puissant est le rapport de vraisemblance
r fA(x) /fB(x)
rgt r0 je classe dans A rlt r0 jexclus de A
(je classe dans B) je choisis la valeur de r0
selon le niveau de contamination ou defficacité
voulu
28- en pratique
- il est souvent très difficile de connaitre
complètement fA et fB - on remplace x (multidimensionnel) par un jeu
plus restreint de variables discriminantes (tout
lart du physicien! ) - on essaie de déterminer au mieux les densités de
probabilité pour ces nouvelles variables pour les
2 catégories méthodes de Monte-Carlo. - On construit un pseudo-rapport de vraisemblance
(qui sera moins puissant que le vrai). On peut
utiliser des réseaux de neurones
29test dhypothese (II)
test dhypothèse simple mes observations x
sont-elles compatibles avec lhypothèse H
complètement spécifiée ? exemple distribution
angulaire plate Test du chi2 on construit ?2
S(nk yk)2/s2(yk) on détermine (si nécessaire par
Monte Carlo) la densité de probabilité de cette
variable ?2 lorsque H est vraie. On en déduit que
dans 90 des cas , la valeur de ?2 est inferieure
à r Si la valeur mesurée pour ?2 est supérieure à
r, alors je rejette lhypothèse H a 90 de
confiance
30- Il existe des tests plus puissants que le test
du chi2 (tests de Kolmogorov, de Smirnov) - on peut aboutir a des paradoxes apparents
- une hypothèse acceptée (distribution plate) peut
être rejetée lors de lestimation de la pente (ou
vice versa) - la raison en est quon répond de manière
différente à des questions différentes
31CONCLUSIONS
- Les statistiques constituent un outil
indispensable et fondamental des - physiciens
- Il est bon de connaitre les propriétés des
outils statistiques utilisés - Mais si linterprétation dun résultat amène à
des polémiques infinies (ce qui arrive souvent),
cest que le résultat en cause est marginal, et
il vaut mieux concevoir une nouvelle expérience
plus performante plutôt que dessayer (par des
moyens qui, même inconsciemment, peuvent apporter
des biais) de grappiller quelques pourcents sur
tel estimateur ou tel niveau de confiance.