De lpistmologie de la statistique vers sa didactique dans lenseignement secondaire - PowerPoint PPT Presentation

1 / 80
About This Presentation
Title:

De lpistmologie de la statistique vers sa didactique dans lenseignement secondaire

Description:

en astronomie et g od sie avant 1827. La m thode des moindres carr s ... En plus des conditions admises par ce dernier, il en rajoute une autre : dans le ... – PowerPoint PPT presentation

Number of Views:224
Avg rating:3.0/5.0
Slides: 81
Provided by: andrpr
Category:

less

Transcript and Presenter's Notes

Title: De lpistmologie de la statistique vers sa didactique dans lenseignement secondaire


1
De lépistémologie de la statistique vers sa
didactique dans lenseignement secondaire
  • André PRESSIAT
  • IUFM dOrléans-Tours INRP

2
1 - Intervention des probabilités dans une
problématique statistique en astronomie et
géodésie avant 1827
  • La méthode des moindres carrés et la combinaison
    des observations
  • Les probabilistes et la mesure de lincertitude

La probabilité inverse
 La synthèse de Gauss et Laplace
3
2 - La lutte pour étendre le calcul des
probabilités aux sciences sociales
 Deux tentatives de Quételet
Tentatives pour raviver la loi binomiale
En contrepoint la psychophysique
4
3 - Une percée capitale dans les études sur
lhérédité
La percée anglaise Galton
La génération suivante Edgeworth
Pearson et Yule les moindres carrés et la
deuxième synthèse
5
La méthode des moindres carrés
Extrait de louvrage Linear Algebra and its
applications de G. Strang,paragraphe intitulé
Projections onto subspaces and least squares
approxiations
 Jusquici, un système Ax b a une solution ou
nen a pas. Si b nest pas dans lespace des
colonnes R(A), le système est impossible, et la
méthode délimination de Gauss échoue. Cest
presque certainement le cas pour un système de m
équations, m gt 1, à une seule inconnue. Par
exemple, le système
na une solution que si le second membre est dans
le ratio 234.
6
En dépit de leur insolvabilité, de tels systèmes
interviennent dans la pratique et doivent être
résolus.
Une possibilité consiste à déterminer x à partir
dune équation et dignorer les autres cest
difficile à justifier si les m équations viennent
de la même source.
Plutôt que despérer aucune erreur pour certaines
équations et dattendre de grandes erreurs pour
les autres, il est plus raisonnable de choisir x
de manière à minimiser lerreur moyenne dans les
m équations. Il y a plusieurs moyens pour
définir une telle moyenne, mais la plus pratique
consiste à utiliser la somme de carrés
7
Sil y a une solution exacte à Ax b, lerreur
minimale E est nulle. Dans le cas plus probable
où b n est pas proportionnel à a, la fonction E2
a un minimum au point x0 où sa dérivée sannule
 Après avoir donné  linterprétation géométrique
de la solution (x0 a est le projeté orthogonal de
b sur le droite de base a), lauteur propose un
exercice
Supposons que lon observe le poids dun patient
dans quatre différentes occasions, avec les
résultats suivants
La solution est la moyenne arithmétique des
données.
8
  • De tels systèmes impossibles sont apparus au
    XVIIIe siècle en astronomie et géodésie
  • T. Mayer et le mouvement de la Lune (1750)
  • L. Euler et les irrégularités des mouvements de
    Saturne et Jupiter (1749)
  • P. S. Laplace sur le même sujet (1787)
  • Boscovich et Laplace sur la forme de la Terre
    (1760 et 1789 respectivement)
  • A-M. Legendre sur les orbites des planètes
    (1805).

9
Tobias Mayer et le mouvement de la Lune (1750)
M cratère lunaire a mesure arc AP h mesure
arc AM b mesure arc ML (latitude de M) g
mesure arc WB k mesure arc WF, où F est un
point de larc WN q mesure arc FN
Mayer mesure g, h et k. Il cherche à déterminer
a, q et b.En utilisant les formules de
trigonométrie sphérique, ainsi que
lapproximation entre un petit angle et son
sinus, il établit la relation
Mais ses mesures lui donnent 27 équations !
10
Mayer regroupe les 27 équations en 3 groupes de
9 Groupe 1 coefficient de a proche de
1Groupe 2 coefficient de a proche de
1Groupe 3 coefficient de a proche de 0.Il
résout le système 3 ? 3 ainsi obtenu en
additionnant les 9 équations de chaque groupe
11
Il trouve a 1 30 , q 345  et b
1433 . Il évalue la précision de sa mesure, en
supposant que lerreur sur chacune des constantes
est en relation inverse avec le nombre
dobservations. Son calcul correspond à la
formule suivante
où X1 est une détermination faite à partir de 3
équations au lieu des 27 et où n est égal à 9. Ce
calcul apparaît aujourdhui comme trop optimiste.
Le travail de Mayer était motivé par des raisons
commerciales et militaires.
12
Euler et les irrégularités de Saturne et Jupiter
(1749)
Travail non motivé par des raisons commerciales.
En étudiant le mouvement de Saturne, il tombe sur
un système de 56 équations linéaires à 8
inconnues, équations élaborées à partir
dobservations complètes pour 56 années durant la
période 1582-1745.
Il remarque que les coefficients, à lexception
de deux des inconnues n et u, sont à peu près
périodiques, avec une période de 59 ans.
Il soustrait léquation relative à 1703 de celle
pour 1585 (2 ? 59 ans), et celle relative à 1732
de celle de 1673 (59 ans), et il obtient deux
équations où ne figurent que les inconnues n et
u. Il résout le système, et contrôle ses
résultats avec un autre ensemble de quatre
équations ainsi choisies.
13
Il a essayé de faire pareil pour les autres
inconnues, mais na pas réussi à trouver
différents ensembles de 4 équations pour
contrôler ses résultats.
Il est arrivé à un système de 6 équations à 2
inconnues, mais a conclu quil ne pouvait rien en
tirer, avec largument suivant  la raison,
peut-être, est que jai essayé de satisfaire
plusieurs observations exactement, alors que
jaurais sans doute dû les satisfaire
approximativement  et cette erreur sest alors
multipliée.
14
Mayer (1750) Euler (1749)
Système impossible de 27 équations à 3 inconnues
Système impossible de 56 équations à 8 inconnues
Tâtonne.Travaille avec un petit nombre
déquations, en général égal au nombre
dinconnues recherchées.Naccepte une réponse
numérique que si différents petits systèmes
conduisent sensiblement au même résultat.
Combine de manière à obtenir 3 équations à 3
inconnues.Travaille avec toutes les équations.
Approche le problème en tant quastronome
praticien,traitant les observations quil avait
lui-même faites, dans des conditions quil
estimait similaires, malgré des conditions
astronomiques différentes.
Approche le problème en tant que mathématicien,
traitant des observations faites par dautres,
pendant plusieurs siècles, dans des conditions
inconnues.
15
Mayer (1750) Euler (1749)
Peut considérer les erreurs ou variations dans
ses observations comme aléatoires (même si aucune
considération probabiliste nest introduite).
Ne peut accepter une telle attitude à légard de
ses données.
Est capable de franchir le pas consistant à
agréger des équations sans avoir peur que les
mauvaises observations contaminent les bonnes.
Se méfie de la combinaison déquations.
Adopte lopinion du mathématicien pensant que les
erreurs augmentent avec lagrégation,plutôt que
celle du statisticien qui pense que les erreurs
aléatoires tendent à se compenser.
À comparer avec les actions des enfants dans la
situation de Guy Brousseau
Aborde le problème avec la conviction quune
combinaison dobservations va augmenter la
précision du résultat en proportion du nombre
déquations combinées.
16
Pendant longtemps, les mathématiciens ont pensé
en terme derreur maximum dans un calcul
complexe, plutôt quen terme derreur probable,
en terme de marges absolues derreurs (qui
augmentent avec lagrégation) plutôt quen terme
de tailles derreurs probables (qui ne le font
pas).
Exemple Une quantité est obtenue en ajoutant
quatre nombres avec pour chacun une erreur de 2
unités.
Erreur sur la somme 4 ? 2 u.Plus longue est la
chaîne de calculs, plus grande est lerreur
possible.
La théorie statistique ultérieure montrera que
sous certaines conditions, lerreur probable peut
être beaucoup plus faible (2u dans certains cas),
et que lerreur probable sur la moyenne va
vraiment décroître.
Mayer a compris ces résultats, qualitativement. Ce
tte expérience directe a manqué à Euler.
17
Laplace améliore la méthode de Mayer (1787)
Même problème que celui traité par Euler le
mouvement de Saturne. Système linéaire
impossible de 24 équations à 4 inconnues.
où les inconnues sont w, x, y, z.
Alors que Mayer avait seulement ajouté ses
équations à lintérieur de sous-systèmes
disjoints, Laplace combine les mêmes équations de
plusieurs manières.
kij système de multiplicateurs, j variant de 1
à 4 (nombre dinconnues), kij 0, 1 ou 1.
18
Mayer collait à la vieille tradition par le fait
quil traitait séparément les équations résultant
dobservations faites dans des conditions
différentes, et ceci jusquà la toute fin de son
analyse.
Laplace est allé plus loin en combinant toutes
les observations dès le premier stade de son
analyse, et en faisant en sorte que tous les
coefficients aient une influence sur la manière
de combiner les équations.
La méthode de Laplace est plus facile à
décontextualiser, sa portée plus grande.
19
Boscovich et la forme de la Terre (1760)
Dans ses travaux de 1755 système linéaire
impossible de 5 équations à 2 inconnues, de la
forme
ai longueur de 1 de latitude centrée à la
latitude qz longueur du degré à léquateury
excès de la longueur dun degré au pôle par
rapport à léquateur.Lexcentricité e est telle
que 1/e 3z/y
Il regroupe les équations 2 à 2, fait la moyenne
des solutions, qui lui paraît trop grande. Il
rejette les valeurs extrêmes, refait la moyenne
puis sintéresse aux écarts à la moyenne qui lui
paraissent trop grands.
Il conclut que ses résultats plaident contre la
forme ellipsoïdale, mais nest pas satisfait.
20
Dans les années 1757-1760, il cherche un critère
de meilleure combinaison.
En écrivant les équations précédentes sous une
forme mettant en évidence la  correction dai
qu il compte faire subir à ai
il choisit les critères suivants
et il donne une solution graphique pour trouver y
et z, dont la justification fait appel à la
mécanique.
Laxe horizontal donne les sin2qiLaxe vertical
les ai, notés a, b, c, d et e.G désigne le
centre de gravité des 5 points. La solution est
la droite Ga, lexcentricité correspondante est
1/248.
21
Laplace et la méthode de situation (1789)
Laplace reprend la méthode de Boscovich, mais
sous forme analytique.Il donne une preuve
algébrique du fait que lalgorithme graphique de
Boscovich donne bien la solution.
Il considère les arcs entiers et pas seulement
ceux correspondant à 1, pour donner à chacun des
arcs entiers davantage dinfluence dans le calcul
de e.
22
Legendre et la méthode des moindres carrés (1805)
Au début 1799, il navait pas encore découvert sa
méthode sa préface pour un ouvrage de Delambre
en témoigne, et reprend le point de vue de Mayer.
(Delambre et Méchain ont alors mesuré le méridien
Dunkerque - Montjouy, dans le but de définir le
mètre).
En 1805, il sintéresse aux orbites de comètes.
Extrait  Dans la plupart des questions où il
sagit de tirer des mesures données par
lobservation, les résultats les plus exacts
quelles peuvent offrir, on est presque toujours
conduit à un système déquations de la forme
23
dans lesquelles a, b, c, f, c. sont des
coefficients connus, qui varient dune équation à
lautre, et x, y, z, c. sont des inconnues
qu il faut déterminer par la condition que la
valeur de E se réduise, pour chaque équation, à
une quantité ou nulle ou très petite.
Si lon a autant déquations que dinconnues
x, y, z, c., il n y a aucune difficulté pour la
détermination de ces inconnues, et on peut rendre
les erreurs E absolument nulles. Mais le plus
souvent, le nombre déquations est supérieur à
celui des inconnues, et il est impossible
danéantir toutes les erreurs.
Dans cette circonstance, qui est celle de la
plupart des problèmes physiques et astronomiques,
où lon cherche à déterminer quelques éléments
importants, il entre nécessairement de
larbitraire dans la distribution des erreurs, et
on ne doit pas sattendre que toutes les
hypothèses conduiront exactement aux mêmes
résultats
24
mais il faut surtout faire en sorte que les
erreurs extrêmes, sans avoir égard à leurs
signes, soient renfermées dans les limites les
plus étroites quil est possible.
De tous les principes quon peut proposer
pour cet objet, je pense quil nen est pas de
plus général, de plus exact, ni dune application
plus facile que celui dont nous avons fait usage
dans les recherches précédentes, et qui consiste
à rendre minimum la somme des carrés des erreurs.
Par ce moyen, il sétablit entre les erreurs une
sorte déquilibre qui empêchant les extrêmes de
prévaloir, est très propre à faire connaître
létat du système le plus proche de la vérité.
/ Lapplication que nous allons faire de cette
méthode à la mesure de la méridienne achèvera de
mettre dans tout son jour sa simplicité et sa
fécondité.
25
Legendre applique sa méthode à la détermination
de la forme de la Terre, le système ayant une
forme différente de celle de Laplace, mais
équivalente.
26
Combinaison des observationsMayer
CritèreBoscovich
Moindres carrésLegendre
Dans tous les travaux qui précèdent - pas
demploi des probabilités, - pas de tentatives
de quantification de lincertitude dans les
estimations (à lexception de Mayer). Ceci va
être fait dans les deux décades qui suivent.
27
2. Les probabilistes et la mesure de lincertitude
Travaux antérieurs les plus marquants Jacob
Bernoulli Ars Conjectandi (1713) Abraham De
Moivre The Doctrine of Chances (1730)
Jacob Bernoulli
Dans son introduction à la démonstration de la
loi faible des grands nombres, il remarque que,
dans les jeux de dés ou de tirages dans une urne,
la détermination des probabilités a priori ne
pose pas de problème il suffit de prendre le
ratio entre le nombre de tirages fertiles et le
nombre total de tirages ou le ratio entre le
nombre de tirages fertiles et le nombre de
tirages stériles.
Mais alors que faire dans des problèmes
concernant les maladies, la météo, où les causes
sont cachées, et lénumération des cas
équiprobables est impossible ?
28
Il ajoute Ce serait un signe daliénation
mentale que dessayer dapprendre quelque chose
de cette manière .
Au lieu de cela, il propose de déterminer la
probabilité dun cas favorable a posteriori
on peut supposer quune chose particulière se
produira ou non autant de fois quelle sest
produite ou non dans le passé, dans des
circonstances semblables .
La proportion de cas favorables peut donc être
déterminée empiriquement.
Loriginalité de la tentative de Bernoulli
consiste à donner un traitement formel de la
vague notion quil décrit ainsi
29
 Même pour le plus stupide des hommes, par
quelque instinct de la nature, par lui-même et
sans aucune instruction (et cest une chose
remarquable), est convaincu que plus on fait
dobservations, moins on risque de sécarter de
notre but .
Bernoulli veut démontrer ce principe, et montrer
que la certitude morale à propos de la
proportion inconnue peut être approchée daussi
près que lon veut.
Urne 3000 galets blancs 2000 galets noirsOn
tire un galet, avec remise.On regarde combien de
fois on tire un galet blanc, combien de fois on
tire un galet noir.
30
QuestionPeut-on tirer un nombre suffisant de
fois de manière à ce quil devienne 10 fois, 100
fois, 1000 fois plus probable que les nombres de
galets blancs et noirs tirés soient dans le ratio
32 plutôt que dans tout autre ratio ?
Bernoulli précise  Pour éviter les
malentendus, on doit noter que le ratio que nous
essayons de déterminer expérimentalement ne doit
pas être considéré comme précis et indivisible
(sinon, cest le contraire qui se produirait, et
il deviendrait moins probable que le vrai ratio
soit trouvé en augmentant les observations). Ce
que lon veut, en revanche, cest un ratio pris
avec quelque latitude, cest-à-dire situé entre
deux limites qui peuvent être aussi proches lune
de lautre que lon veut.
31
Par exemple, on prend deux ratios 301200 et
299200 ou 30012000 et 29992000 lun qui est
immédiatement supérieur et lautre immédiatement
inférieur au ratio 32. On prouvera que lon
peut rendre plus probable que le ratio trouvé
après des expériences répétées tombe entre ces
limites plutôt quil tombe à lextérieur.
Traduction moderne
32
Premier exemple dune estimation par intervalle
dune probabilité
Avec des notations modernes, il sintéresse à
linégalité
Dans sa démonstration, il prend des limites e qui
ne sont pas arbitraires (e 1/(r s)), et il
considère des N de la forme n(r s), tels que Np
( nr) et Ne ( n) soient des entiers.
Voir G.B.
Il découpe lensemble des valeurs prises par X en
intervalles de longueur Ne ( n).
33
Np Np Ne Np 2Ne
nr nr n nr 2n
Sa démonstration sintéresse aux probabilités
pour que X appartienne aux intervalles ., Np
Np Ne, Np Ne Np 2Ne , quil
désigne par A0, A1, ... Ak, , et cherche un h
(tendant vers 0 quand N tend vers 8) tel que pour
tout k, Ak1 lt h Ak ...
Il traite un exemple r 30 s 20 p 3/5 e
1/50Il trouve N 25 550 pour c 1000.
Traduction moderne
34
Raisons de léchec de Bernoulli
  • 25 550 est à lépoque un nombre astronomique,
    infini dans la pratique. (Lemploi de linégalité
    de Bienaymé Tchebichev donne 600 600).
  • Dailleurs, Bernoulli renonce a publier ses
    résultats.
  • Le niveau de confiance quil se fixe est très
    élevé 1000 contre 1alors quon se contente
    souvent de 20 contre 1.(à 1 contre 1, il lui
    aurait fallu 8400 expériences).

35
De Moivre et le développement du binôme
Approximation de P(X k) X suivant la loi
binomiale de paramètre n et 1/2, dans le cas où n
est pair
En utilisant le développement du binôme (1 1)n,
et une approximation de n! analogue à la formule
de Stirling, il établit (avec des notations
modernes)
Puis il sintéresse à P(X n/2 l), lorsque n
est grand par rapport à l, et en trouve une
approximation
36
De Moivre pense la distribution binomiale
B(n,1/2) comme une courbe, dont il localise les
points dinflexion ils sont à une distance
approximative de 1/2n1/2 du terme maximum.
En approximant cette courbe à laide d une
parabole, il obtient en 1733 une valeur
approchée de la somme des P(X k) lorsque k
varie de n/2  1/2n1/2 à n/2  1/2n1/2, dans le
cas particulier où n 900 avec des notations
modernes, son résultat sécrit
(en approximant avec la loi normale, on trouve
0,68269).
37
intégrale quil calcule en intégrant terme à
terme un développement en série pour les faibles
valeurs de s, et avec des formules
dapproximation dune intégrale pour les valeurs
plus grandes.
38
Début de réalisation du résultat la précision
augmente comme la racine carrée de la taille de
léchantillon.
Les lacunes du travail de De Moivre
  • Il ne permet pas de répondre aux questions que
    les scientifiques se posent fréquemment et
    naturellement.

Supposons quon sache que sur 346 hommes de 50
ans, 142 seulement survivent à 60 ans.
Le travail de De Moivre permet de répondre à la
question Si la probabilité de survie de 50 à 60
ans est de 1/2, quelle est la probabilité quun
ratio aussi faible que 142/346 ou encore plus
faible se réalise ?
39
Mais il ne permet pas de répondre à la question
 Quel niveau de confiance puis-je donner au
ratio 142/346 comme estimation de la probabilité
de survivre de 50 à 60 ans ? ,question que se
pose les praticiens.
De telles questions nauront une réponse que plus
dun demi-siècle après la mort de De Moivre (1754)
Ses calculs ne contiennent aucun germe de
probabilité inverse. Pour De Moivre, le hasard
est dans les données, pas dans les probabilités
sous-jacentes. Le succès dans le traitement du
problème dinférence exige quon abandonne cette
vision.
40
  • Il focalise son attention sur la distribution
    binomiale. Or si sa description est simple du
    point de vue mathématique, il nen est pas de
    même du problème dinférence associé.

Distinguer un problème de probabilités dun
problème de statistique la réponse de J. Neyman
Probabilités Si dans un problème donné, la
question consiste à savoir avec quelle fréquence
quelque chose se produit dans des conditions
spécifiées, alors ce problème est un problème de
probabilités.Exemple calculer la probabilité
d une éventuelle ruine quand on joue dune
certaine manière.
41
Statistique Dautre part, si le problème
consiste à déterminer une règle de comportement
inductif satisfaisant certaines conditions
(souvent précisées en terme de probabilités),
alors on a affaire à un problème de
statistique.Exemple comment jouer, si vous
deviez le faire ?
Autres pistes pour le problème de linférence ?
Le problème de la combinaison des observations en
astronomie.
Thomas Simpson Thomas Bayes
42
Simpson (1755)
Veut démontrer quil est préférable de prendre la
moyenne entre plusieurs observations plutôt que
nen considérer quune.
Il focalise son attention non pas sur les
observations, mais sur les erreurs faites sur les
observations.
Il assume une hypothèse sur la distribution des
erreurs.
Pour De Moivre et la distribution binomiale, la
distribution des erreurs dépend de la proportion
inconnue de lurne.
43
Simpson suppose que chacune des n observations
est susceptible derreurs possibles de tailles
(exprimées en s) v, v 1, , 3, 2, 1, 0,
1, 2, 3, , v 1, v avec des probabilités
proportionnelles à r v,. , r 3, r 2,
r 1, r0, r, . rv, ou r  v,
2 r  v1, 3 r v2, , (v  1)r 2, vr 1,
(v1)r0, vr, . ,2 r v  1, rv.
Chaque valeur de r donne une distribution. Le
cas r  1 lintéressait particulièrement, avec la
distribution proportionnelle à 1,2, 3, 4, 5, 6,
5, 4, 3, 2, 1.
44
Représentation graphique par Simpson dune
densité triangulaire des erreurs, et de la
densité de la moyenne de t erreurs.
45
Les travaux de Simpson et Bayes nont eu aucune
influence sur leurs contemporains.Laplace a
réussi à surmonter la difficulté grâce à sa
supériorité en analyse.
Laplace et la probabilité inverse
e erreurO observationP point à
observer O P e P O eSi e est
aléatoire et avec une distribution symétrique,
- en supposant P fixé, on obtient une
distribution pour O à partir de O P e -
en prenant O comme connu, à partir de P O e,
on obtient une distribution pour P.
46
La distribution des erreurs donne loutil
aléatoire à la fois - pour des résultats
probabilistes directs, prévisionnels - pour des
résultats probabilistes inverses, permettant de
raisonner à partir des effets (O) pour aller vers
la cause (P).
Mémoire sur la probabilité des causes par les
événements (1774)
Laplace annonce un principe (maintenant connu
sous le nom de théorème de Bayes) et donne 4
exemples dapplication
  • Les trois premiers portent sur des tirages dans
    une urne ou des jeux de hasard
  • Le dernier  Déterminer la moyenne que lon
    doit prendre parmi trois observations du même
    phénomène .

47
Le principe
Laplace suppose que tous les P(Ai) sont égaux
(principe de raison insuffisante)
Ce que Laplace retient surtout
48
Le choix de la moyenne
Observations a, b, cV vraie valeurLa
probabilité quune observation diffère de V dune
valeur x est donnée par une courbe y ?(x)
dallure suivante
  • Deux questions
  • Quelle courbe des erreurs convient-il de choisir
    ? Une courbe des erreurs étant donnée, comment
    déterminer la moyenne ?

49
Laplace impose trois conditions à ?  La courbe
doit être symétrique par rapport à V (? est
paire) Elle doit décroître vers laxe des
abscisses (? a pour limite 0 à linfini) Laire
sous la courbe doit être égale à 1.
Même sans connaître ?, on peut traduire ainsi le
raisonnement de Laplace
La (densité de) probabilité des trois
observations a, b et c, sachant la vraie valeur V
est
Daprès le principe (théorème de Bayes
simplifié),
50
Plus précisément
En fait, Laplace change de variables Il pose p
b a, q c b et x V a.La (densité de)
probabilité de la correction x sachant p et q est
alors proportionnelle à ?(x) ?(p x) ?(p  q 
x). La courbe représentant cette fonction de x
est la courbe HOL
51
Cette courbe de la densité de probabilité de x
sachant p, q étant obtenue, Laplace énonce deux
critères pour choisir la meilleure valeur,
moyenne des trois observations a, b et c, qui
en termes modernes correspondent
 à la médiane de la distribution HOL  à la
valeur qui minimise lerreur moyenne à
craindre, cest-à-dire la somme du produit des
valeurs absolues des erreurs par leur probabilité.
Par un raisonnement de mécanique, il démontre que
ces deux valeurs sont les mêmes.
52
Pour déterminer ?(x), Laplace pousse plus loin
son principe de raison insuffisante en ce qui
concerne la décroissance de ? et de sa dérivée
? est solution dune équation différentielle
La difficulté des calculs pour déterminer la
médiane de la distribution de x sachant p, q la
conduit à se limiter à 3 observations.
Sa solution dépend de m, mais ce nest pas la
moyenne arithmétique des 3 observations.
53
Bayes et la loi binomiale
En termes modernes, Bayes se pose le problème
suivant Un événement se produit à chaque tirage
avec la probabilité q. Soit X le nombre de fois
quil se produit au cours de n essais.On demande
P(a lt q lt b X).
Le billard de Bayes Table carrée ABCD2
boules W et O.
On lance dabord la boule W. Lorsquelle
sarrête, elle détermine un segment os parallèle
à AD.
On lance ensuite n fois la boule O, et on compte
le nombre de fois quelle sarrête à droite de os
54
W en déterminant os fixe la valeur de q q est
le rapport de Ao à AB.
X est le nombre de fois au cours des n lancers où
la boule O sarrête dans le rectangle osDA
q est uniformément distribué sur 0, 1.
X suit la loi binomiale de paramètres n et q.
Par rapport aux tirages dans une urne (Bernoulli)
 q a perdu son caractère discret et devient
continu  le problème présente maintenant un
caractère de symétrie les tirages et lurne
sont représentés par des balles identiques.
55
Résolution du problème par Bayes
Du fait que q est uniformément distribuée et que
X est binomiale de paramètres n et q
Dautre part, en faisant b 0 et f 1, on
obtient
Bayes en déduit
56
La synthèse de Gauss et Laplace
Gauss en 1809
Dans la méthode des moindres carrés par Legendre,
aucune considération de la nature stochastique
des observations.
Gauss reprend le même problème que Mayer, Euler,
Boscovich, Laplace, Legendre, mais avec une
grosse différence il le pose en terme de
probabilités.
57
Gauss sintéresse à lerreur D égale à V  M, et
comme Laplace lui associe une courbe ?(?). Il
utilise la formule de Bayes sous la forme retenue
par Laplace.
Ceci le conduit à choisir les valeurs p, q, r,
qui maximisent
Ce qui conduit à dériver cette expression par
rapport à p, q, r,
Mais il faut pour cela connaître ?.
Gauss séloigne ici de Laplace. En plus des
conditions admises par ce dernier, il en rajoute
une autre dans le cas particulier où V  V
V   p, la moyenne arithmétique des
observa-tions M, M, M doit être la valeur qui
maximise ?.
Il démontre que ceci ne se produit que si
où h est une constante mesurant la précision des
observations.
58
Il montre ensuite dans une situation plus
générale que cette distribution conduit à la
méthode des moindres carrés pour déterminer les
valeurs de p, q, r, qui maximise ?.
Réaction de Laplace
En 1811, Laplace traite la situation simple
où ?i est lerreur, z une inconnue, pi et ?i des
observables.
Il ne suppose rien sur la loi des ?i, mais
remarque que sil pouvait trouver une combinaison
linéaire ? mi ?i qui soit nulle, alors il en
déduirait z
59
Mais maintenant il pense en probabiliste, et au
lieu de supposer que ? mi ?i est nulle, il pose
Par une légère extension de son théorème central
limite, il démontre que si le nombre déquations
est suffisamment grand, u suit approximativement
une loi normale, et que pour cette distribution
limite, la valeur moyenne de lerreur à
craindre est proportionnelle à
Il démontre quelle est minimale lorsque les mi
sont propor-tionnels aux pi, ce qui correspond à
lestimateur des moindres carrés
60
2 - La lutte pour étendre le calcul des
probabilités aux sciences sociales
Quételet (1796 - 1874)
Son premier travail concerne le recensement des
Pays-Bas.Il veut utiliser la méthode décrite par
Laplace en 1786 et utilisée en France en 1802
on peut éviter le recensement en procédant à une
estimation par la méthode des ratios (à partir
dun échantillon non aléatoire).
De Keverberg critique la méthode, attirant
lattention de Quételet sur le manque
dhomogénéité des données.
61
Quételet renonce. Il traite les données
démographiques de la même manière que Euler
traitait les données astronomiques.
La confiance que les astronomes ont acquise dans
la combinaison des observations reste à conquérir
dans les sciences sociales.
Le concept dhomme moyen
Sur lhomme et le développement de ses facultés,
ou essai de physique sociale (1835)
Dans les années 1835-1846, lhomme moyen est pour
Quételet léquivalent dun centre de gravité, en
prenant en considération les limites entre
lesquelles les autres éléments de la classe
peuvent varier autour de ce centre.
62
À partir de 1846, son attention se déplace vers
ce centre lui-même.
En utilisant des notations modernes yijk
caractéristique de lindividu k dâge i et de
sexe j.Quételet cherche à écrire yijk mij
eijk où mij représente le  type dun grand
groupe dindividus homogène du point de vue de
lâge et du sexe, et où eijk représente la
déviation individuelle par rapport au type.
Un statisticien moderne chercherait à écrire
mij m ai bj et tenterait de décrire, en
utilisant toutes les données disponibles, les
lois des m, ai et bj.Quételet, comme les
astronomes avant Laplace, refuse de combiner les
observations provenant de conditions différentes
dans une même analyse.
63
Deuxième tentative de Quételet  toute
distribution de données correctement collectées
suit une loi normale.
Quételet est fortement influencé par le théorème
central limite de Laplace (1810). Ses premiers
contacts avec la loi normale datent de 1823 lors
de sa visite à Paris.
Laplace applique son théorème central limite à
lhypothèse des  erreurs élémentaires si
chaque mesure peut être considérée comme une
moyenne dun grand nombre de composantes
indépendantes, alors la distribution de ces
mesures sera (approximativement) normale.
64
Quételet voit ici une solution aux critiques de
De Keverberg au sujet de lhomogénéité dun
groupe dobservations 
Si on dispose dune collection de mesures
homogènes (cest-à-dire provenant des mêmes
causes dominantes, ne différant que par des
aspects moins importants et aléatoires, que
Quételet appelle des causes accidentelles),
alors le théorème de Laplace nous dit que lon
doit sattendre à ce que ces mesures suivent une
loi normale.
Ce qui est vrai pour les observations
astronomiques serait ainsi vrai pour la taille
des hommes, les ratios de naissance,
Doù lidée dutiliser ce résultat comme un
procédé pour discerner lhomogénéité dun groupe.
65
On examine la distribution du groupe de
mesures. Si elle na pas une allure normale,
alors le groupe manque dhomogénéité. Si elle
en a une, à première vue le groupe est homogène
et susceptible dêtre analysé statistiquement en
tant que groupe, sans distinguer ses membres en
formant des sous-groupes. En particulier, on
peut considérer la moyenne dun tel groupe et la
comparer à dautres.
On sait depuis que ce procédé est erroné.
Comment ajuster une courbe normale à des données ?
Comment juger la qualité dun tel ajustement ?
66
Pour Quételet, la loi normale nest vue quà
travers le modèle binomial de tirages dans une
urne (somme de causes accidentelles
indépendantes).
Il choisit B(1/2, 999)
67
Sa table est fondée sur le rapport entre deux
termes successifs de la distribution Si yn
désigne la probabilité de tirer n boules noires
et 999 n boules blanches, alors
68
Ajustement dune distribution normale aux données
relatives au tour de poitrine de soldats
écossais.Col 1 les donnéesCol 2 fréquences
absoluesCol 3 fréquences relatives.Col 4-7
calculsCol 8 fréquences relatives calculées.
69
Lexis (1837-1914) et la loi binomiale
Il élabore un indice, noté Q (en référence à
Quételet) permettant de déterminer si une série
chronologique (par ex. naissances annuelles de
garçons) est stable.
Yi suit une loi binomiale B(g, vi) i 1, 2,
, n
Elle serait stable si tous les vi étaient égaux.
Si Q est proche de 1, la série est stable.
70
Quételet trouve que presque toutes les
distributions sont normales.
En revanche, lindice de Lexis est trop
discriminant trop peu de séries sont stables.
De plus, son indice nest pas fiable Il se peut
que lon ait Q proche de 1 sans que lon ait
affaire à une série stable de lois binomiales.
Alain Kuzniak
Von Bortkiewicz le montre en sintéressant au
nombre dofficiers prussiens tués par des coups
de pied de cheval entre 1875 et 1894.  Lois des
petits nombres.
71
3 - La percée anglaise Galton
Si la courbe normale apparaît à chaque
génération, rendant compte de lagrégation dun
grand nombre de facteurs indépendants, aucun
deux nayant une influence dominante, comment un
seul de ces facteurs (un parent par exemple)
peut-il avoir un impact mesurable ?
Et pourquoi la variabilité de la population
naugmente-t-elle pas dannée en année ?
En vingt ans le travail, Galton a trouvé la
solution, avec la découverte de la régression, et
son lien avec la loi normale à deux dimensions.
72
La planche à clous de GaltonThe Quincunx
(Quinconce)Instrument pour illustrer le
principe de la loi des erreurs ou dispersion.19
rangées de clous.
Supposons que les plombs soient interceptés à un
niveau intermédiaire AB le résultat est une
distribution binomiale, approximativement normale
si AB nest pas trop près de lentonnoir.
73
Explication de Galton à son cousin G. Darwin
Supposons quon libère les plombs dun seul
compartiment cela produit une petite courbe en
cloche en bas.
Les compartiments plus près du centre sont
davantage remplis, et vont produire des courbes
plus hautes que celles provenant des
compartiments extrêmes.
Mais, toutes proportions gardées, elles seront
toutes également dispersées.
La libération de tous les compartiments a pour
résultat un mélange de toutes ces courbes de
différentes tailles, qui est lui-même une courbe
normale.
74
Galton peut alors concevoir ses données comme un
mélange de différentes populations, malgré leur
apparente unité.
En étudiant des semis de petits pois de 7 tailles
différentes, il constate quils se comportent
comme les compartiments précédents les courbes
relatives à leur poids sont toutes normales, avec
la même dispersion, les moyennes étant
différentes.
Mais ces moyennes ne sont pas celles des parents
elles sont plus proches de la moyenne générale
de la population. Cest ce quil appelle le
phénomène de reversion (qui deviendra
regression). Il se manifeste ici de façon simple
lécart entre la moyenne dun groupe et la
moyenne générale est dans le même sens que celui
des parents, mais réduit dun tiers la
régression est linéaire.
75
Galton le traduit en utilisant des canaux
inclinés dans son Quincunx.
La régression venait dêtre montrée
empiriquement. Mais comment justifier quelle est
linéaire ?
Galton va trouver la solution en étudiant la
relation entre la taille des enfants et celle des
parents.
76
Il découvre alors la symétrie de la situation
il y a deux lignes de régression. Ceci ouvre la
voie vers la notion de corrélation.
77
Avec laide dun collègue, il établit le lien
avec la loi normale à deux dimensions.
78
Il y a une problématique propre à la
statistique. Dune manière très générale, on peut
définir cette problématique comme une visée
sefforçant de saisir dialectiquement, et de
traduire en des énoncés validables dun langage
scientifique, les régularités et les
perturbations dans les phénomènes marqués de
variabilité.
Prenons un exemple celui de lanalyse
statistique dune variable (mais notre définition
vaut aussi pour lanalyse des situations à deux
variables).
Soit une série de données relatives à une
certaine variable. Le constat premier est celui
de la variabilité des données cest le degré
zéro de lanalyse statistique.
79
A partir de ce constat, la dialectique
statistique consiste ici, dans un premier moment,
à rechercher une tendance moyenne qui désigne une
certaine unité des données par-delà leur variété
dans un second moment, à appréhender lécart
entre les données et cette tendance centrale,
cest-à-dire à appréhender lécart entre ces
données et cette tendance centrale, cest-à-dire
à appréhender leur variabilité, non pas en soi
(comme le fait par exemple lentropie), mais par
rapport à la tendance dégagée à désigner, en
quelque sorte, la représentativité de cette
tendance typique.
Or, cette problématique nest pas du tout
spontanée.
Tiré de Sur la transposition didactique dans
lenseignement de la statistiqueExposé fait en
1978 par Y. Chevallard dans un labo. du CNAM
80
Source principale STEPHEN M. STIGLER The
History of Statistics - The Measurement of
Uncertainty before 1900 Harvard University
Press 1986
Write a Comment
User Comments (0)
About PowerShow.com