Inf - PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

Inf

Description:

Inf rence tests univari s tests bivari s Eug nie Dostie-Goulet Plan de la pr sentation Comment faire une bonne recherche statistique L inf rence – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 25
Provided by: JeanHer
Category:
Tags: femme | inf | travaille

less

Transcript and Presenter's Notes

Title: Inf


1
Inférence tests univariés tests
bivariésEugénie Dostie-Goulet
  • Plan de la présentation
  • Comment faire une bonne recherche statistique
  • Linférence
  • Risques de biais
  • Distribution normale
  • inférence tests univariés (moyenne,
    pourcentage)
  • Inférence tableaux croisés et Chi2 (khi-deux)

2
On ne prouve rien
  • Lacunes conceptuelles restons modestes!
  • Impossible de spécifier le modèle parfaitement
  • Hasard dans léchantillonnage
  • Notre objectif est donc de tester des hypothèses,
    de confronter nos résultats à nos attentes. Il y
    a toujours quelque chose à en tirer, peu importe
    le résultat.

3
Réflexion théorique
  • La théorie est au coeur de lanalyse statistique
    on base nos hypothèses sur cette théorie, on
    lutilise pour alimenter la discussion sur nos
    résultats, on lenrichit grâce à ces résultats et
    les conclusions quon en tire.
  • Il est donc essentiel de saisir les arguments
    théoriques et les débats qui sy trouvent avant
    de se lancer dans des analyses trop poussées.
  • ... ce qui ne veut pas dire quon ne
     découvrira  rien!

4
Formulation du problème
Inondations au Pakistan
  • Identification dun problème
  • Motivation qui sintéresse à nos résultats?
  • Les décideurs sintéressent à limportance
    sociale ou politique des résultats dune
    recherche.
  • Les chercheurs veulent une contribution à
    lavancement des connaissances scientifiques
  • Énoncé sous forme de question
  • problème général, quon précise, et pour lequel
    on pose une question

Il y a plus de 125 000 Canadiens dorigine
pakistanaise...
On en connaît peu sur lorigine de laide en
situation de crise
Quels sont les facteurs influençant laide en
situation de crise?
5
Construction du cadre opératoire
Hypothèse
  • Doit être plausible
  • La littérature nous aide à en juger
  • Doit être vérifiable
  • Basée sur des concepts/variables opératoires
    (précis, mesurables)
  • Doit être précise
  • Formulation sans ambiguïté
  • Doit être générale
  • Le pouvoir dexplication va au-delà du cas
    particulier

Plus la diaspora est nombreuse dans un pays
daccueil, plus ce pays est porté à dépenser
lorsquun drame survient dans le pays dorigine
6
Construction du cadre opératoire
Unité danalyse
  • Des individus? des villes? des pays?

Variable dépendante, variable indépendante,
variables contrôle
  • Bien les choisir

Indicateur
  • Ce quon utilise pour  représenter  chaque
    variables

7
Structuration
Schéma conceptuel
Variables indépendantes ou les  causes 
Variable dépendante ou la  conséquence 
Importance de la diaspora
Aide internationale en millions de
Médiatisation du drame
Nombre de morts
Résolution de lONU
8
Cueillette des donnéesAnalyse des données /
interprétation des résultats
9
Lanalyse confirmatoire
10
Quelques notions dinférence statistique
  • Inférence statistique ensemble des méthodes
    permettant de tirer des conclusions sur un groupe
    déterminé la population à partir des données
    provenant dun échantillon choisi dans cette
    population.
  • Lestimation ponctuelle est ajustée pour tenir
    compte de lerreur échantillonnale cest la
    notion de  niveau de confiance .

11
Biais possibles
  • Biais échantillon
  • Taux de réponse (par téléphone, environ 50 à 60)
  • Qui répond?
  • Ceux qui sont à la maison
  • Ceux que ça intéresse
  • Problématique du cellulaire
  • Biais répondant
  •  Qualité  de la réponse
  • Rapports avec lenquêteur
  • Désirabilité sociale
  • Image conforme,  normale 
  • Mémoire
  • Hasard
  • Biais questionnaire
  • Formulation des questions
  • Formulation des réponses

Erreur échantillonnale
12
Quelques termes
Population Échantillon
Définition Lensemble des unités considérées par le chercheur Un sous-ensemble de la population choisi pour étude
Symbole Lettres grecques ou majuscules lettres minuscules
Caractéristique paramètre statistique
Taille N n
Moyenne m (mu) x (x barre)
Écart-type s (sigma) s
Pourcentage p (pi) p
-
13
La distribution normale
Une distribution normale a deux paramètres sa
moyenne et son écart-type
Propriété fondamentale pour toute combinaison de
moyenne et décart-type, il y aura toujours une
proportion de cas constante entre la moyenne et
un point quelconque situé à une certaine distance
de la moyenne exprimée en termes dunité(s)
décart-type
14
  • Environ 68  des données se situent à l'intérieur
    de l'intervalle ? -Slt x lt S.
  • Environ 95  des données se situent à l'intérieur
    de l'intervalle ? - 2Slt x lt 2S.
  • Environ 99  des données se situent à l'intérieur
    de l'intervalle ? - 3Slt x lt 3S.

15
De la moyenne de léchantillon à la moyenne de la
population...
  • À 95 de certitude µ x 1,96 sx où sx
    s/vn
  • À 99 de certitude µ x 2,58 sx où sx
    s/vn

_
-
-
_
-
-
u moyenne de la population x moyenne de
léchantillon sx écart-type de la distribution
déchantillonnage s écart-type de léchantillon
-
16
Doù vient le 1,96?
  • Avec une variable continue, la probabilité
    dobtenir une certaine valeur précise est trop
    petite pour attribuer une probabilité à chaque
    valeur. On attribue donc une probabilité à un
    intervalle de valeurs par voie destimation par
    intervalle. Cette probabilité est représentée par
    laire sous la courbe de distribution normale.
  • Cest la cote Z qui permet dattribuer une
    probabilité à un intervalle de valeurs.
  • À une cote Z de 1,96 correspond une aire sous la
    courbe de 0,975. Donc
  • Une proportion de 0,025 (ou 2,5) des cas sont
    entre 1,96 et linfini positif, et 2,5 entre
    -1,96 et linfini négatif. Donc 5 des cas sont à
    lextérieur de lintervalle allant de -1,96 à
    1,96 (soit environ 2s de la moyenne).

17
De la moyenne de léchantillon à la moyenne de la
population...
  • À 95 de certitude µ x 1,96 sx où sx
    s/vn
  • À 99 de certitude µ x 2,58 sx où sx
    s/vn

_
-
-
_
-
-
µ moyenne de la population x moyenne de
léchantillon sx écart-type de la distribution
déchantillonnage s écart-type de léchantillon
-
18
Distribution déchantillonnage
  • Imaginez quon ne prend pas seulement un
    échantillon tiré au hasard, mais tous les
    échantillons possibles...
  • Exemple simple population de cinq personnes,
    échantillon de deux cas. Combien déchantillons
    possibles? 10
  • Exemple complexe population de 5 000 000
    délecteurs québécois, échantillon de 1000 cas.
    Combien déchantillons possibles?
  • 27 000 000 000 000 000 000 000 000 000 000 000
    000 000
  • Donc imaginez quon prend la moyenne de chacun de
    ces échantillons... on peut alors construire
    notre distribution déchantillonnage
  • À partir de 30 cas, la moyenne de cette
    distribution déchantillonnage correspond à la
    moyenne de la population la distribution
    déchantillonnage suit une distribution normale.

19
De la moyenne de léchantillon à la moyenne de la
population...
  • À 95 de certitude µ x 1,96 sx où sx
    s/vn
  • À 99 de certitude µ x 2,58 sx où sx
    s/vn

_
-
-
_
-
-
  • Tous les éléments de la formule affectent
    lampleur de lintervalle
  • Le niveau de confiance plus on veut être
    confiant, plus grand sera lintervalle (et moins
    lestimation sera précise
  • Lécart-type de léchantillon plus il y a de
    dispersion, plus grand sera lintervalle (et
    moins lestimation sera précise)
  • La taille de léchantillon plus grand est
    léchantillon, plus petit sera lintervalle (et
    plus lestimation sera précise)

20
Exercice
  • En Grande-Bretagne, on a demandé à un échantillon
    de 2326 électeurs de donner leur appréciation de
    chacun des partis sur une échelle de 0 à 10.
  • Quel est lintervalle de valeurs pour la moyenne
    dans la population pour chacun des partis?
  • Sommes-nous exacts si nous affirmons quen
    moyenne, les Britanniques préfèrent les Libéraux?

Moyenne Écart-type
Travaillistes 4,38 3,42
Conservateurs 3,89 3,05
Libéraux-Démoc. 4,62 2,93
21
Le tableau croisé
  • Lorsquon travaille avec des données
    quantitatives, le tableau croisé est utilisé pour
    observer la relation entre deux variables lorsque
    ces variables ont peu de catégories. Un maximum
    de 20 cellules est fortement recommandé.
  • En analyse confirmatoire, on travaille avec une
    variable dépendante et au moins une variable
    indépendante. Dans un tableau croisé, la
    convention veut que la variable indépendante soit
    sur le haut (colonnes) et la variable dépendante
    sur le côté gauche (lignes, ou rangées).
  • Les pourcentages font référence à la variable
    indépendante (colonnes).

22
Le test du Chi2
  • Basé sur lhypothèse que le chercheur a établi à
    lavance une relation entre les deux variables
  • Suppose un échantillon aléatoire
  • Le test est fiable si pas plus de 25 des
    cellules ont moins de 5 cas de fréquence attendue

23
Le Chi2 La relation entre le sexe et le fait
dêtre syndiqué
  • Cas  réel 
  • Fréquences attendues
  • (par lhypothèse nulle)

Homme Femme Total
Syndiqué 13 (65) 9 (33) 22 (47)
Pas syndiqué 7 (35) 18 (67) 25 (53)
Total 20 (100) 27 (100) 47 (100)
Homme Femme Total
Syndiqué 9,4 (47) 12,6 (47 22 (47)
Pas syndiqué 10,6 (53) 14,4 (53) 25 (53)
Total 20 (100) 27 (100) 47 (100)
Chi2 (1) 4,6 plt0,05
Chi2 (1) 0
24
À Londres opinion sur la gestion du crime par le
gouvernement chez les partisans travaillistes et
les autres
Parti travailliste Autre parti Total
Très bonne gestion 2 (1,79) 2 (1,30) 4 (1,55)
Assez bonne gestion 45 (40,18 13 (8,44) 58 (22,48)
Ni bonne ni mauvaise gestion 31 (27,68) 48 (31,17 79 (30,62)
Assez mauvaise gestion 25 (22,32 39 (25,32) 64 (24,81)
Très mauvaise gestion 5 (4,46) 48 (31,17) 53 (20,54)
Total 112 (100) 154 (100) 266 (100)
Chi2 53.9768 p lt 0.000
  • chisq.test(tableaucroisé)
  • Pearson's Chi-squared test
  • data tableaucroisé
  • X-squared 53.9768, df 4 , p-value lt 0.000
  •  

R
Write a Comment
User Comments (0)
About PowerShow.com