Initiation - PowerPoint PPT Presentation

About This Presentation
Title:

Initiation

Description:

Initiation l utilisation du logiciel STATISTICA Joseph LARMARANGE http://joseph.larmarange.net Intervention du 9 janvier 2004 2 me ann e en Ressources Humaines – PowerPoint PPT presentation

Number of Views:271
Avg rating:3.0/5.0
Slides: 54
Provided by: josephLar
Category:

less

Transcript and Presenter's Notes

Title: Initiation


1
Initiation à lutilisation du logiciel STATISTICA
  • Joseph LARMARANGE
  • http//joseph.larmarange.net
  • Intervention du 9 janvier 20042ème année en
    Ressources HumainesGEA (Gestion des Entreprises
    et des Administrations)IUT dOrléans

2
Plan
  • Saisie des données
  • Statistiques descriptives
  • Corrélation linéaire
  • Test du Khi 2

3
Principes dun fichier STATISTICA
  • Les données sont saisies sous la forme dun
    tableau.
  • En colonnes, des variables (soit le nombre
    dinformation que nous avons pour chaque
    individu).
  • En lignes, des individus (cela peut-être des
    personnes physiques, des ménages, des
    institutions, etc.).

4
Exemple de données à saisir
  • Il sagit du montant des ventes dune équipe de
    15 vendeurs.Pour chacun deux, on dispose du
    sexe, de lâge et du chiffre daffaire
    réalisé.

5
Création dun nouveau fichier (Fichier gt Nouveau)
  • Indiquer le nombre de variables (3)
  • Et le nombre dobservations (ici 15)
  • Cliquez sur OK.

6
Création dun nouveau fichier
  • Apparition du fichier de données.
  • On va maintenant spécifier le nom des variables

7
Nommer les variables
  • On donnera un nom court mais explicite. Mieux
    vaut éviter les caractères particuliers.
  • Il est aussi possible de faire une description
    détaillée des variables.

8
Nommer les variables
  • On donnera un nom court mais explicite. Mieux
    vaut éviter les caractères particuliers.
  • Il est aussi possible de faire une description
    détaillée des variables.

9
Les variables qualitatives
  • On privilégiera de saisir un code chiffre plutôt
    quun texte pour éviter les erreurs de saisie.
  • Cependant, il est toujours possible de donner une
    étiquette (valeurs-texte) aux différentes
    modalités.

ATTENTION Avant de cliquer, sur Valeurs-Texte,
il faut d abord sélectionner la variable
concernée.
10
Modifier les Valeurs-Texte
  • Donner un texte court pour la Valeur-Texte.
  • Préciser la correspondance numérique.
  • Une étiquette pour préciser la modalité est
    disponible.
  • ltlt gtgt servent à passer d une variable à
    lautre.

Le nom de la variable concernée apparaît en haut
à droite
11
Saisie des données
Exemple 1
12
Saisie des données
On peut choisir dafficher les Valeurs-Texte ou
leur équivalent numérique en allant dans le menu
Affichage gt Afficher les
Valeurs-Texte ou en cliquant sur le bouton
13
Statistiques descriptives
  • Aller dans le module Statistiques Élémentaires
    disponible dans le menu Statistiques.

14
Statistiques descriptives
  • Choisir les statistiques descriptives.

15
Choisir les variables
  • Un clic sur le bouton Variables.

16
Choisir les variables
  • Sélectionner les variables retenues pour
    lanalyse
  • Pour une liste continue de variables, utilisez la
    touche SHIFT (ou ?) et pour une liste
    discontinue la touche CTRL

17
Statistiques descriptives
  • Cliquer sur le bouton Synthèse

18
Résultats
19
Pour poursuivre lanalyse
  • Cliquer sur ce bouton

20
Onglet Avancé
  • Cet onglet donne accès à un nombre plus important
    de statistiques

21
Petit rappel sur le coefficient de corrélation r
22
Corrélation
Exemple 2
23
Saisie des données
24
Corrélation
  • Choisir les matrices de corrélation dans les
    Statistiques élémentaires.

25
Définir les variables de lanalyse
  • Un clic sur le bouton 2 listes.

26
Définir les variables de lanalyse
27
Lancer lanalyse
  • Sous longlet Options, choisir Tableau détaillé.
  • Cliquer sur Synthèse.

28
Résultats détaillés
  • r(X,Y) est le coefficient de corrélation.
  • Les résultats sont en rouge si les résultats sont
    significatifs avec un risque derreur de 5
    (plt0.05, le seuil est paramétrable sous longlet
    options). La valeur de p est fournie. t
    correspond à la statistique du test utilisé.

29
Résultats détaillés
  • N rappelle le nombre dobservations considérées.
  • La moyenne et lécart-type de chacune des deux
    variables sont donnés à titre indicatif.

30
Résultats détaillés
  • Rappelons que le principe est de trouver une
    droite qui représente le mieux les deux
    variables. On cherche donc à modéliser le rapport
    entre X et Y de la forme Y a X b.
  • Mais il est aussi possible de modéliser sous la
    forme X c Y d.

31
Résultats détaillés
b a d c
  • Statistica donne ces 4 coefficients Y a X
    B X c Y d
  • Ainsi ici, Y 0,18 X 1,39 et X 4,87 Y -
    4,34

32
Afficher la droite de régression
  • Un clic sur Nuages de points en 2D.

33
Afficher la droite de régression
  • Statistica trace la droite de régression ainsi
    que les valeurs observées représentées par un
    petit cercle.

34
Autre exemple
Exemple 3
Un psychologue de larmée américaine a remarqué
que les soldats qui fumaient le plus avaient
tendance à contracter plus de rhumes que les
fumeurs légers. Par ailleurs il pense que les
fumeurs sont des personnalités plus stressées que
les non-fumeurs et que ce facteur stress
pourrait être responsable de leur santé fragile.
Variables relevées  CIGA  nombre de
cigarettes fumées par semaine RHUM nombre de
rhumes contractés dans lannée écoulée STRE  mes
ure du stress sur une échelle de 1 (faible) à 5
(élevé)
35
Autre exemple
Exemple 3
36
Résultats
  • Nous avons affiché la matrice de corrélation
    simple.
  • Il apparaît à p5 quil y a une corrélation
    significative entre le nombre de cigarettes et le
    nombre de rhumes.
  • Par contre, le stress nenregistre aucune
    corrélation significative avec les deux autres
    variables.

37
Test du Khi 2
Exemple 4
Lors d'une étude sur la connaissance du sida chez
les femmes guinéennes âgées de 15-49 ans, on a
construit un indicateur de connaissance du sida
répartie en quatre groupes faible, moyenne,
bonne et très bonne. Les données sont issues de
l'Enquête de Démographie et de Santé 1999. On a
comparé cet indicateur avec le niveau
d'instruction des femmes. Les effectifs sont les
suivants (elles portent sur 6.561 femmes)
38
Saisie des données
  • Nous avons 6.561 individus et 2 variables. Nous
    devrions donc remplir un tableau comportant 6.561
    lignes et 2 colonnes.
  • Cependant, il apparaît que certains individus
    sont identiques (cest-à-dire présentant
    exactement les mêmes valeurs pour chaque
    variables).Ainsi, nous avons 888 femmes qui ont
    toute une faible connaissance du sida et aucun
    niveau dinstruction.
  • Nous constatons quil y a en tout 16  profils
    dindividu  différents.
  • Au lieu de rentrer les caractéristiques des 6.561
    femmes, nous allons saisir les caractéristiques
    des 16 profils type et indiquer dans une
    troisième variable (le poids) le nombre de femmes
    que ce profil représente.
  • Cest le principe de la pondération.

39
Saisie des données
  • Nous allons donc créer un fichier comportant 16
    observations et 3 variables.
  • Pour la connaissance du sida, nous coderons 1 une
    faible connaissance, 2 une moyenne, 3 une bonne
    et 4 une très bonne.
  • Pour le niveau dinstruction, 0 pour aucun, 1
    pour primaire, 2 pour secondaire et 3 pour
    supérieur.

40
Saisie des données
  • Voici le fichier de données que nous obtenons.

41
Test du Khi 2
  • Choisir les tableaux et tris croisés dans les
    Statistiques élémentaires.

42
Saisir les variables
  • Un clic sur Spécifier les tables.

43
Saisir les variables
  • Sélectionner les variables de lanalyse

44
Préciser la pondération
  • Cliquer sur ce bouton

Ce bouton est accessible dans toutes les fenêtres
de Statistica, la pondération pouvant être
utilisée pour nimporte quel calcul.
45
Préciser la pondération
  • Sélectionner la variable de pondération
  • Activer la pondération

Un double clic dans le champ dédition du nom de
la variable ouvre une liste de l ensemble des
variables du fichier.
46
Lancer lanalyse
  • Cliquez deux fois sur OK.
  • Aller sous longlet Options.
  • Sélectionner Chi² Pearson et Effectifs
    théoriques

47
Premier tableau de résultats
  • Il sagit du tableau croisé des effectifs.

Pour naviguer dun tableau à lautre
48
Second tableau de résultats
  • Affichage des effectifs théoriquesRappel il
    sagit des effectifs que lon aurait si les deux
    variables étaient parfaitement indépendantes.
  • Ici p est inférieur à 0,05. On en déduit quavec
    une erreur de première espèce de 5 que les deux
    variables ne sont pas indépendantes.NB petit
    hic, normalement on ne doit pas avoir deffectifs
    inférieurs à 5 (ou à 10 pour plus de précision).
    Il serait donc préférable de regrouper auparavant
    certaines catégories.

49
Autre exemple
Exemple 5
Dans une enquête sur le réseau Internet auprès de
1006 personnes, une des questions posées était la
suivante " Personnellement quelle est votre
attitude à l'égard de cette nouvelle application
de la micro-informatique ? Vous êtes...
Passionné, Intéressé, Indifférent, Dépassé,
Agacé, ou ne se prononce pas (NSP). Les
personnes interrogées ont été regroupées en 5
catégories d'âge 18-24 ans, 25-34 ans, 34-49
ans, 50-64 ans, plus de 65 ans.
50
Autre exemple
Exemple 5
Voici les données observées. Étant donné le très
faible nombre de NSP, nous nen tiendrons pas
compte. Lanalyse portera donc sur 992 individus.
51
Fichier de données
  • Tableau à 3 colonnes et 25 lignes(puisquon ne
    tient pas compte des NSP)

52
Résultats
  • p lt 0,05 ? Lattitude à légard de Internet
    diffère avec l âge.

53
Liens
  • Ce diaporama est disponible, ainsi que les
    fichiers des exemples, à ladressehttp//joseph.l
    armarange.free.fr
  • Les statistiques élémentaires sont disponibles
    gratuitement dans la version de démonstration de
    statistica disponible sur internet
    http//www.statsoft.com/french/welcome.html
Write a Comment
User Comments (0)
About PowerShow.com