Title: Initiation
1Initiation à lutilisation du logiciel STATISTICA
- Joseph LARMARANGE
- http//joseph.larmarange.net
- Intervention du 9 janvier 20042ème année en
Ressources HumainesGEA (Gestion des Entreprises
et des Administrations)IUT dOrléans
2Plan
- Saisie des données
- Statistiques descriptives
- Corrélation linéaire
- Test du Khi 2
3Principes dun fichier STATISTICA
- Les données sont saisies sous la forme dun
tableau. - En colonnes, des variables (soit le nombre
dinformation que nous avons pour chaque
individu). - En lignes, des individus (cela peut-être des
personnes physiques, des ménages, des
institutions, etc.).
4Exemple de données à saisir
- Il sagit du montant des ventes dune équipe de
15 vendeurs.Pour chacun deux, on dispose du
sexe, de lâge et du chiffre daffaire
réalisé.
5Création dun nouveau fichier (Fichier gt Nouveau)
- Indiquer le nombre de variables (3)
- Et le nombre dobservations (ici 15)
6Création dun nouveau fichier
- Apparition du fichier de données.
- On va maintenant spécifier le nom des variables
7Nommer les variables
- On donnera un nom court mais explicite. Mieux
vaut éviter les caractères particuliers.
- Il est aussi possible de faire une description
détaillée des variables.
8Nommer les variables
- On donnera un nom court mais explicite. Mieux
vaut éviter les caractères particuliers.
- Il est aussi possible de faire une description
détaillée des variables.
9Les variables qualitatives
- On privilégiera de saisir un code chiffre plutôt
quun texte pour éviter les erreurs de saisie. - Cependant, il est toujours possible de donner une
étiquette (valeurs-texte) aux différentes
modalités.
ATTENTION Avant de cliquer, sur Valeurs-Texte,
il faut d abord sélectionner la variable
concernée.
10Modifier les Valeurs-Texte
- Donner un texte court pour la Valeur-Texte.
- Préciser la correspondance numérique.
- Une étiquette pour préciser la modalité est
disponible.
- ltlt gtgt servent à passer d une variable à
lautre.
Le nom de la variable concernée apparaît en haut
à droite
11Saisie des données
Exemple 1
12Saisie des données
On peut choisir dafficher les Valeurs-Texte ou
leur équivalent numérique en allant dans le menu
Affichage gt Afficher les
Valeurs-Texte ou en cliquant sur le bouton
13Statistiques descriptives
- Aller dans le module Statistiques Élémentaires
disponible dans le menu Statistiques.
14Statistiques descriptives
- Choisir les statistiques descriptives.
15Choisir les variables
- Un clic sur le bouton Variables.
16Choisir les variables
- Sélectionner les variables retenues pour
lanalyse - Pour une liste continue de variables, utilisez la
touche SHIFT (ou ?) et pour une liste
discontinue la touche CTRL
17Statistiques descriptives
- Cliquer sur le bouton Synthèse
18Résultats
19Pour poursuivre lanalyse
20Onglet Avancé
- Cet onglet donne accès à un nombre plus important
de statistiques
21Petit rappel sur le coefficient de corrélation r
22Corrélation
Exemple 2
23Saisie des données
24Corrélation
- Choisir les matrices de corrélation dans les
Statistiques élémentaires.
25Définir les variables de lanalyse
- Un clic sur le bouton 2 listes.
26Définir les variables de lanalyse
27Lancer lanalyse
- Sous longlet Options, choisir Tableau détaillé.
- Cliquer sur Synthèse.
28Résultats détaillés
- r(X,Y) est le coefficient de corrélation.
- Les résultats sont en rouge si les résultats sont
significatifs avec un risque derreur de 5
(plt0.05, le seuil est paramétrable sous longlet
options). La valeur de p est fournie. t
correspond à la statistique du test utilisé.
29Résultats détaillés
- N rappelle le nombre dobservations considérées.
- La moyenne et lécart-type de chacune des deux
variables sont donnés à titre indicatif.
30Résultats détaillés
- Rappelons que le principe est de trouver une
droite qui représente le mieux les deux
variables. On cherche donc à modéliser le rapport
entre X et Y de la forme Y a X b. - Mais il est aussi possible de modéliser sous la
forme X c Y d.
31Résultats détaillés
b a d c
- Statistica donne ces 4 coefficients Y a X
B X c Y d - Ainsi ici, Y 0,18 X 1,39 et X 4,87 Y -
4,34
32Afficher la droite de régression
- Un clic sur Nuages de points en 2D.
33Afficher la droite de régression
- Statistica trace la droite de régression ainsi
que les valeurs observées représentées par un
petit cercle.
34Autre exemple
Exemple 3
Un psychologue de larmée américaine a remarqué
que les soldats qui fumaient le plus avaient
tendance à contracter plus de rhumes que les
fumeurs légers. Par ailleurs il pense que les
fumeurs sont des personnalités plus stressées que
les non-fumeurs et que ce facteur stress
pourrait être responsable de leur santé fragile.
Variables relevées CIGA nombre de
cigarettes fumées par semaine RHUM nombre de
rhumes contractés dans lannée écoulée STRE mes
ure du stress sur une échelle de 1 (faible) à 5
(élevé)
35Autre exemple
Exemple 3
36Résultats
- Nous avons affiché la matrice de corrélation
simple. - Il apparaît à p5 quil y a une corrélation
significative entre le nombre de cigarettes et le
nombre de rhumes. - Par contre, le stress nenregistre aucune
corrélation significative avec les deux autres
variables.
37Test du Khi 2
Exemple 4
Lors d'une étude sur la connaissance du sida chez
les femmes guinéennes âgées de 15-49 ans, on a
construit un indicateur de connaissance du sida
répartie en quatre groupes faible, moyenne,
bonne et très bonne. Les données sont issues de
l'Enquête de Démographie et de Santé 1999. On a
comparé cet indicateur avec le niveau
d'instruction des femmes. Les effectifs sont les
suivants (elles portent sur 6.561 femmes)
38Saisie des données
- Nous avons 6.561 individus et 2 variables. Nous
devrions donc remplir un tableau comportant 6.561
lignes et 2 colonnes. - Cependant, il apparaît que certains individus
sont identiques (cest-à-dire présentant
exactement les mêmes valeurs pour chaque
variables).Ainsi, nous avons 888 femmes qui ont
toute une faible connaissance du sida et aucun
niveau dinstruction. - Nous constatons quil y a en tout 16 profils
dindividu différents. - Au lieu de rentrer les caractéristiques des 6.561
femmes, nous allons saisir les caractéristiques
des 16 profils type et indiquer dans une
troisième variable (le poids) le nombre de femmes
que ce profil représente. - Cest le principe de la pondération.
39Saisie des données
- Nous allons donc créer un fichier comportant 16
observations et 3 variables. - Pour la connaissance du sida, nous coderons 1 une
faible connaissance, 2 une moyenne, 3 une bonne
et 4 une très bonne. - Pour le niveau dinstruction, 0 pour aucun, 1
pour primaire, 2 pour secondaire et 3 pour
supérieur.
40Saisie des données
- Voici le fichier de données que nous obtenons.
41Test du Khi 2
- Choisir les tableaux et tris croisés dans les
Statistiques élémentaires.
42Saisir les variables
- Un clic sur Spécifier les tables.
43Saisir les variables
- Sélectionner les variables de lanalyse
44Préciser la pondération
Ce bouton est accessible dans toutes les fenêtres
de Statistica, la pondération pouvant être
utilisée pour nimporte quel calcul.
45Préciser la pondération
- Sélectionner la variable de pondération
Un double clic dans le champ dédition du nom de
la variable ouvre une liste de l ensemble des
variables du fichier.
46Lancer lanalyse
- Cliquez deux fois sur OK.
- Aller sous longlet Options.
- Sélectionner Chi² Pearson et Effectifs
théoriques
47Premier tableau de résultats
- Il sagit du tableau croisé des effectifs.
Pour naviguer dun tableau à lautre
48Second tableau de résultats
- Affichage des effectifs théoriquesRappel il
sagit des effectifs que lon aurait si les deux
variables étaient parfaitement indépendantes. - Ici p est inférieur à 0,05. On en déduit quavec
une erreur de première espèce de 5 que les deux
variables ne sont pas indépendantes.NB petit
hic, normalement on ne doit pas avoir deffectifs
inférieurs à 5 (ou à 10 pour plus de précision).
Il serait donc préférable de regrouper auparavant
certaines catégories.
49Autre exemple
Exemple 5
Dans une enquête sur le réseau Internet auprès de
1006 personnes, une des questions posées était la
suivante " Personnellement quelle est votre
attitude à l'égard de cette nouvelle application
de la micro-informatique ? Vous êtes...
Passionné, Intéressé, Indifférent, Dépassé,
Agacé, ou ne se prononce pas (NSP). Les
personnes interrogées ont été regroupées en 5
catégories d'âge 18-24 ans, 25-34 ans, 34-49
ans, 50-64 ans, plus de 65 ans.
50Autre exemple
Exemple 5
Voici les données observées. Étant donné le très
faible nombre de NSP, nous nen tiendrons pas
compte. Lanalyse portera donc sur 992 individus.
51Fichier de données
- Tableau à 3 colonnes et 25 lignes(puisquon ne
tient pas compte des NSP)
52Résultats
- p lt 0,05 ? Lattitude à légard de Internet
diffère avec l âge.
53Liens
- Ce diaporama est disponible, ainsi que les
fichiers des exemples, à ladressehttp//joseph.l
armarange.free.fr - Les statistiques élémentaires sont disponibles
gratuitement dans la version de démonstration de
statistica disponible sur internet
http//www.statsoft.com/french/welcome.html