Title: Corso di statistica
1Campus di Arcavacata
Università della Calabria
Dott. Massimiliano Giacalone
ARCAVACATA a.a 2009-2010
2- INDIRIZZO E-MAIL
- massimiliano.giacalone_at_yahoo.it
3-
Statistica - Insieme di metodi finalizzati allo studio
(mediante lanalisi) di fenomeni reali - Metodologia strumentale per lanalisi della
realtà allo scopo di trarre leggi e regole
generali per obiettivi predefiniti (Scienza o
metodo?) - Scienza delle decisioni in condizioni di
incertezza - in altre parole
- La statistica riguarda tutte le operazioni che
rientrano in un processo di indagine finalizzato
allaccrescimento della conoscenza . - Perché lindagine statistica?
4Metodi statistici
obiettivi
informazioni
risultati
5-
Indagine Statistica -
Fasi - Definizione degli obiettivi (generali, parziali)
in funzione dei vincoli (di tempo, di costo) - Raccolta (Rilevazione) dei dati
- Dati derivanti da misurazioni, da questionario,
da basi di dati - Rilevazioni semplici o complesse
6Elaborazione dei dati Memorizzazione Codifica/Rico
difica Analisi statistica Descrittiva/Inferenzial
e, Univariata/Multivariata Presentazione dei
risultati Riformulazione delle ipotesi di ricerca
/ Ridefinizione degli obiettivi
7 TERMINOLOGIA Rilevazioni statistiche Compless
o delle operazioni rivolte ad acquisire una o più
informazioni su un insieme di elementi
(caratteri) oggetto di studio. Caratteristiche -
semplici/complesse - derivanti da risposte o da
misure - globali (censimenti) / parziali
(rilevazioni campionarie) Unità statistica
entità su cui viene condotta la rilevazione
statistica Popolazione insieme di tutte le unitÃ
statistiche facenti parte di un collettivo di
riferimento Campione sottoinsieme della
popolazione
8 I Caratteri Statistici Insieme di
fenomeni oggetto di studio riguardanti le
caratteristiche che differenziano tra loro le
unità statistiche Lespressione del carattere
nelle unità statistiche si denomina modalità o
intensitÃ
- Tipologie
- Caratteri quantitativi (VARIABILI) assumono
intensità rappresentate da numeri reali - Variabili continue
- Variabili discrete
- Caratteri qualitativi (MUTABILI) assumono
modalità rappresentate da attributi non numerici - Nominali
- Ordinali
- Dicotomici
- Tutti i caratteri possono essere resi dicotomici
9Tipi di caratteri ed operazioni possibili
10- Cosa si
studia al corso di Statistica 1? - Statistica descrittiva
- Distribuzioni di frequenza
- Rappresentazioni grafiche
- Indici di posizione, variabilità e forma
- Omogeneità ed eterogeneitÃ
- Relazioni statistiche (connessione, indipendenza
in media, correlazione) - Statistica Inferenziale
- ProbabilitÃ
- Variabili Casuali
- Modelli per variabili casuali
11La matrice (50 unità statistiche, 9 caratteri)
Un campione di 50 aziende appartenenti alle
imprese produttrici di beni di largo
consumo. Rif. M. Caputo (a cura di) Organizzare
la logistica per lEfficient Consumer Response,
CEDAM, 1998
12(No Transcript)
13(No Transcript)
14(No Transcript)
15Sono stati riportati i settori merceologici
elencati nella prima colonna della matrice dei
dati sostituendo labbreviazione alla dicitura
per esteso.
16In simboli
Carattere osservato
Numero di unità statistiche
Numero di modalità /intensità di X
i-esima modalità /intensità di X
Frequenza assoluta della i-esima modalità xi
Frequenza relativa della i-esima modalità xi
17Distribuzione di frequenza
I )
II )
18Carattere qualitativo nominale Rappresentazioni
grafiche
Diagramma a barre
N.B. E possibile costruire il diagramma a barre
riportando in ordinata le frequenze assolute
OPPURE le frequenze relative, la forma della
rappresentazione risulta invariata.
19Carattere qualitativo nominale Rappresentazioni
grafiche
Grafico a torta
20Frequenza relativa cumulata somma delle
frequenze relative fino alla i-esima intensità .
Si può calcolare per ogni tipo di distribuzione
di frequenza.
N.B. Valgono tutte le altre proprietà viste per
le distribuzioni di frequenza dei caratteri
qualitativi
21Rappresentazioni grafiche del carattere Numero
di stabilimenti
22Suddivisione in classi
23Carattere N. di stabilimenti suddivisione
delle intensità in 5 classi equiampie
24Carattere N. di stabilimenti costruzione della
distribuzione in classi
N.B. Valgono tutte le altre proprietà viste per
le distribuzioni di frequenza dei caratteri
qualitativi e quantitativi discreti
25Carattere N. di stabilimenti suddivisione
delle intensità in 5 classi di diversa ampiezza e
frequenza
26(No Transcript)
27Distribuzioni di frequenza per caratteri
quantitativi continui
28Carattere quantitativo continuo FATTURATO
29Carattere Fatturato Classi equifrequenti
30Carattere Fatturato Classi equiampie
31Carattere N.ro di stabilimenti Classi equiampie
32Rappresentazioni grafiche
1. Variabili qualitative
Diagramma a barre Diagramma a torta
- Variabili nominali o ordinali
- Frequenze assolute o relative
2. Variabili quantitative discrete
Diagramma a bastoni
Diagramma a torta
- Frequenze assolute o relative
333. Variabili quantitative continue
3.1 Istogramma
rettangoli classi
base ampiezza della classe di
altezza densità di frequenza hi
area del imo rettangolo frequenza della ima
classe
area totale A n
34Esempio 1 variabile X suddivisa in 2 classi di
diverse ampiezza e frequenza
xi-1 - xi ni
0 - 100 40
100 - 150 20
Istogramma delle frequenze assolute
Apparentemente sembrerebbe che le unitÃ
statistiche sono più concentrate nella prima
classe, ma in realtà dovremmo tener presente che
è vero che la frequenza nella prima classe è
doppia rispetto alla frequenza nella seconda, ma
è pur vero che la prima classe ha anche
unampiezza doppia rispetto alla seconda.
35Istogramma delle densità di frequenza
(normalizzato)
Rappresentando la densità di frequenza, invece,
risulta evidente che le due classi sono
perfettamente omogenee relativamente al modo in
cui le unità statistiche si distribuiscono tra di
esse.
36Istogramma normalizzato in cui la densità di
frequenza è calcolata sulle frequenze relative
base ampiezza della classe di
altezza densità di frequenza hi
area del rettangolo frequenza relativa della
classe
area totale A 1
37Dati 30 consumatori di succhi di frutta
 ID. cliente scelta n. bot-tiglie prezzo CH prezzo MM sconto CH sconto MM fedele CH fedele MM Negozio
1 2127027 CH 2 1,86 2,13 0,470 0,540 0,933 0,067 Coloniali
2 2128058 CH 5 1,99 2,09 0,100 0,400 0,400 0,600 Bar
3 2128231 CH 5 2,09 2,09 0,200 0,400 0,820 0,180 Bar
4 2128363 CH 5 2,09 2,09 0,200 0,400 0,978 0,022 Bar
5 2128389 CH 4 2,09 2,09 0,200 0,400 0,795 0,205 S.market
6 2130153 CH 5 2,09 2,09 0,200 0,400 0,384 0,616 Bar
7 2131060 CH 6 1,99 2,09 0,100 0,400 0,986 0,014 Bar
8 2131060 CH 2 2,09 2,09 0,200 0,400 0,993 0,007 Bar
9 2131060 CH 4 2,09 2,09 0,200 0,400 0,994 0,006 Bar
10 2131631 CH 3 1,99 2,09 0,100 0,400 1,000 0,000 Bar
11 2131631 CH 5 2,09 2,09 0,200 0,400 1,000 0,000 Bar
12 2133751 CH 6 1,86 2,13 0,470 0,540 0,520 0,480 Coloniali
13 2136325 MM 5 2,09 2,09 0,200 0,400 0,342 0,658 S.market
14 2136838 MM 5 2,09 2,09 0,200 0,400 0,000 1,000 S.market
15 2137778 MM 2 1,75 1,99 0,160 0,300 0,351 0,649 D. Autom.
16 2138081 MM 1 1,99 2,09 0,100 0,400 0,500 0,500 S.market
17 2138081 CH 3 1,99 2,09 0,100 0,400 0,400 0,600 S.market
18 2138685 CH 4 1,69 1,69 0,300 0,200 0,320 0,680 Coloniali
19 2142976 CH 5 1,86 2,13 0,470 0,540 0,314 0,686 Coloniali
20 2143495 MM 5 1,75 1,99 0,160 0,300 0,131 0,869 D. Autom.
21 2143644 MM 2 1,75 1,99 0,160 0,300 0,248 0,752 D. Autom.
22 2143644 MM 3 1,86 2,13 0,470 0,540 0,220 0,780 Coloniali
23 2144956 CH 6 2,09 2,09 0,200 0,400 0,533 0,467 S.market
24 2147207 MM 5 1,99 2,09 0,100 0,400 0,670 0,330 S.market
25 2147207 CH 4 1,86 2,13 0,470 0,540 0,629 0,371 Coloniali
26 2147207 MM 1 2,09 2,09 0,200 0,400 0,450 0,550 S.market
27 2147660 CH 5 1,86 2,13 0,470 0,540 0,913 0,087 Coloniali
28 2147819 CH 1 1,86 2,13 0,470 0,540 0,500 0,500 Coloniali
29 2148098 CH 4 1,86 2,13 0,470 0,540 0,803 0,197 Coloniali
30 2149252 CH 6 1,75 1,99 0,160 0,300 0,895 0,105 D. Autom.
38Carattere Descrizione
scelta marca prescelta
n. bottiglie numero di bottiglie acquistate
prezzo CH prezzo della marca CH
prezzo MM prezzo della marca MM
sconto CH sconto per il prodotto CH
sconto MM sconto per il prodotto MM
fedele MM indicatore di fedeltà per il prodotto MM
fedele CH indicatore di fedeltà per il prodotto CH
negozio rivenditore del prodotto
39Esempio 2
Carattere fedele CH Distribuzione di frequenza
di 5 classi equiampie
n 30
Fedele CH ni fi Fi
0 0,2 2 0,06 0,06 0,3
0,2 0,4 9 0,30 0,36 1,5
0,4 0,6 5 0,17 0,53 0,85
0,6 0,8 3 0,10 0,63 0,5
0,8 1 11 0,37 1 1,85
Totale 30 1
40Istogramma delle frequenze relative
Istogramma delle densità di frequenza
In questo caso le due rappresentazioni sono
ugualmente valide, ma solo in quanto le classi
hanno la stessa ampiezza
41Esempio 3
Carattere fedele CH Distribuzione di frequenza
di 5 classi equifrequenti
n 30 ni 30 5 6
Fedele CH di ni fi Fi
0 0,32 0,32 6 0,2 0,2 0,625
0,32 0,45 0,13 6 0,2 0,4 1,538
0,45 0,67 0,22 6 0,2 0,6 0,909
0,67 0,93 0,26 6 0,2 0,8 0,769
0,93 1 0,07 6 0,2 1 2,857
Totale 30 1
42Istogramma delle frequenze assolute
Istogramma delle densità di frequenza
In questo caso è evidente che il primo grafico
non è adeguato a rappresentare la distribuzione
di frequenza.
43- In sintesi listogramma
- considera lintensità con cui le frequenze si
addensano allinterno delle diverse classi - è sensibile a cambiamenti dei criteri di
raggruppamento delle intensità in classi - permette di confrontare graficamente diverse
distribuzioni
44Esempio 4 Confronto grafico tra diversi criteri
di raggruppamento delle classi
Carattere Fatturato
A. Classi equifrequenti
45B. Classi equiampie
Come cambia la distribuzione se consideriamo 5
classi equiampie?
46C. Classi di diversa ampiezza e frequenza
47Confronto grafico quale suddivisione in classi
approssima meglio i dati originari?
48 493.2 Funzione di ripartizione empirica
50Rappresentazione grafica
Carattere Fatturato Classi equiampie
51Confronto tra i diversi criteri di raggruppamento
52LE RELAZIONI STATISTICHE
Riguardano lo studio delle relazioni tra due o
più caratteri statistici. Due o più caratteri
vengono analizzati simultaneamente al fine di
evidenziare i legami intercorrenti tra di
essi. Nel caso delle relazioni tra due caratteri,
loggetto dello studio è la distribuzione doppia
(o bivariata) rappresentabile in una tabella a
doppia entrata.
53LA DISTRIBUZIONE DOPPIA
frequenza marginale di riga
carattere in colonna
carattere in riga
j-ma modalità (intensità ) di Y
i-ma modalità (intensità ) di X
frequenza congiunta di xi ed yj
frequenza marginale di colonna
54LA DISTRIBUZIONE DOPPIACaratteristiche principali
- Se dividiamo ogni cella per n otteniamo la
tabella doppia per frequenze relative - Valgono per estensione tutte le proprietà viste
per le distribuzioni semplici
55LA DISTRIBUZIONE DOPPIAFrequenze relative
56ESEMPIO
A partire dalla successione delle intensitÃ
riguardanti i caratteri Fatturato (FATT) e
Fatturato Estero (FATEST) si costruisca la
distribuzione doppia di frequenze
rappresentandola in una tabella a doppia entrata
suddividendo le intensità dei due caratteri nei
modi seguenti
57(No Transcript)
58DISTRIBUZIONI MARGINALI
DISTRIBUZIONI CONDIZIONATE DI X
59DISTRIBUZIONI CONDIZIONATE DI Y
60Misure di tendenza centrale
Sono misure sintetiche che posizionano la
distribuzione di frequenza di un fenomeno e
consentono il passaggio da una pluralità di
informazioni ad un solo numero
Lobiettivo è di consentire di effettuare
confronti nel tempo, nello spazio o tra
circostanze differenti
- Mediana
- Quartili
- Decili
- Percentili
61Moda
La Moda (o norma o valore normale) di una
distribuzione è rappresentata dal valore
(qualitativo o numerico) che presenta la
frequenza assoluta o relativa più elevata.
Sintetizzare una distribuzione con la sua moda
equivale ad assumere come valore più
rappresentativo quello che si è verificato più
spesso.
Luso della moda ha tanto più senso quanto più la
sua frequenza si differenzia rispetto a quella
delle altre modalità o intensitÃ
62Variabili nominali
Carattere SCELTA
SCELTA ni fi
CH 21 0,7
MM 9 0,3
Totale 30 1
Mo CH
Variabili quantitative discrete
Carattere NUMERO DI BOTTIGLIE
N. bottiglie ni fi
1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1
Mo 5
63- Distribuzioni in classi
- Classi equiampie la classe modale è la classe a
cui corrisponde la frequenza più elevata - Classi equifrequenti o di diversa ampiezza e
frequenza la classe modale è la classe a cui
corrisponde la densità di frequenza più elevata
Carattere PREZZO CH, classi equiampie (primi 20
consumatori)
Classe ni fi Fi
1,69 1,77 3 0,15 0,15 1,875
1,77 1,85 0 0 0,15 0
1,85 1,93 3 0,15 0,30 1,875
1,93 2,01 5 0,25 0,55 3,125
2,01 2,09 9 0,45 1 5,625
Totale 20 1
Mo classe modale 2,01 -- 2,09
64Istogramma normalizzato
Funzione di ripartizione empirica
65Carattere Fatturato, classi equifrequenti
Classe modale 103 -- 129
66Distribuzioni bimodali o plurimodali
Carattere NEGOZIO
Negozio ni fi
Bar 9 0,30
Coloniali 9 0,30
D. automatico 4 0,13
Supermarket 8 0,27
Totale 30 1
Il carattere presenta due modalità con la massima
frequenza, dunque le due mode sono Mo1 Bar
Mo2 Coloniali
Distribuzione zeromodale
X ni fi
x1 20 0,5
x2 20 0,5
Totale 40 1
Mo ???
67I QUANTILI
Valori che bipartiscono la distribuzione delle
intensità /modalità in due gruppi disgiunti.
- Mediana
- Quartili
- Decili
- Percentili
NB. Quando si calcolano i quantili è sempre
neces-sario ordinare le intensi-tà /modalità in
senso non decrescente
Quantili
MEDIANA
- Valore che bipartisce la distribuzione ordinata
delle intensità /modalità x(1),,x(n) in due
gruppi della stessa numerosità - Intensità /modalità dellunità statistica che
occupa il posto centrale nella distribuzione
ordinata x(1),,x(n) - Intensità /modalità in corrispondenza della quale
la funzione di ripartizione è pari a 0,5 (FME
0,5) - E quel valore Me tale che tra il minimo x(1) ed
Me vi sono n/2 intensità /modalità (II Quartile Q2
)
68Caratteri quantitativi discreti
intensità che occupa la i-esima posizione nella
successione ordinata delle intensità (i1,.,n)
N.B. Se n è pari, la mediana può non
corrispondere a nessuna delle intensità osservate.
Caratteri qualitativi ordinali
Si individuano le 2 modalità x(Me-1)
tale che F(x(Me-1) )lt0,5 x(Me) tale
che F(x(Me)) ? 0,5 Me? x(Me) , perché tra le
ni unità che possiedono modalità xMe sarÃ
certamente compresa quella (se n è dispari) o
quelle (se n è pari) di posto centrale.
69Carattere NUMERO DI BOTTIGLIE
1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5
5 5 6 6 6 6
n 30
Essendo n pari la mediana è ottenuta come
Eliminando lultima osservazione n 29
Essendo n dispari
70Caratteri quantitativi continui
estremo inferiore della classe mediana
estremo superiore della classe mediana
Valore della Funzione di ripartizione in
corrispondenza della classe mediana
Valore della Funzione di ripartizione in
corrispondenza della classe che precede la classe
mediana
71(No Transcript)
72Ci ni fi Fi
5,27 15,43 13 0,43 0,43
15,43 25,59 7 0,23 0,66
25,59 35,76 5 0,17 0,83
35,76 45,92 1 0,03 0,87
45,92 56,08 2 0,07 0,93
56,08 66,24 2 0,07 1,00
Totale 30 1,00
1. Individuazione della classe mediana
CMe Ci Fi min (Fi gt 0,5)
15,43 25,59
2. Stima della mediana allinterno della classe
73QUARTILI
Primo Quartile E quel valore Q1 tale che tra il
minimo x(1) e Q1 vi sono n/4 intensità .
Caratteri qualitativi ordinali
Si individuano le 2 modalità x(Q1-1)
tale che F(x(Q1 -1) )lt0,25 x(Q1)
tale che F(x(Q1)) ? 0,25 Q1? x(Q1) , perché
tra le ni unità che possiedono modalità xQ1 sarÃ
certamente compresa quella (se n/4 è intero) o
quelle (se n/4 non è intero) di posto n/4.
74Terzo Quartile E quel valore Q3 tale che tra il
minimo x(1) e Q3 vi sono 3n/4 intensità .
Caratteri qualitativi ordinali
Si individuano le 2 modalità x(Q3-1)
tale che F(x(Q3 -1) )lt0,75 x(Q3)
tale che F(x(Q3) ) ? 0,75 Q3? x(Q3) , perché
tra le ni unità che possiedono modalità xQ3 sarÃ
certamente compresa quella (se n/4 è intero) o
quelle (se n/4 non è intero) di posto 3n/4.
75Calcolo dei quartili per una distribuzione
semplice
Carattere NUMERO DI BOTTIGLIE
1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5
5 5 6 6 6 6
n 30
Considerando le due semi-distribuzioni, ciascuna
di numerosità n
76Caratteri quantitativi continui
DECILI
q-mo Decile E quel valore Dq tale che tra il
minimo x(1) e Dq vi sono (qn)/10 intensità .
Per una distribuzione si possono calcolare fino a
9 Decili
PERCENTILI
q-mo Percentile E quel valore Pq tale che tra
il minimo x(1) e Pq vi sono
(qn)/100 intensità .
Per una distribuzione si possono calcolare fino a
99 Percentili
Per il calcolo dei Decili e dei Percentili si
utilizzano le stesse formule (adattate allo
specifico indice) utilizzate per il calcolo della
Mediana.
77I quartili di una distribuzione in classi saranno
determinati in base alla formula per il generico
quantile xpx
in cui, individuata la classe di riferimento, si
sostituirà ad Fdesiderata il valore 0,25 per Q1,
0,5 per Q2 (Me) e 0,75 per Q3.
CQ1 Ci Fi min (Fi gt 0,25) C1
CQ3 Ci Fi min (Fi gt 0,25) C3