Title: Introduction aux BDs Mobiles
1CSI-Piemonte Consorzio Sistemi Informativi
Provincia Comune di Torino
di Torino
Analisi dei cluster sui dati del Censimento
dellAgricoltura 2000 della Regione Piemonte
Jean Michel Bosco
2Agenda
- Contesto e obiettivi
- Organizzazione dei dati
- Esplorazione e trasformazione dei dati
- Definizione del modello
- Interpretazione dei risultati
- Organizzazione e planning
3Contesto e obiettivi
Vison, Obiettivi e Strategia La vision globale del progetto Valorizzare il Data Mining in seno al CSI Rendere i dati intelligenti Problematiche del Progetto Definire degli indicatori statistici Applicare una segmentazione (Clustering) Modello predittivo (Scoring) se sarà disponibile laccesso ai Database ORACLE Obiettivi Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dellattività per alimentare una riflessione strategica. Rilevare i bisogni del cliente
Disponibilità dei dati Sistemi informativi per lagricolura I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nellanalisi Lapplicativo Web http//www.regione.piemonte.it/capu/jsp/index.jsp per lanalisi multidimensionale Documentazione Glossario Scheda del Cesimento Norme di classificazione degli Agricoltori Accesso allinformazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide
4Organizzazione dei dati
- Definizione della granularità delle tavole SAS
applicando la PROC TRANSPOSE - Scelta delle variabili valorizzate per il
maggior numero di Aziende (76 variabili su 108) - Trattamento dei missing
Nome de la table Nb identifiants Nb de lignes Nb variables
1. base_azi 120965 120965 53
2. capo_azienda 120965 120965 4
3. contoterz 120965 120965 2
4. utilizzazione_terreno 120863 798443 7
5. manodopera_familiare 119712 296338 2
6. mezzi_meccanici 104734 337330 1
7. mez_tec 100176 373367 3
8. lavaro_terr 88788 386592 6
9. impianti 87029 165586 3
10.prod_comm 85623 177705 5
11.irrigazione 47279 240379 2
12.allevamento 42541 153577 4
13.vite 40622 118235 7
14.ricovero 38642 52736 2
15.prod_qual 21372 32319 2
16.latte 14616 47667 3
17.altra_manodopera 5432 8761 2
108
data base_imp2000_2 set datiodd.base_imp2000
LIV123_IMP(SUBSTR(COD_LIV1,1,2) '.'
SUBSTR(COD_LIV2,1,2) '.' SUBSTR(COD_LIV3,1,2
)) Run PROC TRANSPOSE DATAbase_imp2000_2
OUTbase_imp2000_3(LABEL"Transposed
datiodd.base_imp2000") NAMESource
LABELLabel BY z_cod_azienda ID LIV123_IMP
VAR CAPACITA RUN data base_imp2000_n
(keep z_cod_azienda CAP_IMP_M3 CAP_IMP_KG
CAP_IMP_M2) set base_imp2000_3 CAP_IMP_M3
sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03
D03,_29D04D06,_33D02D02,_33D04D04)
CAP_IMP_KG sum(_29D01D01,_29D01D02,_29D02D03,_
29D03D04,_29D03 D05,_30D03D03) CAP_IMP_M2
sum(_28D03D05,_33D01D01) label CAP_IMP_M3
'volume capacita impianti' label CAP_IMP_KG
'peso capacita impianti' label CAP_IMP_M2
'spazio capacita impianti' run
5Esplorazione e trasformazione dei dati
- Ridefinizione delle classi per le variabili
nominali (ordinali) - Assegnazione di una classe (9) alle proporzioni
più basse
6Esplorazione e trasformazione dei dati
- Transformazione logaritmica delle variabili
intervallari - Esclusivamente per le variabili la cui
distributizione migliora
7Definizione del modello
- Segmentazione non significativa con la proc
Fastclus, legata alla distribuzione delle
variabili - Le Reti Neurali non supervisionate restituiscono
una segmetazione meglio definita - Il test dei campioni aleatori confermano i
risultati ottenuti con le SOM/Kohonen
8Interpretazione dei risultati
Risultati SOM/KOHONEN (reti neurali non
supervisionate) segmentazione in 4 Cluster
18154
39983
35135 Orti familiari
27693 Grandi colture
9Interpretazione dei risultati
Comparazione dei cluster in funzione delle
variabili utilizzate
4
3
10Interprétation des résultats
Comparazione dei cluster in funzione delle
variabili utilizzate
11Interpretazione dei risultati
Comparazione dei cluster 3 e 4
12Interpretazione dei risultati
Valore Vendita in funzione della zona geografica
e della superfice utilizzata correlazione signif
icativa per le aziende site in pianura
13Interpretazione dei risultati
e
s
le dirigeant est plus
vieux en moyenne
avec des jours de travails
moins
élevés
q
q
une main d
œ
uvre familiale
non
significative
q
les superficies utilisées sont les moins
importantes
q
la superficie
orti
familia
ri
et celle des bois
l
es
plus importantes
q
La mo
itié dentre elles ne sont pas de la classe CEE
q
Ne sadresse
nt
pas aux organisations associatives pour
lutilisation des moyens
mécaniques
Consomme
nt
à peu près la moitié de son produit
q
q
Economiquement les moins importantes
14Interpretazione dei risultati
Il capo azienza è in genere di età più alta della
media, con poche giornate lavorative est plus
q
q
Mano d'opera familiare poco significativa
q
Le superfici ultizzate sono scarsamente rilevanti
q
Più significative le superfici destinate agli
orti familiari e ai boschi
q
La metà delle aziende appartenenti a questo
gruppo non rientrano nella classe CEE
q
Non si rivolgono ad organizzazioni assocciative
per i mezzi tecnici
Consumano allincirca la metà dei loro prodotti
q
q
Economicamente poco importanti
15Interpretazione dei risultati
CLUSTER
CARATTERISTICHE
q
Aziende accostabili al gruppo Grandi Colture
q
Colture arboricole permanenti
Cluster
2
q
Specilizzati in viticoltura
18154
azienda
Localizzate soprattutto in collina, e in parte
in pianura
q
q
Forte capacità di trasformazione dei prodotti
Aderiscono a società cooperative
q
q
V
endono buona parete dei prodotti alle
organizzazioni associative, ma non ai
contrattuali
q
Sono in prevalenza Proprietari
Azienda
proche
des azienda
de
petite culture mixte
q
q
Installé
e
s surtout sur les montagnes
en partie
Cluster
1
Vend
ent
aux consommateurs
q
3
9983
azienda
q
Majoritairement propriétaires
16Interpretazione dei risultati
17Interpretazione dei risultati
Ripartizione delle attività in funzione dei
cluster
ATTIVITà CLASS_AZIENDA (120965) CLASS_AZIENDA (120965) CLASS_AZIENDA (120965) CLASS_AZIENDA (120965)
ATTIVITà 1 (39983) 2 (18154) 3 (35135) 4 (27693)
ALLEVAMENTO (42541) 33,77 13,36 16,29 36,39 (33,78)
VITE (40622) 43,58 37,98 11,06 7,38
LATTE (14616) 29,34 9,28 4,54 56,83
AGRITURISMO (596) 22,48 39,09 9,40 29,03
Vendono di più rispetto al cluster 1
18Interpretazione dei risultati
Ripartizione delle attività in funzione dei
cluster
ATTIVITà CLASS_AZIENDA (120965) (42541) (40622) CLASS_AZIENDA (120965) (42541) (40622) CLASS_AZIENDA (120965) (42541) (40622) CLASS_AZIENDA (120965) (42541) (40622)
ATTIVITà 1 (39983) 2 (18154) 3 (35135) 4 (27693)
ALLEVAMENTO (42541) 33,77 (37,97) 13,36 (14,04) 16,29 (16,98) 36,39 (31,01)
VITE (40622) 43,58 (33,11) 37,98 (19,69) 11,06 (26,30) 7,38 (20,91)
LATTE (14616) 29,34 9,28 4,54 56,83
AGRITURISMO (596) 22,48 39,09 9,40 29,03
Il gruppo 1 resta leader, ma sefuito dal gruppo 3
19Interpretazione dei risultati
Ripartizione del tipo di credito per lintera
popolazione
111355 azienda su 120965 che non hanno
credito (0 0 0 0)
29 azienda su 120965 hanno tutti i crediti (1 1
1 1)
20Interpretazione dei risultati
Ripartizione del tipo di credito per lintera
popolazione
111355 azienda sur 120965 nont rien comme
crédit (0 0 0 0)
29 azienda sur 120965 ont eu tous les 4 Crédits
(1 1 1 1)
21Interpretazione dei risultati
Ripartizione del tipo di credito per lintera
popolazione
Test dassociazione tra 2 variabili La coppia
(1,1) contribuisce in modo più significativo alla
statistica del Khi-2, le V di Cramer vicina a 0,
quindi esiste unassociazione debole tra le due
variabili Test dassociazione tra CL_UDE(classe
economica) e i 2 tipi di credito rifiuto di Ho,
dunque associazione, Ma la correlazione di
Spearman si avvicina a 0, il chè implica une
associazione debole
111355 azienda sur 120965 nont rien comme
crédit (0 0 0 0)
29 azienda sur 120965 ont eu tous les 4 Crédits
(1 1 1 1)
2224 Mai
23Organizzazione e Planning