Title: Analisi di dati altamente dimensionati per la previsione dell
1Analisi di dati altamente dimensionati per
laprevisione dellascolto televisivo
Daniele Imparato Mauro Gasparini Dipartimento di
Matematica del Politecnico di Torino Sco2005
Bressanone, 16 Settembre 2005
2Una collaborazione
- RAI sede di Torino, Divisione ICT
- ICTeam, una software house con sedi a Bergamo e a
Torino - Dipartimento di Matematica del Politecnico di
Torino
3Scopo del progetto
- Data warehouse dei dati sullaudience televisiva
ormai assodato - Prevedere lo share a breve e medio termine
- Supporto alla costruzione strategica del
palinsesto (no contenuti, solo contenitori) - Costruzione di un applicativo software snello
Gasparini-Imparato 16/09/05
4Database management
- Dati prelevati dai database RAI tramite SQL
- SQL acronimo per Structured Query Language
- Iinguaggio di interrogazione per basi di dati
relazionali - es. DBMS commerciali Oracle, Informix.
- Linguaggio non procedurale (facile accesso ai
dati) - Semplice sintassi per operazioni di algebra
relazionale - es. select, join di tabelle
- interfaccia SQL e R interrogazioni con query in
SQL forniscono dati in un dataframe R -
-
Gasparini-Imparato 16/09/05
5Misurazione dellascolto televisivo
- Rilevazione effettuata da Auditel
panel Auditel - campione casuale, stratificato, in parte
variabile nel tempo - Misure dascolto
- copertura lorda CL numero di contatti al lordo
delle duplicazioni - ascolto medio Am su un intervallo T Am CL /T
- share su un intervallo T proporzione di ascolto
medio normalizzato rispetto alla platea, in
percentuale - Misure già riportate alla popolazione totale
(ascolto esteso) -
-
Gasparini-Imparato 16/09/05
6Previsione dellascolto televisivo
- Previsione in un contesto di regressione
- Scelta della variabile risposta share o ascolto?
- (shareRAI1, shareRAI2, shareRAI3, sharealtro)
- (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3,
ascoltoaltro) - share è una composizione nel simplesso
tridimensionale mentre ascolto è una risposta in
?3 - Una risposta trivariata o tre risposte
univariate? - Scelta delle variabili predittori
- minuto fattore di 24 livelli (ore) o predittore
quantitativo? - giorno della settimana fattore di 7 livelli
- genere trasmesso e controprogrammazione fattori
di 17 livelli - ?? mese / stagione
-
Gasparini-Imparato 16/09/05
7Trasformazione dello share
- Alla generica osservazione n, poni
- si dice che Y è una trasformazione logit
additivo - il vettore share vive nel simplesso, la
trasformazione Y vive in tutto lo spazio ?3 - trasformazione usata da Consonni e Giudici (1998)
Gasparini-Imparato 16/09/05
8Distribuzioni normali logistiche
- Trasformazione logistica additiva
-
La sua inversa è detta logit additivo
- Una composizione x ha distribuzione normale
logistica additiva se - Lavorando su Y si possono trattare i dati
trasformati come normali multivariate -
Gasparini-Imparato 16/09/05
9Trasformazione dellascolto
- Alla generica osservazione n, poni semplicemente
- y in log (ascoltoin) i1,2,3
- la trasformazione Y vive in tutto lo spazio ?3
- utile quando la platea (il normalizzante dello
share) è variabile - noi useremo questa trasformazione e la supporremo
normale - platea diventerà un predittore, o osservato (?
variabile baseline) oppure ipotizzato - dalla stima dellascolto ricostruiremo una stima
dello share
Gasparini-Imparato 16/09/05
10Modello previsivo finale
Implementazione di un modello ibrido parametrico
- non parametrico
- parametrico
- modello di regressione lineare utile in
presenza di buchi e di scarsa numerosità di
occorrenze passate - non parametrico
- media opportuna dei valori di share
attraverso proiezioni di un cubo
multidimensionale dei predittori utile in
presenza di molti dati, quando le assunzioni del
modello lineare diventano forzate
Gasparini-Imparato 16/09/05
11Modello parametrico finale
- Tre modelli di regressione univariati, uno per
ciascuna rete - consideriamo il modello previsivo per lo
share di RAI1 -
- Scelta della risposta
- Ylog (ascoltoRAI1)
-
- Scelta e codifica dei predittori
-
- minuto fattore di 24 livelli (ore del giorno)
- giorno della settimana fattore di 7 livelli
- genere di RAI1 fattore di 17 livelli
- genere di Can5 fattore di 17 livelli
(controprogrammazione) - log (platea) dato quantitativo inputato
Gasparini-Imparato 16/09/05
12Controprogrammazione e platea
- Leffetto della contro-programmazione dipende
dalla rete -
-
RAI1 vs. Canale5
RAI2 vs. Italia1
RAI3 vs. Rete4
- Attenzione il valore della platea non è noto in
fase di previsione media pesata delle
platee degli anni passati -
platea2005i (0.3) platea2004i 0.25)
platea2003i
platea2002i platea2001i
(0.3)
(0.25)
(0.25)
(0.2)
Gasparini-Imparato 16/09/05
13Scelta delle interazioni
- Testati modelli con più interazioni con il test
F -
- interazione giorno - minuto significativa
- interazione giorno - genere non
significativa
- interazione genere RAI1- genere CANALE5
significativa
- Problema linterazione gen1-gen5 necessita di
uno sconto della matrice dei dati. Il database è
stato sottocampionato. - Osservazione oggigiorno il problema di avere
troppi dati è sempre più frequente... -
Gasparini-Imparato 16/09/05
14Formulazione del modello
Modello con interazione giorno-minuto e
genere1-genere5
log(asc_individui)ijkpm a0 minm
giornoj genere1
a0
minm
giornoj
genere1k
?log(platea)
genere5p
aplatea
mingiornomj
genere1genere5kp
errore
i1,,njkpm (variabile a seconda del
campionamento) j1,,6 , k,p1,,16,
m1,,23
Gasparini-Imparato 16/09/05
15Prelevamento dei dati
- Prese in esame fasce di garanzia di
ottobre-novembre e marzo-maggio da marzo 2000 a
maggio 2004.
- sotto-campionamento casuale del DB
-
- 2004 un dato/15 min. 2003-2002 un
dato/30min - 2001 un dato/1h 2000
un dato/2h
- prove di sensitività al variare del
sotto-campionamento casuale -
Gasparini-Imparato 16/09/05
16Analisi dei residui
- Andamento dei box-plot dellerrore per fascia
oraria
- possibilità di eteroschedascticità
- omogeneità alternata durante il mattino
-
- Grande omogeneità nel pomeriggio e di notte
-
- out-liers in tarda mattinata, prime-time e
second-time -
Gasparini-Imparato 16/09/05
17Validazione del modello
- Metodo di cross-validation
- stimato lo share su RAI1 per i giorni 4-9
marzo 2005 e confrontato con i valori reali ad
una granularità del quarto dora
- Attenzione 4-5 marzo è andato in onda SANREMO
!! - è possibile testare i limiti di validità del
modello
- l evento Sanremo ha reso necessaria unanalisi
separata per i due periodi 4-6 e 7-9 marzo 2005
Gasparini-Imparato 16/09/05
18Risultati 7-9 marzo 2005
- Confronto dellandamento dello share reale con
quello stimato per il modello parametrico -
- il trend stimato corrisponde
- grosso modo a quello reale !
Gasparini-Imparato 16/09/05
19Errore e intervalli previsivi
- In media lerrore è pari a 4.5
- nel 75 dei casi inferiore a 5
- Intervallo previsivo per la stima dello share
_
- Intervallo previsivo al 68 media dev.
standard - 68 delle volte lo share reale è compreso
nellintervallo previsivo
- I risultati confermano lefficacia del modello
statistico di regressione per la previsione dello
share
Gasparini-Imparato 16/09/05
20Risultati 4-6 marzo 2005
- Confronto dellandamento dello share reale con
quello stimato per il modello parametrico -
valori anomali in prime time e second
time dovuti a Sanremo
Il modello cade in difetto !
Gasparini-Imparato 16/09/05
21Il modello non parametrico
- media dei valori di share attraverso proiezioni
del cubo multidimensionale dei predittori
- loperazione di media risulta tanto più
significativa quanto maggiore è il numero di
occorrenze passate
- anche il modello non parametrico ha mostrato un
trend molto soddisfacente dello share previsto
per i giorni 7-9 marzo ed è caduto in difetto
durante Sanremo
Gasparini-Imparato 16/09/05
22Scelta del modello ibrido
- Riusciamo a ridurre ulteriormente lentità degli
errori presenti coi due modelli ?
- Modello parametrico minimizza gli errori
in presenza di scarse -
osservazioni del passato
- Modello non parametrico ottimale quando il
numero di occorrenze -
passate risulta elevato
- Creiamo un modello ibrido che prenda il meglio di
ognuno dei due! -
Gasparini-Imparato 16/09/05
23Calibrazione empirica del modello
- Il numero N di occorrenze passate su cui si media
viene preso come fattore discriminante nella
scelta dei due modelli
- modello parametrico se N lt N0
- modello non parametrico altrimenti
-
- analisi 7-9 marzo 2005 e ottobre-novembre 2004
Le analisi congiunte sui due modelli
suggeriscono la scelta di N0 50 come
parametro ottimale
- ulteriore riduzione degli errori
- In media lerrore è pari a 0.035
- nel 75 dei casi inferiore a 0.04
Gasparini-Imparato 16/09/05
24Front-end grafico del sistema prototipale
25Front-end grafico nel sistema prototipale
Fascia oraria
Risultati SPERIMENTALI
Numero occorrenze
SHARE medio
25,77
3,83
1312
Varianza
26Lavoro futuro
- Il modello ibrido va in crisi in presenza di
programmi dal contenuto di particolare rilievo
(vd. Sanremo)
- Analisi centrate alla modellizzazione del
contenuto di una trasmissione (analisi dei testi,
codifica dei contenuti e dei protagonisti)
- Analisi suddivisa per target
- Satellitare digitale terrestre cambierà tutto.
Gasparini-Imparato 16/09/05