Analisi di dati altamente dimensionati per la previsione dell - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

Analisi di dati altamente dimensionati per la previsione dell

Description:

Title: Presentazione di PowerPoint Last modified by: Gasparini Created Date: 1/1/1601 12:00:00 AM Document presentation format: Presentazione su schermo – PowerPoint PPT presentation

Number of Views:36
Avg rating:3.0/5.0
Slides: 27
Provided by: calvinoPo2
Category:

less

Transcript and Presenter's Notes

Title: Analisi di dati altamente dimensionati per la previsione dell


1
Analisi di dati altamente dimensionati per
laprevisione dellascolto televisivo
Daniele Imparato Mauro Gasparini Dipartimento di
Matematica del Politecnico di Torino Sco2005
Bressanone, 16 Settembre 2005
2
Una collaborazione
  • RAI sede di Torino, Divisione ICT
  • ICTeam, una software house con sedi a Bergamo e a
    Torino
  • Dipartimento di Matematica del Politecnico di
    Torino

3
Scopo del progetto
  • Data warehouse dei dati sullaudience televisiva
    ormai assodato
  • Prevedere lo share a breve e medio termine
  • Supporto alla costruzione strategica del
    palinsesto (no contenuti, solo contenitori)
  • Costruzione di un applicativo software snello

Gasparini-Imparato 16/09/05
4
Database management
  • Dati prelevati dai database RAI tramite SQL
  • SQL acronimo per Structured Query Language
  • Iinguaggio di interrogazione per basi di dati
    relazionali
  • es. DBMS commerciali Oracle, Informix.
  • Linguaggio non procedurale (facile accesso ai
    dati)
  • Semplice sintassi per operazioni di algebra
    relazionale
  • es. select, join di tabelle
  • interfaccia SQL e R interrogazioni con query in
    SQL forniscono dati in un dataframe R



Gasparini-Imparato 16/09/05
5
Misurazione dellascolto televisivo
  • Rilevazione effettuata da Auditel
    panel Auditel
  • campione casuale, stratificato, in parte
    variabile nel tempo
  • Misure dascolto
  • copertura lorda CL numero di contatti al lordo
    delle duplicazioni
  • ascolto medio Am su un intervallo T Am CL /T
  • share su un intervallo T proporzione di ascolto
    medio normalizzato rispetto alla platea, in
    percentuale
  • Misure già riportate alla popolazione totale
    (ascolto esteso)

Gasparini-Imparato 16/09/05
6
Previsione dellascolto televisivo
  • Previsione in un contesto di regressione
  • Scelta della variabile risposta share o ascolto?
  • (shareRAI1, shareRAI2, shareRAI3, sharealtro)
  • (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3,
    ascoltoaltro)
  • share è una composizione nel simplesso
    tridimensionale mentre ascolto è una risposta in
    ?3
  • Una risposta trivariata o tre risposte
    univariate?
  • Scelta delle variabili predittori
  • minuto fattore di 24 livelli (ore) o predittore
    quantitativo?
  • giorno della settimana fattore di 7 livelli
  • genere trasmesso e controprogrammazione fattori
    di 17 livelli
  • ?? mese / stagione

Gasparini-Imparato 16/09/05
7
Trasformazione dello share
  • Alla generica osservazione n, poni
  • si dice che Y è una trasformazione logit
    additivo
  • il vettore share vive nel simplesso, la
    trasformazione Y vive in tutto lo spazio ?3
  • trasformazione usata da Consonni e Giudici (1998)

Gasparini-Imparato 16/09/05
8
Distribuzioni normali logistiche
  • Trasformazione logistica additiva

La sua inversa è detta logit additivo
  • Una composizione x ha distribuzione normale
    logistica additiva se
  • Lavorando su Y si possono trattare i dati
    trasformati come normali multivariate


Gasparini-Imparato 16/09/05
9
Trasformazione dellascolto
  • Alla generica osservazione n, poni semplicemente
  • y in log (ascoltoin) i1,2,3
  • la trasformazione Y vive in tutto lo spazio ?3
  • utile quando la platea (il normalizzante dello
    share) è variabile
  • noi useremo questa trasformazione e la supporremo
    normale
  • platea diventerà un predittore, o osservato (?
    variabile baseline) oppure ipotizzato
  • dalla stima dellascolto ricostruiremo una stima
    dello share

Gasparini-Imparato 16/09/05
10
Modello previsivo finale
Implementazione di un modello ibrido parametrico
- non parametrico
  • parametrico
  • modello di regressione lineare utile in
    presenza di buchi e di scarsa numerosità di
    occorrenze passate
  • non parametrico
  • media opportuna dei valori di share
    attraverso proiezioni di un cubo
    multidimensionale dei predittori utile in
    presenza di molti dati, quando le assunzioni del
    modello lineare diventano forzate

Gasparini-Imparato 16/09/05
11
Modello parametrico finale
  • Tre modelli di regressione univariati, uno per
    ciascuna rete
  • consideriamo il modello previsivo per lo
    share di RAI1
  • Scelta della risposta
  • Ylog (ascoltoRAI1)
  • Scelta e codifica dei predittori
  • minuto fattore di 24 livelli (ore del giorno)
  • giorno della settimana fattore di 7 livelli
  • genere di RAI1 fattore di 17 livelli
  • genere di Can5 fattore di 17 livelli
    (controprogrammazione)
  • log (platea) dato quantitativo inputato

Gasparini-Imparato 16/09/05
12
Controprogrammazione e platea
  • Leffetto della contro-programmazione dipende
    dalla rete

RAI1 vs. Canale5
RAI2 vs. Italia1
RAI3 vs. Rete4
  • Attenzione il valore della platea non è noto in
    fase di previsione media pesata delle
    platee degli anni passati

platea2005i (0.3) platea2004i 0.25)
platea2003i
platea2002i platea2001i
(0.3)
(0.25)
(0.25)
(0.2)
Gasparini-Imparato 16/09/05
13
Scelta delle interazioni
  • Testati modelli con più interazioni con il test
    F
  • interazione giorno - minuto significativa
  • interazione giorno - genere non
    significativa
  • interazione genere RAI1- genere CANALE5
    significativa
  • Problema linterazione gen1-gen5 necessita di
    uno sconto della matrice dei dati. Il database è
    stato sottocampionato.
  • Osservazione oggigiorno il problema di avere
    troppi dati è sempre più frequente...

Gasparini-Imparato 16/09/05
14
Formulazione del modello
Modello con interazione giorno-minuto e
genere1-genere5
log(asc_individui)ijkpm a0 minm
giornoj genere1
a0
minm
giornoj
genere1k
?log(platea)
genere5p
aplatea





mingiornomj
genere1genere5kp
errore
i1,,njkpm (variabile a seconda del
campionamento) j1,,6 , k,p1,,16,
m1,,23
Gasparini-Imparato 16/09/05
15
Prelevamento dei dati
  • Prese in esame fasce di garanzia di
    ottobre-novembre e marzo-maggio da marzo 2000 a
    maggio 2004.
  • sotto-campionamento casuale del DB
  • 2004 un dato/15 min. 2003-2002 un
    dato/30min
  • 2001 un dato/1h 2000
    un dato/2h
  • prove di sensitività al variare del
    sotto-campionamento casuale

Gasparini-Imparato 16/09/05
16
Analisi dei residui
  • Andamento dei box-plot dellerrore per fascia
    oraria
  • possibilità di eteroschedascticità
  • omogeneità alternata durante il mattino
  • Grande omogeneità nel pomeriggio e di notte
  • out-liers in tarda mattinata, prime-time e
    second-time

Gasparini-Imparato 16/09/05
17
Validazione del modello
  • Metodo di cross-validation
  • stimato lo share su RAI1 per i giorni 4-9
    marzo 2005 e confrontato con i valori reali ad
    una granularità del quarto dora
  • Attenzione 4-5 marzo è andato in onda SANREMO
    !!
  • è possibile testare i limiti di validità del
    modello
  • l evento Sanremo ha reso necessaria unanalisi
    separata per i due periodi 4-6 e 7-9 marzo 2005

Gasparini-Imparato 16/09/05
18
Risultati 7-9 marzo 2005
  • Confronto dellandamento dello share reale con
    quello stimato per il modello parametrico
  • il trend stimato corrisponde
  • grosso modo a quello reale !

Gasparini-Imparato 16/09/05
19
Errore e intervalli previsivi
  • Andamento dellerrore
  • In media lerrore è pari a 4.5
  • nel 75 dei casi inferiore a 5
  • Intervallo previsivo per la stima dello share



_
  • Intervallo previsivo al 68 media dev.
    standard
  • 68 delle volte lo share reale è compreso
    nellintervallo previsivo

  • I risultati confermano lefficacia del modello
    statistico di regressione per la previsione dello
    share

Gasparini-Imparato 16/09/05
20
Risultati 4-6 marzo 2005
  • Confronto dellandamento dello share reale con
    quello stimato per il modello parametrico

valori anomali in prime time e second
time dovuti a Sanremo
Il modello cade in difetto !
Gasparini-Imparato 16/09/05
21
Il modello non parametrico
  • media dei valori di share attraverso proiezioni
    del cubo multidimensionale dei predittori
  • loperazione di media risulta tanto più
    significativa quanto maggiore è il numero di
    occorrenze passate
  • anche il modello non parametrico ha mostrato un
    trend molto soddisfacente dello share previsto
    per i giorni 7-9 marzo ed è caduto in difetto
    durante Sanremo

Gasparini-Imparato 16/09/05
22
Scelta del modello ibrido
  • Riusciamo a ridurre ulteriormente lentità degli
    errori presenti coi due modelli ?
  • Modello parametrico minimizza gli errori
    in presenza di scarse

  • osservazioni del passato
  • Modello non parametrico ottimale quando il
    numero di occorrenze

  • passate risulta elevato
  • Creiamo un modello ibrido che prenda il meglio di
    ognuno dei due!

Gasparini-Imparato 16/09/05
23
Calibrazione empirica del modello
  • Il numero N di occorrenze passate su cui si media
    viene preso come fattore discriminante nella
    scelta dei due modelli
  • modello parametrico se N lt N0
  • modello non parametrico altrimenti
  • analisi 7-9 marzo 2005 e ottobre-novembre 2004

Le analisi congiunte sui due modelli
suggeriscono la scelta di N0 50 come
parametro ottimale
  • ulteriore riduzione degli errori
  • In media lerrore è pari a 0.035
  • nel 75 dei casi inferiore a 0.04

Gasparini-Imparato 16/09/05
24
Front-end grafico del sistema prototipale
25
Front-end grafico nel sistema prototipale
Fascia oraria
Risultati SPERIMENTALI
Numero occorrenze
SHARE medio
25,77
3,83
1312
Varianza
26
Lavoro futuro
  • Il modello ibrido va in crisi in presenza di
    programmi dal contenuto di particolare rilievo
    (vd. Sanremo)
  • Analisi centrate alla modellizzazione del
    contenuto di una trasmissione (analisi dei testi,
    codifica dei contenuti e dei protagonisti)
  • Analisi suddivisa per target
  • Satellitare digitale terrestre cambierà tutto.

Gasparini-Imparato 16/09/05
Write a Comment
User Comments (0)
About PowerShow.com