Laboratorio Processi Stocastici - PowerPoint PPT Presentation

About This Presentation
Title:

Laboratorio Processi Stocastici

Description:

Random sampling. Se un insieme i.i.d. di campioni generato dalla pdf target . p. il metodo Monte Carlo approssima la pdf target con la seguente funzione di ... – PowerPoint PPT presentation

Number of Views:72
Avg rating:3.0/5.0
Slides: 36
Provided by: unig158
Category:

less

Transcript and Presenter's Notes

Title: Laboratorio Processi Stocastici


1
Laboratorio Processi Stocastici
  • Annalisa Pascarella
  • Istituto per le Applicazioni del Calcolo "M.
    Picone"Consiglio Nazionale delle Ricerche

2
Metodo Monte Carlo
  • Lidea è quella di estrarre un insieme i.i.d. di
    campioni da una pdf target p definita
    su uno spazio a grandi dimensioni ai quali sono
    associati dei pesi tale che lintegrale di
    una qualsiasi funzione misurabile rispetto alla
    pdf target p(x)
  • possa essere approssimato dalla somma pesata
  • i pesi wi sono determinati dalla stessa pdf
  • Tre approcci
  • random sampling -gt campiono direttamente dalla
    pdf target
  • importance sampling -gt uso una pdf dalla quale so
    campionare
  • MCMC

3
Random sampling
  • Se è un insieme i.i.d. di campioni
    generato dalla pdf target p il metodo Monte
    Carlo approssima la pdf target con la seguente
    funzione di densità empirica
  • Usando tale densità empirica si può
    calcolare unapprossimazione dellintegrale I
  • Per la legge dei grandi numeri si ha la
    convergenza a I(f)
  • La velocità di convergenza dipende da N e non
    dallo spazio nel quale vivono i campioni
  • principale vantaggio rispetto alle tecniche di
    quadratura

4
Random sampling
  • I campioni così ottenuti possono essere usati per
    calcolare ad es
  • Se ad es f(x)x e la pdf target è la pdf a
    posteriori p(xy), I(f) è il valor medio
    condizionale e una sua stima è
  • La principale hp è che si possano estrarre N
    i.i.d. campioni dalla pdf target
  • nel caso gaussiano esistono diverse routine per
    campionare da esse
  • in generale si devono campionare pdf complicate
    gt per ottenere un insieme di campioni con cui
    approssimare lintegrale I(f) si ricorre a
    tecniche più sofisticate come limportance
    sampling o i metoti MCMC

5
Importance sampling
  • Lidea alla base dellIS è usare una pdf q(x)
    dalla quale si sa campionare
  • q(x) prende il nome di proposal pdf
  • w(x) p(x)/q(x)
  • il supporto di q deve contenere quello della pdf
    target p
  • Se si possono estrarre N i.i.d. campioni da q(x)
    e calcolare i pesi p(x)/q(x) una stima Monte
    Carlo di I(f) sarà data da
  • in pratica stiamo effettuando un random sampling
    di f(x)w(x)

6
Importance sampling
  • Se sono in un contesto di inferenza Bayesiana
    vorrei poter campionare p(xy)
  • campionare tale pdf usando lIS non è sempre
    possibile in quanto spesso non si può calcolare
    la costante di normalizzazione
  • Una possibile soluzione
  • Markox Chain Monte Carlo usano catene di Markov
    per generare campioni da usare nellintegrazione
    Monte Carlo.
  • Lalgoritmo Metropolis è considerato tra uno dei
    dieci metodi che hanno avuto maggiore influenza
    sulle scienze e lingegneria nel XX secolo

7
MCMC
8
Da MC a MCMC
  • Lobiettivo dei metodi MC, e il loro principale
    utilizzo nelle applicazioni, è lintegrazione
  • stima del valore atteso di una funzione di X p
    (x) tramite simulazione di un campione da p
    (distribuzione target che può essere valutata
    facilmente ma dalla quale non è immediato
    campionare).
  • simulare un campione da una generica funzione
    target p può risultare di fondamentale importanza
    anche in altri contesti
  • Il metodo Markov Chain Monte Carlo (MCMC), che ci
    consente di ottenere campioni da funzioni target
    qualsiasi, consente quindi di raggiungere
    obiettivi inferenziali più generali del solo
    calcolo di un integrale.

9
MCMC
  • Lidea di base dei metodi MCMC è di generare un
    campione dalla distribuzione dinteresse p
    costruendo una catena di Markov irriducibile e
    aperiodica, avente la distribuzione target p come
    distribuzione stazionaria per n sufficientemente
    grande, una realizzazione Xn della catena è
    equivalente ad un campionamento da p .
  • Lapplicazione più popolare dei metodi MCMC è
    nellambito dellinferenza Bayesiana, dove la
    distribuzione target p è la distribuzione a
    posteriori, generalmente indicata con p, ed X
    sono i parametri di interesse, generalmente
    indicati con ?.

10
Differenze
  • La differenza sostanziale tra il metodo Monte
    Carlo classico e i metodi MCMC è che nel primo
    caso i campioni generati sono indipendenti tra
    loro, mentre nel secondo caso vengono generati
    attraverso un processo stocastico di Markov.
  • nei metodi MCMC i campioni sono correlati tra
    loro e di conseguenza vi è la necessità di un
    maggior numero di iterazioni per avere un
    risultato sufficientemente accurato.
  • Non sempre è possibile trovare una distribuzione
    da cui generare i campioni indipendenti, mentre è
    molto semplice generare una catena di Markov che
    si muova nello spazio delle soluzioni,
    addirittura anche nel caso in cui le probabilità
    che stiamo cercando siano proporzionali a una
    costante a noi sconosciuta, o di cui è difficile
    trovare il valore esatto.

11
Catene di Markov
  • Sia Xt il valore di una v.a. a t e sia Ss1, ,
    sm linsieme degli stati. Il processo stocastico
    Xt è un processo di Markov se

12
Catene di Markov
  • Nella dinamica delle catene di Markov abbiamo una
    matrice P, detta matrice di transizione, i cui
    elementi rappresentano delle probabilità di
    transizione tra diversi stati. Più precisamente
    pij è la probabilità condizionata che il sistema
    si trovi domani nello stato j essendo oggi
    nello stato i.
  • P è una matrice stocastica
  • la somma di ogni riga di P è uguale ad 1.
  • Indicato con p0 il vettore iniziale di
    probabilità degli stati si è interessati a sapere
    cosa succede al variare di n al vettore pn
    definito come
  • pn1 Ppn Pnp0, n gt 0

13
Catene di Markov
  • Si noti che anche Pn è una matrice di transizione
    avente righe a somma 1, un suo generico elemento
    di indici i e j rappresenta quindi la probabilità
    che il sistema si trovi dopo n passi nello stato
    j trovandosi nello stato i allistante iniziale.
  • elemento ij della matrice Pn
  • Si è interessati a sapere cosa succede per n
    crescente. Cosa possiamo dire sul comportamento
    della matrice Pn e di pn?
  • un concetto chiave in questo contesto è la
    distribuzione stazionaria, che indicheremo dora
    in poi con p.
  • una distribuzione p si dice stazionaria per una
    catena con probabilità di transizione P(x,y) se
  • il vettore delle probabilità di essere in un
    certo stato è indipendente dalla condizione
    iniziale.

14
Esempio
  • spazio degli stati Spioggia, sole, nuvole
  • il tempo segue un processo di Markov la
    probabilità del tempo di domani dipende solo da
    quello di oggi
  • P(pioggia domani pioggia oggi) 0.5
  • P(sole domani pioggia oggi) 0.25
  • P(nuvole domani pioggia oggi) 0.25
  • Se oggi cè il sole p0 (0 1 0)
  • tra 2 giorni p2 p0P2 (0.375 0.25 0.375) e tra 7
    p2 p0P7 (0.4 0.2 0.4)
  • Se oggi piove p0 (1 0 0)
  • tra 2 giorni p2 p0P2 (0.4375 0.1875 0.375) e
    tra 7 p2 p0P7 (0.4 0.2 0.4)
  • Dopo un certo tempo il tempo atteso è
    indipendente dal vettore delle probabilità
    iniziali
  • la catena ha raggiunto una distribuzione
    stazionaria, dove i valori di probabilità sono
    indipendenti dai valori iniziali di partenza

15
Irriducibilità e aperiodicità
  • Una catena di Markov è irriducibile se
  • in altre parole tutti gli stati comunicano con
    gli altri, è sempre possibile muoversi da uno
    stato allaltro
  • Una catena di Markov è aperiodica se il numero
    di step richiesti per muoversi tra due stati non
    è un multiplo di qualche intero. La catena non è
    intrappolata in qualche ciclo di lunghezza
    fissata tra certi stati
  • il periodo di uno stato x è il massimo comune
    divisore dellinsieme dxn 1 Pn(x,
    x) gt 0.
  • uno stato x si dice aperiodico se dx 1.

16
Ergodicità
  • Se Xt è una catena di Markox aperiodica e
    irriducibile con distribuzione stazionaria p
  • p è lunica distribuzione invariante
  • La media campionaria degli stati della catena è
    stimatore consistente del valore atteso della
    distribuzione limite p, nonostante gli stati
    siano fra loro dipendenti.

17
Catene reversibili
  • Condizione sufficiente per avere una
    distribuzione stazionaria è la condizione di
    reversibilità
  • Una catena di Markov che soddisfa tale condizione
    si dice reversibile
  • tale condizione implica che la catena ammette
    distribuzione stazionaria
  • Limportanza delle catene reversibili si spiega
    immediatamente
  • se esiste una distribuzione p che soddisfa la
    condizione di reversibilità per una catena di
    Markov irriducibile e aperiodica la distribuzione
    p è distribuzione stazionaria e anche
    distribuzione limite.
  • La costruzione di catene di Markov con
    distribuzione limite si riduce a trovare
    probabilità di transizione che soddisfano la
    condizione di reversibilità

18
MCMC
  • La strategia di campionamento MCMC consiste nella
    costruzione di catene di Markov aperiodiche e
    irriducibili per le quali la distribuzione
    stazionaria sia esattamente la distribuzione
    target p.
  • Due sono gli algoritmi utilizzati nel contesto
    della simulazione MCMC
  • Algoritmo Metropolis-Hasting
  • Algoritmo Gibbs Sampler

19
MCMC
  • Sia S s1, s2, . . . , sm un insieme di stati,
    dove m è la cardinalità dellinsieme S, e sia X
    una variabile aleatoria a valori in S, con
    probabilità pj P(X sj ). Sia, inoltre, f una
    funzione
  • definita su S a valori in R. Si vuole
    calcolare
  • Tale quantità potrebbe essere calcolata
    direttamente utilizzando la formula sopra
    riportata. Tuttavia, se la cardinalità di S è
    molto grande, tale approccio può risultate
    eccessivamente oneroso. Alternativamente, la
    quantità potrebbe essere approssimata
    utilizzando il metodo di Monte Carlo, ovvero
    campionando la variabile X, e utilizzando lo
    stimatore di media campionaria. Questo
    presuppone, tuttavia, di saper campionare
    dallinsieme S, cosa non sempre scontata.
    Inoltre, in talune applicazioni, la densità di
    probabilità è nota soltanto a meno di una
    costante moltiplicativa il che rende impossibile
    lutilizzo delle tecniche menzionate.

20
MCMC
  • Lidea dei metodi Markov Chain Monte Carlo è la
    seguente se siamo in grado di costruire una
    catena di Markov Xn sugli stati S, che sia
    ergodica e abbia p come probabilità limite,
    possiamo approssimare la quantità q mediante
  • Per la proprietà di ergodicità, sappiamo infatti

    che
    qualunque sia il punto di partenza della catena.
  • Poiché i primi stati della catena sono fortemente
    influenzati dallo stato iniziale, è buona norma
    iniziare a calcolare la media campionaria, lungo
    la traiettoria della catena, soltanto dopo k
    iterazioni, con k scelto opportunamente.
    Definiamo dunque lo stimatore

21
Metropolis-Hastings
  • Presenteremo ora lalgortimo MCMC universalmente
    noto con il nome di Metropolis-Hastings.
  • Esso risale alloriginale idea di Metropolis,
    alla base di svariati algoritmi di campionamento
    (i.e. simulated annealing) lalgoritmo è basato
    sullanalogia termodinamica con la posizione di
    equilibrio di un certo numero di molecole in una
    sostanza, la cui distribuzione è data da
    unenergia potenziale dal momento che il
    campionamento diretto da questa distribuzione non
    è possibile, Metropolis propose lutlizzo di
    metodi Monte Carlo.
  • In seguito, Hastings riprese lidea originale
    inserendola nel framework del campionamento da
    catene di Markov, e mantenendo laccettazione o
    il rifiuto del valore campionato nel nucleo di
    transizione della catena.

22
Metropolis-Hastings
  • Lidea è la seguente supponiamo di poter
    costruire una catena di Markov Xn irriducibile
    e aperiodica, con ununica legge limite p
  • Se noi simuliamo levoluzione della catena la
    legge di Xn al tempo n, quando n -gt8, convergerà
    a p, indipendentemente dalla legge iniziale
    scelta.
  • Consideriamo una matrice stocastica
    irriducibile e aperiodica t.c. qij?0 se qji?0 ,
    i,j1,,m. Sia Yn la catena di Markov sugli stati
    S avente Q come matrice di transizione. La catena
    Yn non avrà, in generale, probabilità limite pari
    a p.

23
Metropolis-Hastings
  • Costruiamo la matrice di transizione P definita
    da
  • La catena Xn è ergodica, reversibile e ammette p
    come distribuzione limite
  • Lequazione di bilancio è infatti soddisfatta
  • analizzando i due casi
    leq è sempre soddisfatta
  • Dallequazione di bilancio dettagliato consegue
    che p è anche probabilità invariante di P, e
    quindi probabilità limite, essendo la catena
    ergodica

24
Metropolis-Hastings - algoritmo
  • Un modo per generare il nuovo stato Xk1 della
    catena a partire da Xk
  • campionare la variabile Y avente distribuzione
    qXkj e calcolare la probabilità di accettazione
    dello spostamento da xk a y
  • accettare y con tale probabilità come?
  • estrarre t in 0,1 da una distribuzione di
    probabilità uniforme
  • se
  • se kK stop else kk1 and go to step 2

25
Esercizio
  • Si consideri un sistema di particelle che possa
    assumere solo m configurazioni possibili S 1,
    2, . . . ,m. La probabilità che il sistema si
    trovi nella configurazione j-esima è pj Ce-Ej/T
    (distribuzione di Boltzmann), essendo Ej j2 l
    lenergia del sistema, T la temperatura e C la
    costante di normalizzazione.
  • Scrivere una funzione Matlab che implementi
    lalgoritmo di Hastings-Metropolis, dati i valori
    m e T, il numero n di passi da simulare e lo
    stato iniziale X0 della catena e restituisca il
    vettore X degli stati visitati. Si prenda la
    matrice di transizione qij 1/m (ovvero partendo
    dallo stato i, lo stato candidato è uno qualunque
    degli altri stati con uguale probabilità).
  • Si prenda m 100, T 100 e si parta da uno
    stato a caso. Si valuti lo stimatore.
    confrontandolo col valore
    esatto

26
Esercizio
  • S 1, 2, . . . ,m, pj
    Ce-Ej/T , Ej j2
  • function X my_mh(m,T,n,X0)
  • n numero di passi da simulare, stato iniziale X0
    della catena , X vettore degli stati visitati,
    matrice di transizione qij 1/m (partendo dallo
    stato i, lo stato candidato è uno qualunque degli
    altri stati con uguale probabilità)
  • Algoritmo
  • campionare la variabile Y avente distribuzione
    qXkj e calcolare la probabilità di accettazione
    dello spostamento da xk a y. P(Xksi)pi
  • accettare y con tale probabilità come?
  • estrarre u in 0,1 da una distribuzione di
    probabilità uniforme
  • se kK stop else kk1 and go to step 2

27
Metropolis-Hastings
  • Costruiamo un opportuno nucleo di transizione
    P(x, y) tale che p sia la distribuzione
    stazionaria
  • Un modo immediato è scegliere una q tale che
  • p(x)P(x, y) p(y)P(y, x), ? (x, y)
  • In tal caso la catena è reversibile, condizione
    sufficiente perché p sia distribuzione
    stazionaria della catena risultante.
  • Il nucleo P(x, y) è scelto tale che
  • P(x, y) q(x, y)a(x, y), se x !y,
  • dove q(x, y) è un nucleo di transizione
    arbitrario, mentre a(x, y) è una probabilità di
    accettazione.
  • la probabilità di accettazione a(, ) è scelta
    in modo che la catena risultante sia reversibile,
    ovvero

28
Metropolis-Hastings
  • Per dimostrare che tale algoritmo genera una
    catena di Markov la cui densità di equilibrio è
    p(x) è sufficiente mostrare che il transition
    kernel P soddisfa lequazione di bilancio
  • Noi campioniamo da q(x,y) e accettiamo di
    muoverci con probabilità a(x, y)
  • Il transition kernel è
  • P(x,y)q(x,y) a(x, y)
  • si dimostra che con questo transition è
    soddisfatta lequazione di bilancio
  • la dimostrazione che la condizione di
    reversibilità è soddisfatta dalla scelta di P e
    dunque definisce una catena reversibile con
    distribuzione di equilibrio p, segue
    immediatamente dalla definizione della
    probabilità di accettazione.

29
Metropolis-Hastings
  • La scelta del nucleo q(, ) è arbitraria, e
    fornisce uno strumento molto flessibile per la
    costruzione dellalgoritmo

5
2
1
3
4

1
2
3
4
5
1
4
30
Metropolis-Hastings
  • Il nucleo di transizione q definisce solo una
    possibile mossa della catena, che deve essere
    confermata in base ad a per tale ragione viene
    solitamente chiamato proposal.
  • q deve dosare opportunamente i movimenti proposti
    in modo che non risulti troppo basso, ma lo
    spazio degli stati venga visitato
    sufficientemente in fretta.
  • La catena potrebbe rimanere nello stesso stato
    per molte iterazioni la potenza del metodo si
    esplica quando si riesce ad avere un tasso di
    accettazione non troppo basso.
  • Monitoraggio percentuale di iterazioni in cui la
    proposta è accettata.
  • Deve essere facile campionare dalla proposal, in
    quanto il metodo sostituisce il campionamento da
    p (difficile) con molti campionamenti da q
    (facili)

31
Metropolis-Hastings - algoritmo
  • inizializzare il contatore delle iterazioni k0
    ed il valore iniziale x0 per lo stato della
    catena
  • estrarre y da una proposal distribution q(xk,y) e
    calcolare la probabilità di accettazione dello
    spostamento da xk a y
  • accettare y con tale probabilità come?
  • estrarre t in 0,1 da una distribuzione di
    probabilità uniforme
  • se
  • se kK stop else kk1 and go to step 2

32
Metropolis
  • L'algoritmo base genera una sequenza stocastica
    di stati, a partire da x0, e la seguente regola
    dinamica per passare dallo stato x a y
  • propone un candidato y a partire da q(y,x) che
    potrebbe dipendere da x. Se il kernel è
    simmetrico q(x,y)q(y,x) per ogni x,y allora
  • La generazione del candidato si può implementare
    come y x e.
  • Possibili scelte per la distribuzione di e sono
    distribuzioni di Cauchy, Gaussiane, o T con pochi
    gradi di liberta.
  • se y usa meno energia dello stato corrente x si
    accetta con probabilità 1. Altrimenti si accetta
    con una probabilità esponenzialmente decrescente
    nella dierenza di energia formalmente

33
  • inizializzare il contatore delle iterazioni k0
    ed il valore iniziale x0 per lo stato della
    catena
  • estrarre y da una proposal distribution q(xk,y) e
    calcolare la probabilità di accettazione dello
    spostamento da xk a y
  • accettare y con tale probabilità come?
  • estrarre t in 0,1 da una distribuzione di
    probabilità uniforme
  • se
  • se kK stop else kk1 and go to step 2

34
Esercizio
  • Si assuma di voler campionare da una densità di
    Cauchy non normalizzata
  • Usiamo il random walk come proposal

35
Riassumendo
  • Le tecniche Monte Carlo per lapprossimazione di
    integrali possono essere contestualizzate in
    ambito statistico (inferenziale) e sfruttate per
    il calcolo di tutte quelle quantità di interesse
    statistico esprimibili sottoforma di integrali.
  • Le tecniche Markov Chain Monte Carlo, che
    permettono di ottenere un campione da una
    qualsiasi distribuzione target di interesse,
    consentono tra le altre cose di utilizzarlo per
    calcolare stime e fare inferenza. In questo senso
    possono considerarsi una generalizzazione delle
    tecniche Monte Carlo.
  • I metodi di inferenza statistica Bayesiana,
    basati sulla simulazione stocastica, utilizzano
    campioni dalla distribuzione a posteriori
    (target) per riassumere linformazione in essa
    contenuta.
Write a Comment
User Comments (0)
About PowerShow.com