DAS-5341: M - PowerPoint PPT Presentation

1 / 46
About This Presentation
Title:

DAS-5341: M

Description:

DAS-5341: M todos de Solu o para Problemas de Aprendizagem por Refor o Prof. Eduardo Camponogara – PowerPoint PPT presentation

Number of Views:86
Avg rating:3.0/5.0
Slides: 47
Provided by: GuyB45
Category:
Tags: das | decision | markov

less

Transcript and Presenter's Notes

Title: DAS-5341: M


1
DAS-5341 Métodos de Solução para
Problemas de Aprendizagem por Reforço
  • Prof. Eduardo Camponogara

2
Métodos de Solução Elementares
  • Programação Dinâmica
  • Matematicamente fundamentados
  • Necessitam de um modelo completo e acurado do
    ambiente
  • Métodos Monte Carlo
  • Não necessitam de um modelo
  • Simples, mas podem ser lentos
  • Métodos de Diferença Temporal
  • Não necessitam de modelos
  • Incrementais
  • Observação os métodos variam em termos de
    eficiência e taxa de convergência

3
Programação Dinâmica
  • O termo PD (Programação Dinâmica) se refere a uma
    coleção de algoritmos que podem ser usados para
    calcular políticas ótimas, dado um modelo
    perfeito do ambiente em MDP (Markov Decision
    Process)
  • MDP perfeito do ambiente
  • S, conjunto de estados
  • A(s), ações possíveis no estado s
  • Ps,sa Prst1 s st s, at a
  • Rs,sa Ert1 st1 s, st s, at a

4
Programação Dinâmica
  • PD pode ser aplicada a problemas cujos espaços de
    estados e ações são contínuos ou discretos
  • Na prática, faz-se uso de discretização
  • Equações de otimalidade de Bellman
  • V(s) Max Eprt1 gågkrtk2 st s, at
    a
  • a k 0
  • Max å Ps,sa Rs,sa gV(s)
  • a s

5
Programação Dinâmica
  • Equações de otimalidade de Bellman
  • Q(s, a) Ert1 g Max Q(st1,a) st s,
    at a
  • a
  • å Ps,sa Rs,sa g Max Q(s,a)
  • s a

6
Avaliação de Política
  • Questão dado um MDP e uma política p, como
    podemos calcular Vp?

7
Avaliação de Política
  • Vp(s) Eprt1 grt2 g2rt3 st s
  • Eprt1 gVp(st1) st s
  • å p(s, a) å Ps,sa Rs,sa g Vp(s)
    "s Î S
  • a s

8
Avaliação de Política
  • A existência de uma solução única é garantida se
    g lt 1
  • Se o ambiente é conhecido, temos um sistema de
    S equações lineares e S variáveis
  • Possíveis métodos de solução
  • Métodos de Álgebra Linear
  • Processos iterativos síncronos e assíncronos

9
Processo Iterativo
  • Vk1(s) Eprt1 gVk(st1) st s
  • å p(s, a) å Ps,sa Rs,sa g Vk(s)
    "s Î S
  • a s
  • Procedimento
  • Iniciamos com V0 arbitrário
  • Iteramos conforme acima, obtendo
  • V0 V1 V2 Vk Vk1
  • Teorema. Lim Vk Vp
  • K

10
Avaliação de Política Processo Iterativo
  • Atualização Sequencial
  • Utiliza-se dois vetores, um para armazenar Vk e
    outro para Vk1
  • Calcula-se Vk1 sem modificar Vk
  • Atualização Simultânea
  • Utiliza-se apenas um vetor
  • Mesmo assim, o algoritmo iterativo também
    converge para Vp e, tipicamente, converge mais
    rapidamente
  • A ordem de atualização importa

11
Melhorando a Política
  • Uma das razões para se calcular a função valor de
    uma política é guiar a busca de melhores
    políticas
  • Considere uma a função valor Vp, gostaríamos de
    saber se é recomendável escolhermos uma ação a
    deterministicamente do que seguirmos a política
  • O valor de se escolher a deterministicamente é
  • Qp(s,a) Eprt1 gVp(st1) st s, at
    a
  • å Ps,sa Rs,sa g Vp(s)
  • s

12
Melhorando a Política
  • Se Qp(s,a) gt Vp(s), então e melhor escolher a
    ação a quando em s, depois seguir a política
    p
  • Se espera obter maiores ganhos se sempre
    escolhermos a no estado s, produzindo uma
    política p superior
  • Teorema Policy Improvement Theorem Sejam p e p
    dois pares de políticas determinísticas tal que
  • Qp(s, p(s)) ³ Vp(s) para todo s Î S
  • Então a política p produz desempenho melhor ou
    igual a p, ou seja,
  • Vp(s) ³ Vp(s) para todo s Î S

13
Política Gulosa
  • Uma extensão da idéia anterior é aplicarmos
    melhoria de política em todos os estados e
    ações, selecionando em cada estado a ação que
    parece mais promissora de acordo com Qp(s, a)
  • Produzimos então a política gulosa p
  • p(s) Argmax Qp(s, a)
  • a
  • Argmax Eprt1 gVp(st1) st s,
    at a
  • a
  • Argmax å Ps,sa Rs,sa g Vp(s)
  • a s

14
Política Gulosa
  • A política gulosa p satisfaz as condições do
    Policy Improvement Theorem, portanto p é tão boa
    quanto p
  • O processo de melhorarmos a política original p,
    por meio do procedimento guloso ou quase-guloso
    com respeito à política original, é dito
    melhoria de política (policy improvement)

15
Política Gulosa
  • Caso mais de uma ação produza o valor máximo,
    então no caso estocástico pode-se selecionar
    dentre as ações máximas com qualquer
    probabilidade.

16
Iteração de Política
  • E I E
    I I
    E
  • po Vp0 p1 Vp1 p
    Vp
  • E Policy Evaluation
  • I Policy Improvement
  • Convergência
  • A cada iteração a política resultante é
    estritamente melhor do que a anterior
  • Uma vez que um MDP finito possui um número finito
    de políticas determinísticas, o processo acima
    converge para uma política ótima e função valor
    ótima

17
Algoritmo
  • 1) Inicialização
  • V(s) Î R e p(s) Î A(s) são arbitrárias para
    cada s Î S
  • 2) Avaliação de Política
  • Repita
  • D 0
  • Para cada s Î S
  • u V(s)
  • V(s) å Ps,sp(s) Rs,sp(s) g V(s)
  • s
  • D Max(D, u V(s))
  • Enquanto D ³ Q (um número positivo pequeno)

18
Algoritmo
  • 3) Iteração de Política
  • Política-estável verdadeiro
  • Para cada s Î S
  • b p(s)
  • p(s) Argmax å Ps,sa Rs,sa g V(s)
  • a Î A(s) s
  • If b ¹ p(s) então política_estável falso
  • Se política_estável falso, vá para 2
  • caso contrário, pare

19
Exemplo -- GridWorld
  • Estados não terminais S 1, , 14
  • Para s Î S, as ações possíveis são A(s) up,
    down, right, left, com resultado determinístico,
    exceto as ações que levam para fora do quadro.
  • Ex P5,6right 1 e P5,10right 0
  • O ganho é 1 em todas as transições até que um
    estado terminal seja atingido
  • Estados terminais são os quadrados escuros

1 2 3
4 5 6 7
8 9 10 11
12 13 14
20
Calculando Vp para p uniforme k 0
Política gulosa w.r.t Vk
Vk para política randômica
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0




21
Calculando Vp para p uniforme k 1
Política gulosa w.r.t Vk
Vk para política randômica
0.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 0.0




22
Calculando Vp para p uniforme k 2
Política gulosa w.r.t Vk
Vk para política randômica
0.0 -1.7 -2.0 -2.0
-1.7 -2.0 -2.0 -2.0
-2.0 -2.0 -2.0 -1.7
-2.0 -2.0 -1.7 0.0




23
Calculando Vp para p uniforme k 3
Política gulosa w.r.t Vk
Vk para política randômica
0.0 -2.4 -2.9 -3.0
-2.4 -2.9 -3.0 -2.9
-2.9 -3.0 -2.9 -2.4
-3.0 -2.9 -2.4 0.0




24
Calculando Vp para p uniforme k 10
Política gulosa w.r.t Vk
Vk para política randômica
0.0 -6.1 -8.4 -9.0
-6.1 -7.7 -8.4 -8.4
-8.4 -8.4 -7.7 -6.1
-9.0 -8.4 -6.1 0.0




25
Calculando Vp para p uniforme k
Política gulosa w.r.t Vk
Vk para política randômica
0.0 -14 -20 -22
-14 -18 -20 -20
-20 -20 -18 -14
-22 -20 -14 0.0




26
Exemplo Aluguel de Veículo
  • João gerencia duas lojas de aluguel de veículos,
    uma localizada na cidade A e outra, na cidade B
  • Todos os dias clientes se dirigem a uma das
    lojas, havendo carro disponível na loja, João
    aluga um veículo por 10, caso contrário o
    negócio é perdido
  • Para fazer com que veículos estejam disponíveis
    onde eles são procurado, veículos podem ser
    transportados de uma loja para outra a um custo
    de 2 por veículo

27
Exemplo Aluguel de Veículo
  • O número de veículos procurados e retornados em
    uma loja são variáveis randômicas que obedecem a
    distribuição de Poisson, ou seja,
  • P(veículos n) lne-l/n!,
  • onde l é o número esperado
  • Seja lpedido 3 e lretorno 3 na loja 1
  • Seja lpedido 4 e lretorno 2 na loja 2

28
Exemplo Aluguel de Veículo
  • Para simplificar o problema, assumimos que
    existem no máximo 20 carros em cada loja (carros
    adicionais são retornados à matriz)
  • Assumimos que no máximo 5 carros podem ser
    movidos de uma loja para outra
  • Modelagem podemos modelar o problema como um MDP
  • O estado é o número de veículos em cada loja no
    fim do dia
  • O passos correspondem a dias
  • As ações correspondem ao número de veículos
    transportados entre as lojas

29
Iteração de Valor
  • O ponto fraco do método Iteração de Política é a
    avaliação de política a cada iteração, o que é
    tipicamente custosoa avaliação é por si só um
    processo iterativo que requer múltiplas
    varreduras do espaço de estados
  • Se a avaliação de política é executada
    iterativamente, então convergência exata para Vp
    é garantida apenas no limite

30
Iteração de Valor
  • Devemos aguardar convergência para a função exata
    ou podemos parar antes de atingi-la?

31
Iteração de Valor
  • Devemos aguardar convergência para a função exata
    ou podemos parar antes de atingi-la?
  • Felizmente a avaliação da política pode ser
    interrompida de diversas maneiras sem perdermos a
    garantia de convergência.
  • Um caso especial é aquele onde executamos apenas
    uma varredura do espaço de estados. Esse método é
    chamado de Iteração de Valor.

32
Iteração de Valor
  • O Algoritmo Iteração de Valor pode ser escrito
    como uma operação que combina melhoria de
    política e avaliação truncada de política em um
    só passo
  • Vk1(s) Max Ert1 gVk(st1) st s, at
    a
  • a
  • Max å Ps,sa Rs,sa g Vk(s) "s Î
    S
  • a s
  • Para V0 arbitrário, a sequência Vk converge
    para V sob as mesmas condições que garantem a
    existência de V

33
Equação de Bellman
  • Equação de Bellman para Vp
  • Vp(s) å p(s,a) å Ps,sa Rs,sa g
    Vp(s) "s Î S
  • a s
  • Equação de Otimalidade de Bellman
  • V(s) Max å Ps,sa Rs,sa g V(s)
    "s Î S
  • a s

34
Iteração de Valor
  • Da mesma forma que iteração de política, iteração
    de valor necessita de um número infinito de
    iterações para convergência exata para V.
  • Na prática, interrompe-se o processo tão logo a
    função sofra pequena modificação após uma
    varredura completa do espaço de estados
  • Iteração de valor combina eficientemente uma
    varredura de avaliação de política e uma
    varredura de melhoria de política

35
Algoritmo Iteração de Valor
  • 1) Inicialize V arbitrariamente V(s) 0 " s Î
    S
  • 2) Repita
  • D 0
  • Para cada s Î S
  • u V(s)
  • V(s) Max å Ps,sa Rs,sa g V(s)
  • a s
  • Max(D, u V(s))
  • Enquanto D ³ Q (um número positivo pequeno)

36
Algoritmo Iteração de Valor
  • 3) Calcule a política determinística
  • p(s) Argmax å Ps,sa Rs,sa g V(s) , "
    s Î S
  • a s

37
Programação Dinâmica Assíncrona
  • O ponto fraco dos métodos DP (Dynamic
    Programming) vistos até então é a necessidade de
    varrer-se todos os estados a cada iteração
  • Algoritmos DP assíncronos são algoritmos
    iterativos que não são organizados em termos de
    varreduras sistemáticas do espaço de estados
  • Os valores podem ser atualizados em qualquer
    ordem e frequência
  • Para que convergência seja obtida, eles devem
    periodicamente visitar todos os estados

38
Programação Dinâmica Assíncrona
  • De qualquer forma, iteração assíncrona não
    significa que a tarefa computacional será menos
    pesada.

39
Programação Dinâmica Assíncrona
  • De qualquer forma, iteração assíncrona não
    significa que a tarefa computacional será menos
    pesada.
  • Ela nos dá flexibilidade que pode ser explorada
    de forma a obtermos um algoritmo mais eficiente
  • Podemos, por exemplo, utilizar uma rede de
    computadores

40
Programação Dinâmica Assíncrona
  • DP assíncrona nos permite misturar computação com
    iteração em tempo-real. Para resolver um dado
    Problema MDP, um agente pode intercalar
    computações com interações com o ambiente
  • A experiência determina os estados cujos valores
    devem ser atualizados.
  • Os valores mais recentes são usados para guiar o
    agente no processo de tomada-de-decisão.

41
Iteração de Política Generalizada
  • Iteração de política consiste de dois processos
    interativos simultâneos
  • Um fazendo a função valor consistente com a
    política corrente (avaliação de política) e
  • Outro fazendo a política gulosa com respeito à
    função valor corrente (melhoria de política)
  • Em iteração de política, os dois processos são
    alternados, cada um terminando antes do outro
    começar
  • Em iteração de valor, apenas uma iteração de
    avaliação de política é executada entre cada
    melhoria de política
  • Em DP assíncrono, avaliação e melhoria de
    política são intercaladas de forma mais fina

42
Iteração de Política Generalizada
  • Enquanto que os dois processos sejam alternados e
    todos os estados sejam visitados, os métodos
    acima convergem para a função valor ótima e
    política ótima.
  • Utilizamos o termo Iteração de Política
    Generalizada (GPI) para nos referir à interação
    entre i) o processo de avaliação e ii) o processo
    de melhoria de política, independentemente da
    granularidade

43
Iteração de Política Generalizada
V Vp
V
p
p greedy(V)
V
p
44
Eficiência da Programação Dinâmica
  • DP pode não ser prático para problemas com número
    muito grande de estados
  • Ignorando-se detalhes técnicos, no pior caso DP
    leva tempo polinomial no número de estados e
    ações para encontrar a política ótima
  • n S
  • m Max A(s)
  • s Î S
  • Polinômio em m e n

45
Eficiência da Programação Dinâmica
  • DP é exponencialmente mais rápido do que qualquer
    busca direta no espaço de estados, pois esta
    teria que examinar cada uma das possíveis
    políticas
  • Existe um número mn de políticas determinísticas
  • Programação Linear pode ser utilizada para
    resolver MDPs e, em alguns casos, o desempenho
    pode ser superior
  • DP assíncrono é preferido em problemas com muitos
    estados

46
Fim
  • Obrigado!!!
Write a Comment
User Comments (0)
About PowerShow.com