Agentes Baseados em Utilidade - PowerPoint PPT Presentation

About This Presentation
Title:

Agentes Baseados em Utilidade

Description:

Title: Agentes Baseados em Utilidade Author: Gustavo Danzi Last modified by: Geber Created Date: 7/21/2003 4:57:07 PM Document presentation format – PowerPoint PPT presentation

Number of Views:31
Avg rating:3.0/5.0
Slides: 35
Provided by: Gustav78
Category:

less

Transcript and Presenter's Notes

Title: Agentes Baseados em Utilidade


1
Agentes Baseados em Utilidade
  • Gustavo Danzi de Andrade
  • Geber Ramalho
  • gda,glr_at_cin.ufpe.br

2
Relembrando
  • Um agente
  • Está em um mundo descrito por um conjunto de
    estados S s1, s2,...,sn
  • Pode realizar, neste mundo, um conjunto de ações
    A a1, a2,...,at
  • As conseqüências de suas ações são descritas por
    uma função de transição
  • Mundo determinístico T(si,aj) ? sk
  • Mundo não-determinístico (função estocástica)
    ?(si,aj) ? (pt,st), (pk,sk), ... (ps,ss) onde
    pk é a probabilidade do estado ser ak

3
O que veremos
  • Agentes capazes de ...
  • Tomar decisões racionais baseado no que acredita
    e deseja
  • Diferentemente de um agente lógico
  • Pode tomar decisões em ambientes com incertezas e
    objetivos conflitantes
  • Possui uma escala contínua de medida de qualidade
    sobre os estados
  • Funções de Utilidade associam um valor a um
    estado
  • Indica a felicidade por estar nesse estado
  • U(S) utilidade estado S de acordo com o agente
  • Ex. s1 rico, famoso, s2 pobre, famoso
  • U(s1) 10
  • U(s2) 5

4
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

5
Escolha de ações
  • Princípio da Maximização da Utilidade agente
    racional deve escolher ações que maximizam sua
    utilidade !
  • Mundo determinístico
  • Isto é feito escolhendo diretamente a ação de
    maior utilidade
  • Mundo determinístico
  • É preciso considerar todos os possíveis estados
    de saída de cada ação não-determinista e escolher
    a que maximiza a utilidade esperada

6
Ambiente determinístico exemplo
  • Exemplo
  • S (rico,famoso), (rico,desconhecido),
    (pobre,famoso),(pobre,desconhecido)
  • A trabalhar, participar do BigBrother
  • Transições de estados (dinâmica do ambiente)
  • T(pobre,desconhecido), trabalhar (rico,
    desconhecido)
  • T(pobre,desconhecido), part. BB (rico,
    famoso)
  • Função de Utilidade
  • U(rico,famoso) 10
  • U(rico,desconhecido) 8
  • U(pobre,famoso) 5
  • U(pobre,desconhecido) 0
  • Supondo que o agente é pobre e desconhecido
    (estado inicial), qual a melhor ação a executar?
  • Participar do BigBrother...

7
Em ambientes não-determinísticos
  • Para cada saída possível é associada uma
    probabilidade
  • P (Result(A) Do(A), E)
  • Onde, E resume a evidência que o agente possui do
    mundo
  • Do(A) indica que a ação A foi executada no
    estado atual
  • Utilidade esperada de uma ação A dado a evidência
    do mundo E
  • UE(AE) ?i P(Resulti(A)Do(A),E) x
    U(Resulti(A))
  • Nesta aula Tomadas de Decisões Simples
  • O agente decide apenas uma vez

8
Exemplo 1
  • Um Robô deve transportar uma caixa
  • E a caixa é de metal
  • a1 Chutar s1, caixa no destino 20 U(s1)
    10
  • s2, caixa no meio do caminho 30 U(s2) 5
  • s3, caixa longe destino 50 U(s3) 0
  • a2 Carregar s1, caixa no destino 80 U(s1)
    10
  • s4, caixa na origem 20 U(s4) 0
  • UE(a1) 0,20 x 10 0,30 x 5 0,50 x 0 3,5
  • UE(a2 ) 0,80 x 10 0,20 x 0 8

A melhor ação é Carregar (a2)
9
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

10
Funções de Utilidade
  • Funções de Utilidade são, essencialmente,
    heurísticas!
  • Preferências racionais permitem descrever o
    melhor comportamento como aquele que maximiza UE
  • Propriedades do desejo do agente
  • Caso satisfaçam as restrições racionais, pode-se
    garantir a existência de uma Função de Utilidade
    U(S) ? R
  • Notação
  • A ? B A é preferível a B
  • A B agente indiferente entre A e B
  • A ? B agente prefere A à B ou é indiferente
  • Para ações não-deterministas
  • A e B são loterias distribuições probabilísticas
    sobre um conjunto de estados de saída

11
Restrições Racionais
  • Axiomas da Teoria da Utilidade
  • Ordenabilidade (A gt B) ? ( B gt A) ? (A B)
  • Transitividade (A gt B) ? (B gt C) ? (A gt C)
  • Continuidade A gt B gt C ? ?p p.A 1 - p.C B
  • Substitutibilidade A B ? p.A 1 p.C
    p.B 1 p.C
  • Monotonicidade
  • A gt B ? ( p ? q ? p.A 1 p.B ? q.A 1
    q.B )
  • Decomponibilidade
  • p.A 1 p. q.B 1 q.C p.A (1 p)q.B
    (1 p)(1 q). C

12
Exemplo 2 A Utilidade do Dinheiro
  • Como seria a função de utilidade do dinheiro?
  • Situação
  • Um jogador está ganhando um prêmio de R
    1.000.000
  • É oferecida uma aposta Cara ou Coroa
  • Se aparecer cara ? jogador perde tudo
  • Se aparecer coroa ? jogador ganha R 3.000.000
  • Hipótese 1 Linear?
  • U(x) x
  • Calculando o Valor Monetário Esperado de Aceitar
    a Aposta
  • 0.5 U(R 0) 0.5 U(R 3.000.000) 1.500.000
  • Calculando o Valor Monetário Esperado de Recusar
    a Aposta
  • 1 U(R 1.000.000) R 1.000.000 (menor)
  • Isso indica que seria melhor aceitar a aposta...

13
Exemplo 2 A Utilidade do Dinheiro
  • Hipótese 2 Não-linear?
  • U(0) 0
  • U(1.000.000) 100
  • U(3.000.000) 150
  • Calculando o Valor Monetário Esperado
  • EU (Aceitar) 0.5 U(0) 0.5 U(3.000.000 ) 75
  • EU (Rejeitar) U(1.000.000) 100
  • A melhor opção é rejeitar a aposta...
  • Onde, Sk riqueza atual do jogador
  • Na prática, o valor do dinheiro depende da
    situação atual
  • U(k,n) onde k é a riqueza atual e n o novo
    ganho
  • À medida que k cresce, a utilidade de n
    diminui....
  • Conclusão
  • Utilidade não é diretamente proporcional ao valor
    monetário
  • Dependa da mudança no estilo de vida...

14
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

15
Funções Multi-atributo
  • Como tratar funções de utilidades com várias
    variáveis X1, ..., Xn ?
  • Ex. Construir aeroporto,
  • Variáveis Segurança, Custo, Poluição sonora
  • U (Segurança, Custo, Poluição sonora) ?
  • Existem duas situações
  • Dominância
  • decisões podem ser tomadas sem combinar os
    valores dos atributos em um único valor da
    utilidade
  • Estrutura de Preferência e Utilidade
    Multi-atributo
  • utilidade resultante da combinação dos valores
    dos atributos pode ser especificada concisamente

16
Dominância Total
  • Se um estado S1 possui valores melhores em todos
    seus atributos do que S2, então existe uma
    dominância total de S1 sobre S2
  • ? i Xi(B) ? Xi(A) (e portanto U(B) ? U(A))
  • Dominância total raramente acontece na prática...

17
Dominância Estocástica
  • Exemplo, custo de construir um aeroporto
  • Em S1 valor uniformemente distribuído entre
    2,8 e 4,8 bilhões
  • Em S2 valor uniformemente distribuído entre 3
    e 5,2 bilhões
  • Dada a informação que a utilidade decresce com
    custo
  • S1 domina estocasticamente S2
  • UE de S1 é pelo menos tão alta quanto UE de S2
  • Na prática, dominância estocástica pode ser
    definida usando apenas um raciocínio qualitativo
  • Ex. custo de construção aumenta com a distância
    para a cidade
  • S1 é mais próximo da cidade do que S2 ? S1 domina
    S2 estocasticamente sobre o custo

18
Estrutura de Preferência e Utilidade
Multi-atributo
  • Supondo que existem n atributos com d possíveis
    valores
  • No pior caso, serão necessários dn valores
    (preferência sem regularidade)
  • A Teoria da Utilidade Multi-atributo assume que
    preferências de agentes possuem certa
    regularidade (estrutura)
  • Abordagem básica é tentar identificar essas
    regularidades!
  • Agentes com uma certa estrutura em suas
    preferências terão uma função
  • U(x1,...,Xn) f f1(x1),...,f2(x2)
  • Onde espera-se que f seja uma função simples!
  • Se os atributos forem mutuamente independentes...

19
Estrutura de Preferência e Utilidade
Multi-atributo
  • Atributos mutuamente independentes
  • X1 e X2 são preferencialmente independente de X3
    se, e somente se Preferência entre x1, x2, x3
    e x1, x2, x3 não depende em x3
  • Independência preferencial mútua (MPI) todos os
    pares de atributos são preferencialmente
    independente com relação aos demais
  • Ex. Segurança, Custo, Poluição sonora
  • Com MPI, o comportamento preferencial do agente
    pode ser descrito como uma maximização da função
  • Caso determinista V (x1 ... xn) ?i Vi(xi)
    (somatório)
  • Caso não-determinista basta estender para lidar
    com loterias

20
Exemplo 3
  • Construir aeroporto
  • Variáveis Segurança, Custo, Poluição sonora
  • U (Segurança, Custo, Poluição sonora)
  • V(Segurança) V(Custo) V(Poluição sonora)
  • V(Segurança) Número de itens de segurança
    construídos
  • V(Custo) Custo total da construção em milhões
    de R
  • V(Poluição sonora) População afetada (taxa por
    100 mil hab.)

21
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

22
Teoria do Valor da Informação
  • Problemas anteriores assumiam que todas as
    informações estavam disponíveis
  • O que acontece quando
  • Cabe ao agente buscar as informações necessárias
  • Obtenção de informações tem um custo associado
  • Ex. solicitação de um exame por parte de um
    médico
  • A Teoria do Valor da Informação permite que o
    agente escolha quais informações adquirir

23
Exemplo 4
  • Exemplo comprar os direitos de exploração de
    reservas de petróleo
  • Dois blocos A e B, apenas um possui óleo com
    valor C
  • Probabilidade de comprar o bloco certo 0,5
  • O preço de cada bloco é C/2
  • Consultor oferece uma pesquisa para detectar qual
    bloco possui petróleo.
  • Qual o valor dessa informação?

24
Exemplo 4
  • Solução
  • Calcular o valor esperado da informação valor
    esperado da melhor ação dada a informação valor
    esperado da melhor ação sem a informação
  • Pesquisador irá informar há óleo em A ou há
    óleo em B. Então
  • Melhor ação com a informação C
  • Melhor ação sem a informação (0,5 x C) (0,5 x
    0) C/2
  • Valor esperado da informação C C/2 C/2

25
Exemplo 4
  • Uma informação só terá valor caso gere uma
    mudança de plano, e se esse novo plano for
    significativamente melhor do que o antigo.
  • S1 e S2 dois estados distintos
  • U1 (S1) gt U2 (S2)
  • Nova evidência NE produzirá novas utilidades
    esperadas U1 e U2
  • Vale a pena adquirir NE?
  • Para uma situação clara, a informação não é
    necessária...
  • Para uma escolha obscura, a informação é
    valiosa...

26
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

27
Teoria dos Jogos
  • Agentes baseados em utilidade podem atuar em
    ambientes incertos...
  • Mas o que acontece quando a incerteza é
    proveniente de outros agentes e de suas decisões?
    E se as essas decisões são influenciadas pelas
    nossas?
  • A Teoria dos Jogos trata essas questões
  • É usada para tomar decisões sérias (decisões de
    preço, desenvolvimento de defesa nacional, etc)

28
Teoria dos Jogos
  • Na Teoria dos Jogos, jogos são compostos de
  • Jogadores
  • Ações
  • Matriz de Resultado
  • Cada jogador adota uma Estratégia (diretriz)
  • Estratégia Pura
  • Diretriz determinística uma ação para cada
    situação
  • Estratégia Mista
  • Ações selecionadas sobre uma distribuição
    probabilística

29
Exemplo 5
  • Dois ladrões (Alice e Bob) são presos perto da
    cena do crime e interrogados separadamente
  • Ações testemunhar, recusar
  • Matriz de resultados
  • Dilema do Prisioneiro
  • Eles devem testemunhar ou se recusarem a
    testemunhar?
  • Ou seja, qual estratégia adotar?
  • Estratégia Dominante
  • Estratégia que domina todas as outras
  • É irracional não usar uma estratégia dominante,
    caso exista

Alice
Testemunhar Recusar
Testemunhar A -5 B -5 A -10 B 0
Recusar A 0 B -10 A -1 B -1
Bob
30
Exemplo 5
  • Qual será a decisão de Alice se ela for racional?
    E de Bob?
  • Testemunhar (estratégia dominante)
  • Equilíbrio de Estratégia Dominante
  • Situação onde cada jogador possui uma estratégia
    dominante
  • Então, eis que surge o dilema
  • Resultado para o ponto de equilíbrio é Pareto
    Dominated pelo resultado recusar, recusar !
  • Um resultado é dito Pareto Dominated por outro
    se todos jogadores preferirem esse outro
    resultado
  • Há alguma maneira de Alice e Bob chegarem ao
    resultado (-1, -1)?
  • Opção permitida mais pouco provável
  • Poder atrativo do ponto de equilíbrio !

31
Equilíbrio de Nash
  • Equilíbrio de Nash
  • Agentes não possuem intenção de mudar de
    estratégia
  • Condição necessária para uma solução
  • John Nash provou que todo jogo possui um
    equilíbrio assim definido
  • Equilíbrio de Estratégia Dominante é um
    Equilíbrio de Nash
  • Mas esse conceito afirma mais
  • Existem estratégias que se equilibram mesmo que
    não existam estratégias dominantes

32
Exemplo 6
  • Exemplo
  • Uma companhia de fabricante de hardware (Best) e
    outra de discos (ACME)
  • Dois equilibrios de Nash
  • dvd, dvd e cd, cd
  • Um equilíbrio Pareto Dominated

ACME
DVD CD
DVD A 9 B 9 A -1 B -5
CD A -5 B -1 A 5 B 5
Best
33
Roteiro
  • Ambientes Determinísticos e Não-Determinísticos
  • Funções de Utilidade
  • Funções de Utilidade Multi-atributo
  • Teoria do Valor da Informação
  • Teoria dos Jogos

34
Em resumo...
  • Funções de Utilidade
  • Associam a cada estado um valor real
  • Indica a felicidade do agente em estar em cada
    estado
  • Princípio de Maximização da Utilidade
  • Um agente racional deve escolher a ação que
    maximiza sua utilidade esperada
  • Utilidade Esperada
  • Indica a utilidade de uma ação a que pode
    resultar em diversos estados s i
  • UE(s,a) ? i T(s,a,s i) . U(s i)
  • Teoria dos Jogos
  • Estratégias dominantes e equilíbrios
Write a Comment
User Comments (0)
About PowerShow.com