Agentes Baseados em Utilidade

About This Presentation

Title:

Agentes Baseados em Utilidade

Description:

Title: Agentes Baseados em Utilidade Author: Gustavo Danzi Last modified by: Geber Created Date: 7/21/2003 4:57:07 PM Document presentation format – PowerPoint PPT presentation

Number of Views:32

Avg rating:3.0/5.0

Slides: 35

Provided by: Gustav78

Category:

more less

Transcript and Presenter's Notes

Title: Agentes Baseados em Utilidade

1
Agentes Baseados em Utilidade

Gustavo Danzi de Andrade
Geber Ramalho
gda,glr_at_cin.ufpe.br

2
Relembrando

Um agente
Está em um mundo descrito por um conjunto de
estados S s1, s2,...,sn
Pode realizar, neste mundo, um conjunto de ações
A a1, a2,...,at
As conseqüências de suas ações são descritas por
uma função de transição
Mundo determinístico T(si,aj) ? sk
Mundo não-determinístico (função estocástica)
?(si,aj) ? (pt,st), (pk,sk), ... (ps,ss) onde
pk é a probabilidade do estado ser ak

3
O que veremos

Agentes capazes de ...
Tomar decisões racionais baseado no que acredita
e deseja
Diferentemente de um agente lógico
Pode tomar decisões em ambientes com incertezas e
objetivos conflitantes
Possui uma escala contínua de medida de qualidade
sobre os estados
Funções de Utilidade associam um valor a um
estado
Indica a felicidade por estar nesse estado
U(S) utilidade estado S de acordo com o agente
Ex. s1 rico, famoso, s2 pobre, famoso
U(s1) 10
U(s2) 5

4
Roteiro

Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos

5
Escolha de ações

Princípio da Maximização da Utilidade agente
racional deve escolher ações que maximizam sua
utilidade !
Mundo determinístico
Isto é feito escolhendo diretamente a ação de
maior utilidade
Mundo determinístico
É preciso considerar todos os possíveis estados
de saída de cada ação não-determinista e escolher
a que maximiza a utilidade esperada

6
Ambiente determinístico exemplo

Exemplo
S (rico,famoso), (rico,desconhecido),
(pobre,famoso),(pobre,desconhecido)
A trabalhar, participar do BigBrother
Transições de estados (dinâmica do ambiente)
T(pobre,desconhecido), trabalhar (rico,
desconhecido)
T(pobre,desconhecido), part. BB (rico,
famoso)
Função de Utilidade
U(rico,famoso) 10
U(rico,desconhecido) 8
U(pobre,famoso) 5
U(pobre,desconhecido) 0
Supondo que o agente é pobre e desconhecido
(estado inicial), qual a melhor ação a executar?
Participar do BigBrother...

7
Em ambientes não-determinísticos

Para cada saída possível é associada uma
probabilidade
P (Result(A) Do(A), E)
Onde, E resume a evidência que o agente possui do
mundo
Do(A) indica que a ação A foi executada no
estado atual
Utilidade esperada de uma ação A dado a evidência
do mundo E
UE(AE) ?i P(Resulti(A)Do(A),E) x
U(Resulti(A))
Nesta aula Tomadas de Decisões Simples
O agente decide apenas uma vez

8
Exemplo 1

Um Robô deve transportar uma caixa
E a caixa é de metal
a1 Chutar s1, caixa no destino 20 U(s1)
10
s2, caixa no meio do caminho 30 U(s2) 5
s3, caixa longe destino 50 U(s3) 0
a2 Carregar s1, caixa no destino 80 U(s1)
10
s4, caixa na origem 20 U(s4) 0
UE(a1) 0,20 x 10 0,30 x 5 0,50 x 0 3,5
UE(a2 ) 0,80 x 10 0,20 x 0 8

A melhor ação é Carregar (a2)
9
Roteiro

Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos

10
Funções de Utilidade

Funções de Utilidade são, essencialmente,
heurísticas!
Preferências racionais permitem descrever o
melhor comportamento como aquele que maximiza UE
Propriedades do desejo do agente
Caso satisfaçam as restrições racionais, pode-se
garantir a existência de uma Função de Utilidade
U(S) ? R
Notação
A ? B A é preferível a B
A B agente indiferente entre A e B
A ? B agente prefere A à B ou é indiferente
Para ações não-deterministas
A e B são loterias distribuições probabilísticas
sobre um conjunto de estados de saída

11
Restrições Racionais

Axiomas da Teoria da Utilidade
Ordenabilidade (A gt B) ? ( B gt A) ? (A B)
Transitividade (A gt B) ? (B gt C) ? (A gt C)
Continuidade A gt B gt C ? ?p p.A 1 - p.C B
Substitutibilidade A B ? p.A 1 p.C
p.B 1 p.C
Monotonicidade
A gt B ? ( p ? q ? p.A 1 p.B ? q.A 1
q.B )
Decomponibilidade
p.A 1 p. q.B 1 q.C p.A (1 p)q.B
(1 p)(1 q). C

12
Exemplo 2 A Utilidade do Dinheiro

Como seria a função de utilidade do dinheiro?
Situação
Um jogador está ganhando um prêmio de R
1.000.000
É oferecida uma aposta Cara ou Coroa
Se aparecer cara ? jogador perde tudo
Se aparecer coroa ? jogador ganha R 3.000.000
Hipótese 1 Linear?
U(x) x
Calculando o Valor Monetário Esperado de Aceitar
a Aposta
0.5 U(R 0) 0.5 U(R 3.000.000) 1.500.000
Calculando o Valor Monetário Esperado de Recusar
a Aposta
1 U(R 1.000.000) R 1.000.000 (menor)
Isso indica que seria melhor aceitar a aposta...

13
Exemplo 2 A Utilidade do Dinheiro

Hipótese 2 Não-linear?
U(0) 0
U(1.000.000) 100
U(3.000.000) 150
Calculando o Valor Monetário Esperado
EU (Aceitar) 0.5 U(0) 0.5 U(3.000.000 ) 75
EU (Rejeitar) U(1.000.000) 100
A melhor opção é rejeitar a aposta...
Onde, Sk riqueza atual do jogador
Na prática, o valor do dinheiro depende da
situação atual
U(k,n) onde k é a riqueza atual e n o novo
ganho
À medida que k cresce, a utilidade de n
diminui....
Conclusão
Utilidade não é diretamente proporcional ao valor
monetário
Dependa da mudança no estilo de vida...

14
Roteiro

Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos

15
Funções Multi-atributo

Como tratar funções de utilidades com várias
variáveis X1, ..., Xn ?
Ex. Construir aeroporto,
Variáveis Segurança, Custo, Poluição sonora
U (Segurança, Custo, Poluição sonora) ?
Existem duas situações
Dominância
decisões podem ser tomadas sem combinar os
valores dos atributos em um único valor da
utilidade
Estrutura de Preferência e Utilidade
Multi-atributo
utilidade resultante da combinação dos valores
dos atributos pode ser especificada concisamente

16
Dominância Total

Se um estado S1 possui valores melhores em todos
seus atributos do que S2, então existe uma
dominância total de S1 sobre S2
? i Xi(B) ? Xi(A) (e portanto U(B) ? U(A))
Dominância total raramente acontece na prática...

17
Dominância Estocástica

Exemplo, custo de construir um aeroporto
Em S1 valor uniformemente distribuído entre
2,8 e 4,8 bilhões
Em S2 valor uniformemente distribuído entre 3
e 5,2 bilhões
Dada a informação que a utilidade decresce com
custo
S1 domina estocasticamente S2
UE de S1 é pelo menos tão alta quanto UE de S2

Na prática, dominância estocástica pode ser
definida usando apenas um raciocínio qualitativo
Ex. custo de construção aumenta com a distância
para a cidade
S1 é mais próximo da cidade do que S2 ? S1 domina
S2 estocasticamente sobre o custo

18
Estrutura de Preferência e Utilidade
Multi-atributo

Supondo que existem n atributos com d possíveis
valores
No pior caso, serão necessários dn valores
(preferência sem regularidade)
A Teoria da Utilidade Multi-atributo assume que
preferências de agentes possuem certa
regularidade (estrutura)
Abordagem básica é tentar identificar essas
regularidades!
Agentes com uma certa estrutura em suas
preferências terão uma função
U(x1,...,Xn) f f1(x1),...,f2(x2)
Onde espera-se que f seja uma função simples!
Se os atributos forem mutuamente independentes...

19
Estrutura de Preferência e Utilidade
Multi-atributo

Atributos mutuamente independentes
X1 e X2 são preferencialmente independente de X3
se, e somente se Preferência entre x1, x2, x3
e x1, x2, x3 não depende em x3
Independência preferencial mútua (MPI) todos os
pares de atributos são preferencialmente
independente com relação aos demais
Ex. Segurança, Custo, Poluição sonora
Com MPI, o comportamento preferencial do agente
pode ser descrito como uma maximização da função
Caso determinista V (x1 ... xn) ?i Vi(xi)
(somatório)
Caso não-determinista basta estender para lidar
com loterias

20
Exemplo 3

Construir aeroporto
Variáveis Segurança, Custo, Poluição sonora
U (Segurança, Custo, Poluição sonora)
V(Segurança) V(Custo) V(Poluição sonora)
V(Segurança) Número de itens de segurança
construídos
V(Custo) Custo total da construção em milhões
de R
V(Poluição sonora) População afetada (taxa por
100 mil hab.)

21
Roteiro

Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos

22
Teoria do Valor da Informação

Problemas anteriores assumiam que todas as
informações estavam disponíveis
O que acontece quando
Cabe ao agente buscar as informações necessárias
Obtenção de informações tem um custo associado
Ex. solicitação de um exame por parte de um
médico
A Teoria do Valor da Informação permite que o
agente escolha quais informações adquirir

23
Exemplo 4

Exemplo comprar os direitos de exploração de
reservas de petróleo
Dois blocos A e B, apenas um possui óleo com
valor C
Probabilidade de comprar o bloco certo 0,5
O preço de cada bloco é C/2
Consultor oferece uma pesquisa para detectar qual
bloco possui petróleo.
Qual o valor dessa informação?

24
Exemplo 4

Solução
Calcular o valor esperado da informação valor
esperado da melhor ação dada a informação valor
esperado da melhor ação sem a informação
Pesquisador irá informar há óleo em A ou há
óleo em B. Então
Melhor ação com a informação C
Melhor ação sem a informação (0,5 x C) (0,5 x
0) C/2
Valor esperado da informação C C/2 C/2

25
Exemplo 4

Uma informação só terá valor caso gere uma
mudança de plano, e se esse novo plano for
significativamente melhor do que o antigo.
S1 e S2 dois estados distintos
U1 (S1) gt U2 (S2)
Nova evidência NE produzirá novas utilidades
esperadas U1 e U2
Vale a pena adquirir NE?
Para uma situação clara, a informação não é
necessária...
Para uma escolha obscura, a informação é
valiosa...

26
Roteiro

Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos

27
Teoria dos Jogos

Agentes baseados em utilidade podem atuar em
ambientes incertos...
Mas o que acontece quando a incerteza é
proveniente de outros agentes e de suas decisões?
E se as essas decisões são influenciadas pelas
nossas?
A Teoria dos Jogos trata essas questões
É usada para tomar decisões sérias (decisões de
preço, desenvolvimento de defesa nacional, etc)

28
Teoria dos Jogos

Na Teoria dos Jogos, jogos são compostos de
Jogadores
Ações
Matriz de Resultado
Cada jogador adota uma Estratégia (diretriz)
Estratégia Pura
Diretriz determinística uma ação para cada
situação
Estratégia Mista
Ações selecionadas sobre uma distribuição
probabilística

29
Exemplo 5

Dois ladrões (Alice e Bob) são presos perto da
cena do crime e interrogados separadamente
Ações testemunhar, recusar
Matriz de resultados
Dilema do Prisioneiro
Eles devem testemunhar ou se recusarem a
testemunhar?
Ou seja, qual estratégia adotar?
Estratégia Dominante
Estratégia que domina todas as outras
É irracional não usar uma estratégia dominante,
caso exista

Alice
Testemunhar Recusar
Testemunhar A -5 B -5 A -10 B 0
Recusar A 0 B -10 A -1 B -1
Bob
30
Exemplo 5

Qual será a decisão de Alice se ela for racional?
E de Bob?
Testemunhar (estratégia dominante)
Equilíbrio de Estratégia Dominante
Situação onde cada jogador possui uma estratégia
dominante
Então, eis que surge o dilema
Resultado para o ponto de equilíbrio é Pareto
Dominated pelo resultado recusar, recusar !
Um resultado é dito Pareto Dominated por outro
se todos jogadores preferirem esse outro
resultado
Há alguma maneira de Alice e Bob chegarem ao
resultado (-1, -1)?
Opção permitida mais pouco provável
Poder atrativo do ponto de equilíbrio !

31
Equilíbrio de Nash

Equilíbrio de Nash
Agentes não possuem intenção de mudar de
estratégia
Condição necessária para uma solução
John Nash provou que todo jogo possui um
equilíbrio assim definido
Equilíbrio de Estratégia Dominante é um
Equilíbrio de Nash
Mas esse conceito afirma mais
Existem estratégias que se equilibram mesmo que
não existam estratégias dominantes

32
Exemplo 6