Title: Fundamentos de Inteligencia Artificial
1Fundamentos de Inteligencia Artificial
Teoría de la decisión
2Introducción
- Nuestra vida esta llena de situaciones en las que
tenemos que decidir sobre alternativas. La
complejidad de la decisión puede venir dada por
que exista cierto carácter azaroso en la
situación, o por los diversos grados de
incertidumbre o probabilidad de las alternativas,
o por su diferente nivel de ganancia o riesgo. En
suma hay muchos factores que pueden hacer
compleja una decisión. Por ejemplo, escogeremos
un televisor más barato, aún cuando sabemos que
probablemente dure menos que el más caro? - El principio más importante de la toma de
decisión racional es el de optimización supuesta
la igualdad en los otros factores, escoger la
alternativa de mayor valor. - Cuando hablamos de valor, nos referimos a la
utilidad de una alternativa. Evidentemente el
criterio de utilidad no tiene que ser el mismo,
no escogen las mismas inversiones un decisor con
aversión al riesgo que otro que busca
principalmente altas rentabilidades y prefiere
asumir riesgos. Incluso el dinero no tiene el
mismo valor no tiene la misma utilidad 100 para
un mendigo que para una persona rica. - La teoría de la decisión implica combinar
- Teoría de la probabilidad, para medir la
incertidumbre de las alternativas. - Teoría de la utilidad, para medir las
preferencias de los decisores
3Teoría de la utilidad conceptos básicos
- Algunos conceptos básicos
- El decisor debe elegir entre alternativas o
acciones a1, ..., am. Por ejemplo, invertir en
Bonos del Estado, Empresa eléctrica o Empresa de
Tecnología. - Además hay que tener en cuenta la situación o
estados del entorno S1, ..., Sn, que en nuestro
ejemplo lo representaremos por el estado de la
economía Mala, Media, Buena, Muy Buena - Además conocemos las consecuencias o resultados
para cada acción y cada estado - ai Sj ? Xij
- Que denota la acción i asociada al estado j
produce el resultado Xij - En la teoría de la utilidad necesitamos en primer
lugar representar de manera estructurada el
problema. Representarlo por una tabla de decisión
es sencillo - Las filas representan acciones
- Las columnas los estados
- El producto nos da las consecuencias
4Árboles de decisión
- Otra forma de representar el problema son los
árboles de decisión, donde los nodos en forma de
cuadrado representan decisiones que el agente
debe tomar. Los nodos en la forma de círculo
indican los estados que se siguen. En nuestro
ejemplo
a1 (Bonos)
a3 (Eléctrica)
a2 (Tecnológica)
Mala
Media
Buena
Muy B.
Mala
Media
Buena
Muy B.
Mala
Media
Buena
Muy B.
14 14 14 14
-2 1 9 20
3 10 15 17
- Hasta ahora sólo hemos representado el problema.
Si queremos resolverlo tendremos que dar una
ordenación de las alternativas. Esta ordenación
debe tener en cuenta - Las creencias del decisor sobre los estados. Para
ello usaremos una distribución de probabilidad
subjetiva. Obsérvese que las probabilidades se
interpretan al modo subjetivo, ya que son medidas
de la incertidumbre del decisor. Distintas
personas tienen distintos grados de creencia y
por tanto distintas probabilidades para una misma
proposición. - Las preferencias sobre las consecuencias se
representan mediante una función de utilidad.
5Inferencia bayesiana axiomas
- Antes dijimos que uno de los pilares de la teoría
de la decisión es la teoría bayesiana de la
probabilidad. Por ello recordamos los axiomas de
Kolmogorov - Para una proposición a 0 ? P(a) ? 1.
- Para una proposición a verdadera, entonces P(a)
1 y para una a falsa, entonces P(a) 0. Además,
evidentemente P(a) 1, si a es S (todo el
espacio muestral). - La probabilidad de la disyunción
- P(a v b) P(a) P(b) - P(a b) si a ? b Ø,
P(avb) P(a) P(b) - P(a b) P(a) P(b) - P(a v b)
- Ejemplo. El conjunto de posibles estados que
presentan la futura situación económica Mala,
Media, Buena, Muy Buena tienen su
correspondiente distribución de probabilidad P - P p(Mala), p(Media), p(Buena), p(Muy_Buena)
- Que es 0.25/Mala, 0.33/Media, 0.17/Buena,
0.25/Muy_Buena
6Inferencia bayesiana actualizando creencias
- El teorema de Bayes P(h/e) P(e/h) P(h) / P(e)
nos servirá para actualizar la probabilidad de
una hipótesis ante la aparición de nueva
evidencia. - Recordar que
- P(e) P(e ? h) ? P(e ? h), por tanto P(e)
P(e/h)P(h) P(e/h)P(h) - En nuestro ejemplo de las inversiones
- Partiamos con0.25/Mala, 0.33/Media, 0.17/Buena,
0.25/Muy_Buena - Supongamos que un experto en economía nos da la
siguiente predicción ALa economía irá mal - Debemos actualizar las probabilidades previas,
para que reflejen la nueva evidencia. - Además, puesto que tenemos gran confianza en
nuestro experto - P(A/A) 0.95 P(A/B) 0.05 P(A/C) 0.02
P(A/D) 0.01 - Si la confianza fuese absoluta P(A/A) 1
P(A/B) P(A/C) P(A/D) 0. - Recordando la fórmula de Bayes
- P(eh) P(h )
- P(h e)
- ?k P(ehk) P(hk )
- Lo que nos da unas nuevas probabilidades P(X/A),
que modifican bastante las anteriores
7Principios de teoría de la utilidad
- Principio de utilidad
- Existe una función U, asociada a cada
consecuencia o resultado de tal forma que - U(x) gt U(y) ? prefiere x a y
- U(x) U(y) ? es igual de preferible x a y
- Principio de máxima utilidad esperada
- Antes de enunciarlo hay que ver el concepto de
utilidad esperada (UE) para una acción a, que
puede tener una serie de posibles resultados xi. - UE(a) ?i p(xi,a) U(xi)
- Donde pi (xi, a) es la probabilidad de cada
resultado xi a partir de la acción a. - U(xi) es la utilidad de cada resultado xi,
correspondiente a la acción a. - Ahora si podemos enunciar el principio de máxima
utilidad esperada un agente racional debe elegir
aquella acción que maximice la utilidad esperada. - La utilidad completa (de todas las acciones) es
la suma de la probabilidad de cada resultado
multiplicada por la utilidad del resultado - ?i p(xi, ai) U(xi)
8Mixturas
- En nuestro ejemplo podemos representar la
inversión en bonos del estado como una lotería - O de forma equivalente
- Dadas dos loterías R y Q, donde r1, ..., rm
equivale a la distribución de probabilidad de R y
q1, ..., qm equivale a la distribución de
probabilidad de Q. - Podemos hacer mixturas de las dos loterías, con
un coeficiente p ? 0,1, de tal forma que lo
escribiremos pR(1- p)Q y lo podemos interpretar
como - R tiene una probabilidad p y Q una probabilidad
(1- p) - Lotería compuesta de pR y (1- p)Q
9Axiomas de teoría de la utilidad
- Vamos a identificar una serie de propiedades, que
si son satisfechas por las preferencias del
decisor, implican que éstas pueden ser
representadas mediante utilidades También
conocidos como axiomas de Von Neumann-Morgestern - Nota previa lt, gt, son en este contexto
relaciones de preferencia menos preferido que,
más preferido que e indiferente. - Ordenación dados dos estados (o loterías), el
agente prefiere uno de ellos o bien le resultan
indiferentes (principio parecido al de tercio
excluso, enuncia las únicas posibilidades
admisibles) - (A gt B) v (B gt A) v (AB) (A preferida sobre B, o
B sobre A o son indiferentes) - Transitividad. Imprescindible para mantener la
racionalidad - (A gt B) (B gt C) ? (A gt C)
- Continuidad. Si A lt B lt C, entonces existe alguna
mixtura para A y C que hace que B sea indiferente
a dicha mixtura - ?p, (p A (1 - p) C) B
- Monotonía. Si AltB, entonces AC lt BC
- p A (1 - p) C lt p B (1 - p) C
- Si las preferencias del decisor cumplen estos
axiomas, existe una función de utilidad que hace
posible el paralelismo entre el orden de
preferencia y el orden de utilidad (si A es menos
preferida o igual que B, entonces la utilidad
completa de A será menor o igual que la de B - ?A,B A ? B ? ?i p(xi, A) U(xi) ? ?i p(yi, B)
U(yi) - Este teorema no dice cuál es la función de
utilidad, tan sólo dice que existe.
10Terminando el ejemplo de las inversiones
- Siguiendo con nuestro ejemplo de las inversiones,
en el que la función de utilidad es - U(x) -0.002 x2 0.08 x 0.24
- Tenemos que la utilidad esperada de cada acción
es - UE(Bonos) p(S1)U(x1) p(S2)U(x2)
p(S3)U(x3) p(S4)U(x4) - 0.25U(14) 0.33U(14) 0.17U(14)
0.25U(14) - 0.250.968 0.33 0.968 0.170.968 0.25
0.968 0.968 - UE(Tecnológica)0.519
- UE(Eléctrica)0.817
- Debe considerarse el resultado sobre todo como
una ordenación de las alternativas, más que como
una expresión numérica del atractivo de las
alternativa.
11Funciones de utilidad (I)
- Suponga que tiene que hacer una función de
utilidad que mida la preferencia de alguien por
el dinero. Si cree que cuanto más mejor su
función será lineal, del tipo U(x) x. Tal vez
crea que si además es una persona avariciosa
escogería U(x) x2. - Supongamos que estamos en un concurso en el que
su elección es - Un premio de 10,000
- Jugarse el premio a cara o cruz, de tal forma que
si pierde, lo pierde todo, y en caso contrario
gana 30,000 - La mayor parte de las personas escogerían
directamente el premio, aunque según la teoría de
la decisión es mejor jugárselo. Significa que
somos irracionales? Suponga que ahora le dicen
que el premio es de 10 y si gana a cara o cruz
el premio es de 30 . Seguro que hay más personas
dispuestas a correr el riesgo. Parece que la
mente humana no trabaja necesariamente de forma
lineal
12Funciones de utilidad (II)
- Se han realizado numerosos estudios en diversas
culturas y se ha podido observar que a partir de
determinado umbral el valor del dinero decrece,
con lo que resulta una curva como la que
mostramos a continuación. Si decimos que decrece
la utilidad del dinero queremos indicar que la
función es creciente con pendiente decreciente. - Para la mayor parte de nosotros la función de
utilidad del dinero es - Cóncava para valores positivos de riqueza.
- Convexa para para valores negativos. Dicho de
otra forma, cuando estamos endeudados el valor
del dinero crece exponencialmente y, por tanto,
estamos más dispuestos a arriesgar. - En general, la curva sigmoidal parece una buena
representación. Obsérvese que lo dicho tiene que
ver con la capacidad de asumir riesgo - La aversión al riesgo viene dada por una curva
cóncava con pendiente decreciente. - La aceptación del riesgo implica una curva
convexa con pendiente creciente. - Otro aspecto observado es que una buena función
de utilidad en el contexto de la riqueza tiene
que ser lineal para pequeñas utilidades es
decir, para decisiones que impliquen poco
beneficio la curva es neutral al riesgo.
13Aspectos psicológicos
- A la hora de ver el aspecto psicológico debe
tenerse en cuenta que la teoría de la decisión es
normativa respecto a la racionalidad de las
decisiones, es decir, nos indica cómo debe actuar
un agente racional. No ha avanzado tanto en su
carácter descriptivo, es decir, no representa de
forma fidedigna la manera en que los humanos
tomamos realmente las decisiones. - Aunque la teoría es más normativa que descriptiva
se han realizado muchos interesantes estudios
sobre la forma en la que deciden los humanos. En
este sentido cabe destacar los trabajos de
Tversky y Kahneman. - Como muestra, un experimento de estos autores.
Elija entre - Una ganancia segura de 3000 pesetas
- Una probabilidad del 80 por ciento de ganar 4000
pesetas y un 20 por ciento de no ganar nada. - En esta situación, como se suponía, la mayoría
de la gente tiene aversión al riesgo. Prefieren
una ganancia segura de 3000, a pesar del hecho de
que la alternativa tiene una expectativa
ligeramente superior (0,8 x 4000 3200). Pero
cuando Kahneman y Tversky dieron vuelta al
problema - Elige entre una pérdida segura de 3000 pesetas
- Una probabilidad del 80 por ciento de perder 4000
y un 20 por ciento de no perder nada. - Las preferencias se invirtieron. Más del 90 por
ciento de los que respondieron eligieron el
juego, arriesgando una gran pérdida por la
posibilidad de no perder nada. Cuando Kalmernan y
Tversky investigaron con mayor cantidad de
ejemplos, persistió el mismo patrón la gente
trata de evitar los riesgos cuando busca la
ganancia, pero elige el riesgo si se trata de
evitar una pérdida segura. Kahneman y Tversky
observaron que este principio aparece en muchas
situaciones reales. La gente necesita un fuerte
incentivo para arriesgar dinero en el juego, pero
se expone a tremendos riesgos para evitar una
pérdida, como cuando la víctima de un asalto se
resiste a un atacante armado, o cuando un jugador
que pierde va a la bancarrota.
14Somos buenos valorando la probabilidad? (I)
- Hemos estudiado los dos pilares de la teoría de
la decisión utilidades y probabilidades. Antes
hemos visto algunas dificultades (salvables) en
el proceso de diseño de funciones de utilidad.
Vamos a seguir con este aire crítico en el otro
pilar de la teoría de la decisión nos
preguntamos sobre la capacidad de los humanos
para asignar probabilidades. - Tversky y Kahneman (Lindsay y Norman 1983, p.
656-ss) han estudiado este aspecto. Supongamos
que hemos estudiado todas las familias de
California que tienen seis hijos y encontramos
que un tercio de ellas tienen tres hijos y tres
hijas. Consideremos el orden de nacimiento de de
los hijos de estas familias. Qué ordenamiento es
más probable? - A H V V H V H
- B V V V H H H
- La mayor parte de la gente dirá que la
probabilidad subjetiva de A es mayor que B,
aunque objetivamente son igualmente probables.
Por qué se toma esta decisión? La respuesta es
que A parece ser más representativa de lo que
esperamos, esto es una secuencia al azar. - Otro ejemplo Linda tiene 31 años Es soltera,
extrovertida y muy brillante. Se especializó en
Filosofía en la Universidad. Como estudiante le
preocuparon mucho la discriminación y otros temas
sociales, y participó en demostraciones
antinucleares. Cuál de estas definiciones tiene
mas probabilidad de ser cierta? - Linda es cajera de un Banco
- Linda es cajera de un Banco y activa militante
del movimiento feminista
Principio de representatividad la gente espera
que el mundo se comporte de manera representativa
y es proclive a asignar mayor probabilidad a
aquellos eventos que sean más representativos,
aunque no sean objetivamente más probables.
15Somos buenos valorando la probabilidad? (II)
- Seguimos con Tversky y Kahneman. Supongamos que
nos presentan los siguientes eventos y nos
preguntan cuál es más probable - Que una palabra inglesa empiece por la letra k.
- Que una palabra inglesa tenga una k en tercera
posición. - La mayor parte de la gente otorga mayor
probabilidad a (1) que a (2), sin embargo hay
tres veces más palabras que cumplen (2). La razón
es que resulta más fácil encontrar ejemplos de
las primeras que de las segundas. A la mente
humana le resulta más fácil examinar letras del
principio de la palabra que letras del interior.
Si le pedimos a un experto que haga estimaciones
de probabilidad debemos tener en cuenta que la
facilidad de la estimación tiende a inflar la
probabilidad. - Otro aspecto que se ha observado es que tendemos
a sobreestimar la probabilidad de eventos que nos
resultan favorables y a subestimar los que nos
son desfavorables.
Principio de la disponibilidad la gente otorga
mayor probabilidad a los eventos que son más
accesibles o más fácilmente recuperables.
16Somos buenos valorando la probabilidad? (III)
- Una de las primeras conclusiones de Tversky y
Kahneman se conoce como el fenómeno de regresión
al término medio. Vamos a ver como lo descubrió
Kahneman (Discover 1985) - A mediados de la década de los 60 Kahneman,
entonces un profesor novel, estaba desarrollando
un curso sobre la Psicología del entrenamiento
para los instructores de vuelo de la Fuerza
Aérea. Utilizó entonces estudios de animales,
algunos realizados con palomas, que demostraban
que la recompensa era una herramienta más
efectiva que el castigo. De pronto, uno de los
instructores de vuelo, sin poder esperar a que
Kalmernan terminara, expresó abruptamente Con
todo respeto, señor, lo que usted dice se
refiere, literalmente, a los pájaros. A menudo he
alentado calurosamente a un piloto porque había
efectuado una maniobra perfecta, y la próxima vez
casi siempre lo hacía peor. Y les he gritado a
algunos por una maniobra mal hecha, y casi con
toda seguridad la próxima vez había mejorado. No
me diga que la recompensa funciona y el castigo
no, porque mi experiencia la contradice. Los
demás instructores estuvieron. de acuerdo con él.
- El reto, por un momento, dejó a Kahneman sin
habla. De pronto advertí -explica- que éste era
un ejemplo del principio estadístico de regresión
al término medio y que nadie, antes, se había
dado cuenta. - La regresión al término medio, como Kahneman
explicó inmediatamente a los pilotos, es una idea
concebida por Sir Francis Galton (1822-1911), un
antropólogo británico. Según ella en una serie de
hechos casuales, agrupados alrededor de un
término medio, un hecho extraordinario tiende a
ser seguido por efecto de la tendencia al
promedio, por un hecho más bien ordinario. Así,
los padres muy altos tienden a tener hijos más
bajos que ellos y los padres muy bajos a tenerlos
más altos. Es como si el valor medio tironeara
de los extremos). - Escuchemos a los comentaristas de los Juegos
Olímpicos de Invierno. Si un esquiador ha hecho
un buen salto, cuando intenta el siguiente dicen
Está bajo una intensa presión, de modo que es
probable que esta vez no lo haga tan bien..
Principio de regresión al término medio la gente
tiende a sobreestimar la probabilidad de los
eventos más inusuales y a subestimar la
probabilidad de los más frecuentes.
17Decisiones multiatributo la maga Malak
- Hasta ahora hemos visto la toma de decisión en
caso de un atributo. Pero en la vida la mayor
parte de las decisiones importantes son
multiatributo. Nosotros vamos a empezar con un
ejemplo modificado a partir de un experimento
mental propuesto por Lindsay y Norman (1983, p.
643-ss). - En un reino lejano gobierna la sultana Malak y
desea añadir un marido a su colección. Llama a
los dos mercaderes más importante de su reino
para que cada uno le proponga un candidato. Una
particularidad de Malak es su reputación de
científica rigurosa, por lo que somete a los
candidatos a un análisis que permita evaluar una
serie de criterios (atributos) en una escala
0,10, entendiendo el cinco como promedio. Los
dos candidatos (Shar y Ker) han sido evaluados de
la siguiente forma
- Normalmente se emplea la siguiente notación X
X1, ..., Xn para representar los atributos y el
vector x x1, ..., xn para los valores de los
atributos. Vamos a ver dos métodos para
seleccionar un candidato - Método de dominancia
- Método de combinación de utilidades
18Decisiones multiatributo introducción al
criterio de dominancia
- Una primera aproximación al problema de elegir
candidato es el criterio de dominancia. Consiste
en un análisis por comparación de
características, calculando el número de
características en las que prevalece cada
candidato. Después de la evaluación se puede
observar como han quedado nuestros candidatos - Shar Gana en poder familiar, destreza sexual y
belleza - Ker Gana en inteligencia y cultura
- Para simplificar suponemos una función de
utilidad lineal para cada atributo u(xi) xi.
Parece que los valores de Shar obtienen ventaja
sobre su oponente con el criterio de dominancia. - Pero el conocido pensamiento inquisitivo de Malak
le lleva a poner en duda el análisis de
candidatos ha podido observar que existe
incertidumbre en algunos criterios - La forma habitual de representar la
incertidumbre a través de rangos de valores. Por
ejemplo, si estamos evaluando diferentes
emplazamientos de un castillo tendremos en cuenta
los atributos dificultad de atacar, fuente de
agua y coste de construcción. En el último
podemos reconocer la incertidumbre indicando un
rango de valores, por ejemplo, entre -1500 y
-1000 millones. - Más adelante veremos como resuelve Malak el
problema de la incertidumbre.
19Decisiones multiatributo dominancia con
incertidumbre
- Ya hemos visto la forma habitual de representar
la incertidumbre a través de rangos de valores.
Malak ha observado que el juicio sobre la
destreza militar viene de la misma fuente el
instructor jefe de la academia de oficiales,
hombre que le merece la máxima confianza, pero
que le ha avisado que la probabilidad de la nota
sería mayor si hubiese podido evaluar a los
candidatos en experiencia real de combate. Lo que
hace Malak es asignar a la destreza militar de
ambos candidatos una probabilidad de 0,8. - En cuanto a la destreza sexual la información
desgraciadamente no proviene de la misma fuente.
Otorga a la nota de Shar una probabilidad de 0,7
(no confía mucho en las fuentes) y a Ker una
probabilidad de 0,9 (aquí si hay confianza). Para
el resto de características la probabilidad es 1. - A continuación veremos como obtiene Malak los
rangos a partir de las probabilidades. La
probabilidad, es una medida de creencia en la
nota como máxima nota por ello P(x)Valor(x)
nos da el umbral mínimo del rango. Así, un 0.8 de
probabilidad en un destreza militar de 9 puntos
produce el siguiente rango de notas 90.8, 9
7.2, 9 - Una técnica muy sencilla (no la mejor) para
comparar rangos es usar la media. Si hacemos la
media de Valor Min y Valor Max vemos que el
valor medio de la destreza sexual de Ker es algo
mayor Por tanto las tornas cambian, por el
criterio de dominancia con incertidumbre gana Ker
por tres a dos características.
20Decisiones multiatributo método de combinación
de utilidades sin incertidumbre
- La sultana sigue sin estar satisfecha del método
de evaluación multiatributo. Decide volver a la
valoración sin incertidumbre y observa dos
aspectos - Tal vez la evaluación sea más adecuada si combina
las utilidades de las diversas características. - Además necesita reflejar sus preferencias entre
atributos. Por ejemplo, le interesa más el poder
de la familia del candidato que su belleza o
inteligencia. - La función de utilidad combinada (f) será la suma
de las utilidades por una constante específica a
cada atributo. Ya dijimos que para simplificar
hacemos u(xi) xi
- El uso de esta función aditiva implica la
independencia mutua de preferencias, es decir,
dos atributos X1 y X2 son independientes respecto
a la preferencia de un tercer atributo X3, si la
preferencia entre los resultados x1 y x2 no
dependen del valor de x3. - Malak opta por las siguientes constantes, que
reflejan su preferencia por el poder de la
familia del candidato 0.4, 0.2, 0.1, 0.1, 0.2 - Vuelve a cambiar la selección gana Shar.
21Decisiones multiatributo método de combinación
de utilidades con incertidumbre
- Ya hemos visto la función de utilidad combinada
en caso de certidumbre
-
n - u(X) u(x1, ..., xn) ? ki ui(xi)
-
i1 - En caso de incertidumbre cada alternativa viene
dada por un vector de intervalos de utilidad -
n n - u(X) ? kIi uIi(xIi) , ? kSi uSi(xSi)
-
i1 i1 - Donde I indica los umbrales inferiores y S los
superiores.