Title: Les Heuristiques pour La Planification de Moindre Engagement
1Les Heuristiques pour La Planification de Moindre
Engagement
2Les Heuristiques
- Cest difficile à mesurer la distance entre un
état but et un état dans lespace de plans.
Un état dans lespace de plans partiels
Un état dans le domaine
3Lestimation de la distance
- La planification utilise un recherche meilleur
dabord.
f(s) g(s) h(s)
Par exemple
g(s) S (le nombre dactions)
g(s)
h(s) un estimation du montant de travail
qui reste pour atteindre un état but
s
h(s)
Question comment peut-on estimer h(s)?
4Une Estimation Très Simple
- La distance entre un plan partiel et un état but
peut-être approximée comme le nombre de buts non
expliqués dans le plan - Le nombre de liens causaux peut-être utilisé
comme une estimation du travail déjà fait - Si les menaces sont gardées aussi dans le plan,
lestimation peut prendre en compte le nombre de
menaces non résolues
(minimiser on veut les plans le plus court, donc
on minimise le nombre dactions. Aussi on
veut le moindre travail à faire, donc on
minimise le nombre de buts non expliqué.)
F(s) A P
On maximise le nombre de liens causaux parce
quils representent le travail déjà fait.
F(s) A P - C
F(s) A P M - C
On minimise le nombre de menaces.
5Le But
Trouver une fonction qui limite la taille de
lespace de recherche qui est construit, mais qui
garde des solutions.
Après avoir choisi un noeud dêtre developpé, le
prochain étape est de choisir un défaut de
résoudre.
Sil y a un choix, il pourrait être très
important pour lefficacité du recherche.
6Deux Types de Défauts
- Nous avons consideré une forme de planification
de moindre engagement, où toutes les menaces qui
sont créees par laddition dune action sont
résolues quand cette action est choisie. - Autre possibilité les menaces ne sont pas
résolues mais elles sont gardées comme les
menaces non résolues. - Maintenant il y a deux formes de défaut possible
dans un plan partiel les buts non expliqués et
les menaces non résolues. - Chaque fois sur la boucle le planificateur doit
choisir quel défaut de considérer dabord.
7Ajoute les nouveaux plans à lespace de recherche
Ordonne les plans dans lespace selon une
fonction heuristique.
(il y en a beaucoup, parce que il y a les
differentes actions dans le plan, et les choix
de contraintes etc.
Pour chaque possibilité
Ajoute laction au plan
Choisis un plan partiel de lespace de recherche
Choisis une action déjà dans le plan
Choisis un effet positif qui peut unifier avec p.
Pour chaque possibilité
Choisis une nouvelle action
but
oui
Cest une solution?
finis
Ajoute les contraintes temporelles et
augmente lenvironment pour utiliser Laction.
non
Choisis un défaut
Pour chaque possibilité
Choisis une résolution pour la menace et ajoute
les contraintes quil faut.
menace
Ajoute les nouveaux plans à lespace de recherche
8Les Couts de Réparation
- Dun but non expliqué
- Étant donné un plan (A,T,E,C,P,M)
- le coût dun but (p,t) dans P est I S N, où
- I le nombre de propositions dans létat initial
qui doivent unifier avec p, utilisant seulement
les contraintes dans lenvironment E. - S le nombre de propositions dans les effets
positifs dactions dans A, qui doivent unifier
avec p utilisant seulement les contraintes dans
lenvironment E. On considère juste les actions
qui sont contraintées par T dêtre avant t, - N I le nombre de propositions dans les effets
positifs des nouvelles actions qui peuvent
unifier avec p. - Dune menace dans M.
- Dabord nous pouvons distinguer entre deux
types de menaces.
9Les Menaces Non-Séparables
- Une action, S1, avec un effet, E.
- Un lien causal (S2,F,S3), où E et F sont déjà
forcés dunifier par les contraintes
dunification dans le plan. - Seulement 2 résolutions possible
- S1 lt S2
- S3 lt S1
- Donc, le coût est 2.
- Le coût reduit comme le plan grandit (parce quil
y a toujours plus de contraintes qui peuvent
empêcher le résolution).
10Les Menaces Séparables
- Une action, S1, avec un effet, E.
- Un lien causal (S2,F,S3), ou E et F peuvent
unifier mais leur unification nest pas forcé. - Il y a au moins trois possibilités pour résoudre
la menace - S1 lt S2
- S3 lt S1
- E F (Il y a un choix de paires de variables de
séparer) - Le coût reduit comme le plan grandit.
11Les Stratégies de Préférence
Martha Pollack, David Joslin and Massimo Paolucci
1997 Flaw Selection Strategies for Partial Order
Planning, Journal of AI Research vol 6.
- Une stratégie pour décider comment de développer
un plan peut-être décrit par lordre dans lequel
elle résout les menaces. - On utilise la notation
- o les buts non expliqués (open conditions)
- n les menaces non séparables
- s les menaces séparables
- On peut aussi distinguer les différentes méthodes
pour choisir entre deux possibilités du meme
type - LIFO (dernier entré, premier sorti)
- FIFO (premier entré, dernier sorti)
- LC (coût plus bas)
- R (aléatoire)
12Les Stratégies en Notation
- Une stratégie qui traite dabord les buts non
expliqués, et qui préfère toujours les sous-buts
le plus récemment ajouté, peut-être décrit comme - Une autre possibilité on peut préférer les buts
non expliqués en ordre LIFO, suivi par les
menaces non séparables en ordre du moins chères,
suivi par les menaces séparables en ordre choisi
aléatoirement
o LIFO
o LIFO / n LC / s R
13Des Stratégies Utilisées
- Pemberthy and Weld (UCPOP)
- n,s LIFO / o LIFO
- McAllester and Rosenblitt SNLP
- n,s R / o R
- Peot and Smith
- DSep n LIFO / o LIFO / s LIFO
- DSep-LC n LIFO / o LC / s LIFO
- DUnf n,s0 LIFO /n,s1 LIFO /o LIFO
/
n,s2
LIFO - Gerevini and Schubert
- ZLIFO n LIFO / o0 LIFO / o1 EA /
o2 LIFO / - s LIFO
- Pollack et al.
- LCFR n LC / o0 LC / o LC / o1 EA /
o2 LC - / s LC
14Les Propriétés des Stratégies
- ZLIFO elle préfère les menaces et les buts pour
qui les résolutions sont déjà forcées par le
plan. - Ça correspond à une stratégie de préférer les
défauts les moins chers. - DUnf aussi préfère les menaces comme ça, mais
elle ne distingue pas entre les buts par leurs
coûts. - ZLIFO est une stratégie de zero engagement. Elle
najoute aucunes contraintes pas déjà forcées. - LCFR et ZLIFO sont très semblable, sauf que ZLIFO
retarde les menaces séparables.
15Analyses Empirique
- Les analyses de Pollack et al. montrent que cest
utile en général de prioritiser les défauts les
moins chers. - Cest aussi utile de retarder les menaces
séparables. - Les stratégies comme ça construisent, en général,
les espaces de recherche moins grands que les
autres stratégies considerées. - Mais il y a toujours les exceptions (cest pour
ça que les stratégies sont heuristiques).
16Développements
- La planification de moindre engagement est très
bien adaptée pour utilisation avec un langage
plus expressif. - Par exemple, les modèles temporels dactions,
lutilisation des ressources, les buts
persistants, les buts avec les deadlines, etc. - Malgré les problèmes de recherche, cette forme de
planification est très puissante est parmi les
plus prometteurses pour lavenir.
17Le Langage dUCPOP
E.P.D.Pednault 1989 ADL Exploring the middle
ground between STRIPS and the Situation Calculus
In Proceedings of KR 1989
- Le langage est fondé sur ADL.
- Il contient les actions de la forme de STRIPS
avec - Les préconditions quantifiés
- Les effets quantifiés
- Les effets conditionnels
- Les schemas contiennent des variables, qui sont
quantifiés universellement.
18Les Propriétés des Langages
- Nous discuterons les langages, leur
expressivité et leur semantique apres Noël, mais
nous commencons par considérer maintenant
plusieurs aspects dans les transparents suivantes.
19Un Exemple du Langage de UCPOP
- Quand on bouge un cartable dun endroit à
lautre, tous les choses dans le cartable bougent
aussi. - Quand on bouge un bloc nimporte quel surface
dessous le bloc devient clair.
(Bouger(xcartable, yendroit, z
endroit) Précondition (à x y) Effet (à x z)
(à o z) zobjet (dans o x) (à x y)
(à o y) zobjet (dans o x) )
A
A
(Bouger (xbloc, ysurface) Precondition (clair
x) (clair y) Effet (sur x y) (clair z)
zsurface (sur x z) (sur x z) zsurface
(sur x z) (clair y)
A
A
20La Sémantique
- Les quantificateurs universel et existentiel
changent la sémantique de STRIPS. - Quest ce quon veut dire par une précondition
existentiellement quantifiée? Laction fait une
transition entre un ensemble détats et un état. - Un effet positif existentiellement quantifié?
Laction produit un ensemble détats. Aussi une
action peut créer les objets. - Un effet negatif universellement quantifié?
Laction produit en ensemble détats. - Les effets positif, et les préconditions,
universellement quantifiés preservent la
semantique de STRIPS.
21Après UCPOP
- UCPOP, TWEAK et SNLP ont élevé le niveau de
discussion sur les aspects formels de la
planification. - Il a devenu important de construire une fondation
scientifique pour le cadre de planification. - Un problème pour la communauté était que cétait
très dur à faire des comparaisons entre les
different planificateurs, qui ont tous utilisés
leurs propres langages, leurs propres
heuristiques, etc. - En 1998 nous avons eu la première compétition de
la planification. - Le language PDDL était publié. Il a devenu le
langage standard pour modélisations des domaines.
D.McDermott, AI Magazine 2000
22Les Actions Temporelles
- Dans les domaines réalistes les actions prennent
du temps. - Par exemple
- déplacer un camion entre deux villes sur une
carte - saisir et bouger un objet
- ouvrir une porte, etc.
- Les modèles propositionnels comprennent seulement
les actions instantanées. - Les planificateurs propositionnels ne considèrent
pas le passage du temps. - Ils ne peuvent pas exploiter le vrai concourance
qui existe dans les domaines.
23Les Actions Duratives
- Il y a plusieurs suggestions pour modeler les
actions qui prennent du temps.
Smith and Weld (TGP)
Action A Précondition P Effets E Duré 10
A
E
P
Ghallab and Laruelle (IxTeT) Khambampati and Do
(Sapa)
Action A Precondition (p1,(start,t1)
(p2,(t2,t3) Effets (e1,t1)
(e2,t2) (e3,t3)
(E,end) Duré 10
p
e1
e3
E
e2
1
p2
24La Compétition de Planification 2002
Action A Conditions Pstart Pend
Inv Effets Estart Eend Duré
10
Inv
Pstart
Pend
Estart
Eend
Ce langage est suffisamment expressif de capturer
tous les features des langages d IxTeT et Sapa.
Cétait développé pour la compétition et cest
(pour linstant) le standard pour modèlisation
des domaines temporels.
Le langage sappelle PDDL2.1.
Vous pouvez trouver le langage et beaucoup
dexemples des domaines écrits en PDDL2.1 sur le
web page des cours.
25Modelisation des Ressources
- Les langages dIxTeT, Sapa et PDDL2.1 peuvent
modéler la consommation et production des
ressources. - Par exemple laction de déplacer un camion
utilise du fioul, comme une fonction du vitesse,
la distance et le rythme de la consommation. - Laction de refiouler un camion remplit la
citerne comme une fonction du rythme du livraison
du fioul. - La consommation et production de tels ressources
peuvent être approximés par les fonctions
lineares par morceau.
26Les Consequences
- Quand on modele lutuilisation du temps et des
ressources, le problème de planification est
beaucoup plus complexe. - Il y a des menaces qui ne sont pas logique, mais
numerique. - Il y a des problèmes de comment dexploiter le
concourance possible parmi des activités. - On peut poser les buts temporels, qui impose les
contraintes temporels sur le plan. - On doit mésurer la qualité dun plan par une
fonction beaucoup plus sophistiqué quavant.
27Apres Noël
- Nous considerons
- Les planificateurs IxTeT, Sapa et LPG.
- Le modélisation des aspects numeriques et
temporels. - Le problème de validation des plans numeriques et
temporels.