Title: De l
1De lemploi de modèles pour explorer de nouvelles
stratégies de conduite de culture application à
la conduite du blé
XITEK, un outil daide à lexploration basé sur
lapprentissage automatique
- M.H. Chatelin
- Station d'Economie et Sociologie RuralesINRA
78850 Grignon, FranceF. Garcia - Unité de Biométrie et d'Intelligence
ArtificielleINRA 31326 Castanet Tolosan, BP27
Auzeville, France
2AD pour la gestion de parcellesen grande culture
- Un besoin rendu nécessaire par le nouveau
contexte de production - Une solution basée sur la simulation de
stratégies de conduite DECIBLE
stratégie
3Le simulateur DECIBLEAubry et al. 92,97
- DECIBLE se décompose en 2 parties
- un modèle de croissance du blé
- un modèle décisionnel pour la gestion de la
parcelle - La gestion du blé dhiver est un processus
décisionnel séquentiel - Des règles SI .. ALORS .. sont utilisées à chaque
étape de décision
t
semis
apport N1
apport N2
récolte
4Schéma général de DECIBLE
rendement, maladies, résidus...
Simulateur de croissance du blé
semis
N1
récolte
N2
Simulateur de gestion de la parcelle
Règles de décision semis
Règles de décision N1
Règles de décision N2
Règles de décision récolte
5Vers un système daide à lexploration
- Les concepteurs ont des difficultés à imaginer de
nouvelles stratégies de conduite - Besoin dun outil daide à la découverte de
nouvelles stratégies de qualité
?
?
6Génération automatique de stratégies
- La gestion du blé peut être représenté comme un
Problème Décisionnel de Markov - Les algorithmes de Programmation Dynamique ne
sont pas utilisables car - forte complexité algorithmique
- pas de modèle probabiliste des transitions
- la représentation des stratégies nest pas adaptée
7XITEK Un outil daide à lexploration basé sur
lapprentissage automatique
- Le système itérativement génère, transforme et
teste des stratégies en vue doptimiser leur
qualité.
8Définition des stratégies
- Pour chaque étape de décision, des espaces
détats et de décisions Si et Di sont définis -
- Une stratégie est une séquence de fonctions de
décision de Si dans Di
SEMIS
N1
N2
Récolte
N_sol?0,100kg/ha J_1cm?01/03,15/05 BA_1cm?30,
120g/m² date_N2?01/03,15/05 qt_N2?0,200g/m²
date_récolte
J_tallage Nb_pieds date_N1? 15/01,01/03 qt_N1?
0,100g/m²
date_semis ?15/09,15/12 densité? 100,300g/m²
variété?soisson, ..
variables détat observées variables de
décision
9Quelle représentation des stratégies ?
- Discrétisation des Si et Di
- Partitionnement des Si et Di (CMAC)
- Utilisation de règles de décision
- SI s1 in s1début s1fin ... sp in spdébut
spfin - ALORS d1 in d1début d1fin ... dq in
dqdébut dqfin - Réseaux neuronaux
10Simulation de stratégies et évaluation
Di
DN1
Dsemis
sinit
Ssemis
SN1
Si
- Un critère numérique rsemis ... rrécolte est
associé à chaque trajectoire - on recherche des stratégies qui maximisent
- E(rsemis ... rrécolte )
11Apprentissage par renforcement des stratégies
- A.R. est une nouvelle technique pour résoudre les
problèmes décisionnels de Markov. - Son principe est le suivant
- stratégien1 stratégien ?n . erreurn
- erreurn est une estimation aléatoire de lécart
entre stratégien et stratégie disponible à
chaque étape - ?n tend lentement vers 0
12Algorithmes dApprentissage par Renforcement
- Il existe des méthodes dA.R. basées sur une
convergence asymptotique selon des critères
dévaluation différents - critère ?-pondéré
- Algorithme Q-learning Watkins 89
- critère moyen
- Algorithme R-learning Schwartz 93
- Représentation discrète
13Particularité de notre problème
- Horizon fini, N étapes
- non stationnarité
- espaces détats et dactions différents à chaque
étape - domaines mixtes (discrets, continus)
14A.R en Horizon fini - non stationnaireGarcia,
Ndiaye 97
- Adaptation des méthodes existantes
- Q-learning en horizon fini
- R-learning en horizon fini
- Introduction d un nouvel algorithme
- RH-learning (critère moyen)
15A.R. pour les domaines continus
- Représentation CMAC partitionnement uniforme
des espaces détats et dactions - Approximation dune fonction de valeur
- V(e,d) (?1 ?ng)/ng
- Apprentissage des poids ?i
16Des résultats partiels
17(No Transcript)
18Conclusion
- XITEK est en cours de développement
- les premiers résultats confirment la complexité
du problème doptimisation sous-jacent - l approche A.R. est ici validée sur un problème
de grande taille - un important travail doit être poursuivi
concernant la visualisation et lanalyse des
stratégies générées - notre prochaine étape concerne la génération
directe ou indirecte de règles de décision.
19La représentation CMAC pour lestimation de
fonctions
s
f(s) (w1 wng)/ng
20Exemple de règle de décision pour le semis
variéte
...
Pactol
Règle
...
...
date
Espace Etats
Espace Décisions
21Lien stratégie / fonction de valeur
- Pour une stratégie p et s in Si on définit
- Qi(s,d) E(ri ... rharvest s,d, pi1, ..,
pharvest ), - et on cherche p qui maximise Qi(s,d), avec
- pi (s) argmax Qi(s,d)
- Les fonctions Qi(s,d) sont représentées par des
estimateurs CMAC.
22Autre fonction de valeur considérée
- Ri(s,d) Qi(s,d) - (N-i1)r
- avec r 1/N E(rsemis ... rrécolte p) et N
le nombre détapes de décision - avec toujours pi (s) argmax Ri(s,d)
23Apprentissage des fonctions de valeurs
- A partir des observation (s,d,s,r) à létape i,
on met a jour l estimation courante de Qi(s,d)
(Q-learning) ou de Ri(s,d) et r (R-learning)
24A.R., horizon fini et CMAC
- En pratique, cet apprentissage est adapté à la
représentation CMAC, et ce sont les poids des
cellules qui sont mis à jour. - L hypothèse horizon fini amène à adapter le
Q-learning et le R-learning. Ce dernier savère
être le plus efficace
25(No Transcript)