De l - PowerPoint PPT Presentation

1 / 25
About This Presentation
Title:

De l

Description:

De l'emploi de mod les pour explorer de nouvelles strat gies de conduite de culture : ... ALORS d1 in [d1d but; d1fin] ... dq in [dqd but; dqfin] ... – PowerPoint PPT presentation

Number of Views:27
Avg rating:3.0/5.0
Slides: 26
Provided by: bia76
Category:
Tags: alors

less

Transcript and Presenter's Notes

Title: De l


1
De lemploi de modèles pour explorer de nouvelles
stratégies de conduite de culture application à
la conduite du blé
XITEK, un outil daide à lexploration basé sur
lapprentissage automatique
  • M.H. Chatelin
  • Station d'Economie et Sociologie RuralesINRA
    78850 Grignon, FranceF. Garcia
  • Unité de Biométrie et d'Intelligence
    ArtificielleINRA 31326 Castanet Tolosan, BP27
    Auzeville, France

2
AD pour la gestion de parcellesen grande culture
  • Un besoin rendu nécessaire par le nouveau
    contexte de production
  • Une solution basée sur la simulation de
    stratégies de conduite DECIBLE

stratégie
3
Le simulateur DECIBLEAubry et al. 92,97
  • DECIBLE se décompose en 2 parties
  • un modèle de croissance du blé
  • un modèle décisionnel pour la gestion de la
    parcelle
  • La gestion du blé dhiver est un processus
    décisionnel séquentiel
  • Des règles SI .. ALORS .. sont utilisées à chaque
    étape de décision

t
semis
apport N1
apport N2
récolte
4
Schéma général de DECIBLE
rendement, maladies, résidus...
Simulateur de croissance du blé
semis
N1
récolte
N2
Simulateur de gestion de la parcelle
Règles de décision semis
Règles de décision N1
Règles de décision N2
Règles de décision récolte
5
Vers un système daide à lexploration
  • Les concepteurs ont des difficultés à imaginer de
    nouvelles stratégies de conduite
  • Besoin dun outil daide à la découverte de
    nouvelles stratégies de qualité

?
?
6
Génération automatique de stratégies
  • La gestion du blé peut être représenté comme un
    Problème Décisionnel de Markov
  • Les algorithmes de Programmation Dynamique ne
    sont pas utilisables car
  • forte complexité algorithmique
  • pas de modèle probabiliste des transitions
  • la représentation des stratégies nest pas adaptée

7
XITEK Un outil daide à lexploration basé sur
lapprentissage automatique
  • Le système itérativement génère, transforme et
    teste des stratégies en vue doptimiser leur
    qualité.

8
Définition des stratégies
  • Pour chaque étape de décision, des espaces
    détats et de décisions Si et Di sont définis
  • Une stratégie est une séquence de fonctions de
    décision de Si dans Di

SEMIS
N1
N2
Récolte
N_sol?0,100kg/ha J_1cm?01/03,15/05 BA_1cm?30,
120g/m² date_N2?01/03,15/05 qt_N2?0,200g/m²
date_récolte
J_tallage Nb_pieds date_N1? 15/01,01/03 qt_N1?
0,100g/m²
date_semis ?15/09,15/12 densité? 100,300g/m²
variété?soisson, ..
variables détat observées variables de
décision
9
Quelle représentation des stratégies ?
  • Discrétisation des Si et Di
  • Partitionnement des Si et Di (CMAC)
  • Utilisation de règles de décision
  • SI s1 in s1début s1fin ... sp in spdébut
    spfin
  • ALORS d1 in d1début d1fin ... dq in
    dqdébut dqfin
  • Réseaux neuronaux

10
Simulation de stratégies et évaluation
Di
DN1
Dsemis
sinit
Ssemis
SN1
Si
  • Un critère numérique rsemis ... rrécolte est
    associé à chaque trajectoire
  • on recherche des stratégies qui maximisent
  • E(rsemis ... rrécolte )

11
Apprentissage par renforcement des stratégies
  • A.R. est une nouvelle technique pour résoudre les
    problèmes décisionnels de Markov.
  • Son principe est le suivant
  • stratégien1 stratégien ?n . erreurn
  • erreurn est une estimation aléatoire de lécart
    entre stratégien et stratégie disponible à
    chaque étape
  • ?n tend lentement vers 0

12
Algorithmes dApprentissage par Renforcement
  • Il existe des méthodes dA.R. basées sur une
    convergence asymptotique selon des critères
    dévaluation différents
  • critère ?-pondéré
  • Algorithme Q-learning Watkins 89
  • critère moyen
  • Algorithme R-learning Schwartz 93
  • Représentation discrète

13
Particularité de notre problème
  • Horizon fini, N étapes
  • non stationnarité
  • espaces détats et dactions différents à chaque
    étape
  • domaines mixtes (discrets, continus)

14
A.R en Horizon fini - non stationnaireGarcia,
Ndiaye 97
  • Adaptation des méthodes existantes
  • Q-learning en horizon fini
  • R-learning en horizon fini
  • Introduction d un nouvel algorithme
  • RH-learning (critère moyen)

15
A.R. pour les domaines continus
  • Représentation CMAC partitionnement uniforme
    des espaces détats et dactions
  • Approximation dune fonction de valeur
  • V(e,d) (?1 ?ng)/ng
  • Apprentissage des poids ?i

16
Des résultats partiels
17
(No Transcript)
18
Conclusion
  • XITEK est en cours de développement
  • les premiers résultats confirment la complexité
    du problème doptimisation sous-jacent
  • l approche A.R. est ici validée sur un problème
    de grande taille
  • un important travail doit être poursuivi
    concernant la visualisation et lanalyse des
    stratégies générées
  • notre prochaine étape concerne la génération
    directe ou indirecte de règles de décision.

19
La représentation CMAC pour lestimation de
fonctions
s
f(s) (w1 wng)/ng
20
Exemple de règle de décision pour le semis
variéte
...
Pactol
Règle
...
...
date
Espace Etats
Espace Décisions
21
Lien stratégie / fonction de valeur
  • Pour une stratégie p et s in Si on définit
  • Qi(s,d) E(ri ... rharvest s,d, pi1, ..,
    pharvest ),
  • et on cherche p qui maximise Qi(s,d), avec
  • pi (s) argmax Qi(s,d)
  • Les fonctions Qi(s,d) sont représentées par des
    estimateurs CMAC.

22
Autre fonction de valeur considérée
  • Ri(s,d) Qi(s,d) - (N-i1)r
  • avec r 1/N E(rsemis ... rrécolte p) et N
    le nombre détapes de décision
  • avec toujours pi (s) argmax Ri(s,d)

23
Apprentissage des fonctions de valeurs
  • A partir des observation (s,d,s,r) à létape i,
    on met a jour l estimation courante de Qi(s,d)
    (Q-learning) ou de Ri(s,d) et r (R-learning)

24
A.R., horizon fini et CMAC
  • En pratique, cet apprentissage est adapté à la
    représentation CMAC, et ce sont les poids des
    cellules qui sont mis à jour.
  • L hypothèse horizon fini amène à adapter le
    Q-learning et le R-learning. Ce dernier savère
    être le plus efficace

25
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com