Chapitre 2 Optimisation non linaire sans contraintes - PowerPoint PPT Presentation

1 / 53
About This Presentation
Title:

Chapitre 2 Optimisation non linaire sans contraintes

Description:

gi: IRm IRr(i) est contin ment diff rentiable, i=1,...,m. On a souvent ... Appliquons le filtre de Kalman au probl me de r sistivit du cuivre avec ... – PowerPoint PPT presentation

Number of Views:255
Avg rating:3.0/5.0
Slides: 54
Provided by: michelbi9
Category:

less

Transcript and Presenter's Notes

Title: Chapitre 2 Optimisation non linaire sans contraintes


1
Chapitre 2Optimisation non linéairesans
contraintes
  • Optimisation I
  • Systèmes de Communication

2
Moindres carrés
3
Moindres carrés
  • gi IRm?IRr(i) est continûment différentiable,
    i1,,m
  • On a souvent r(i) 1.

4
Moindres carrés
  • Exemple
  • Estimation des paramètres dun modèle
  • Soit un modèle mathématique
  • zh(x,y)
  • x est le vecteur des paramètres inconnus.
  • y est le vecteur dentrée du modèle.
  • z est le vecteur de sortie du modèle.
  • On dispose de m observations (yi,zi)

5
Moindres carrés
  • Question quelles sont les valeurs des
    paramètres telles que le modèle reproduise le
    mieux lesobservations ?

6
Moindres carrés
  • Exemple
  • On veut mesurer la résistivité du cuivre.
  • On dispose dune barre de 1m de cuivre, de
    section 1cm2.
  • Lexpérience consiste à envoyer des courants de
    diverses intensités et de mesurer la différence
    de potentiel.
  • Le modèle mathématique est donné par la loi dOhm.

7
Moindres carrés
  • Paramètre inconnu résistance R
  • Entrée du modèle intensité I
  • Sortie du modèle diff. potentiel V
  • Modèle mathématique
  • V R I (l/S) r I
  • où l est la longueur, S la section et r la
    résistivité du cuivre.

8
Moindres carrés
  • Données récoltées

9
(No Transcript)
10
(No Transcript)
11
Moindres carrés
  • Réseaux de neurones.
  • Modèle spécifié par un système multi-niveaux.
  • Le niveau consiste en nk unités dactivitation ou
    neurone.
  • Chaque unité dactivation est une relation
    entrée-sortie
  • ?IR? IR

12
Moindres carrés
  • La sortie de la jième unité dactivation du
    niveau k1 est notée xjk1.
  • Lentrée est une fonction linéaire des sorties du
    niveau k.
  • Donc

13
Moindres carrés
usk
14
Moindres carrés
  • Les uks sont appelés  poids 
  • Ce sont les paramètres à déterminer.
  • Pour un ensemble de paramètres donnés, et si N
    est le nombre de niveaux, à chaque vecteur
    dentrée x0 du niveau 0 correspond un vecteur de
    sortie xN du niveau N.

15
Moindres carrés
  • Le réseau de neurones peut donc être considéré
    comme un modèle mathématique
  • zh(x,y)
  • x est le vecteur de poids
  • y est le vecteur dentrées au niveau 0
  • z est le vecteur de sorties au niveau N

16
Moindres carrés
  • La phase dentrainement du réseau, ou phase
    dapprentissage peut donc être considérée comme
    la résolution dun problème de moindres carrés.
  • Exemples typiques de fonctions dactivation
  • Fonction sigmoidale
  • Fonction hyperbolique tangente

17
Moindres carrés
  • Le problème dentrainement de réseaux neuronaux
    est souvent très compliqué. Les fonctions de
    coûts associées sont non-convexes et possèdent
    souvent des minima locaux multiples.
  • Exemple à deux paramètres.

18
Source Bertsekas (1995) Nonlinear programming,
Athena Scientific
19
Gauss-Newton
  • Idée
  • Travailler sur g et non sur f.
  • Linéarisation de g

20
Gauss-Newton
  • Minimiser la norme de m(x)

21
Gauss-Newton
  • Si f(x) ½ m(x)2, alors

Erreur devrait être (x-xk)
Erreur Manque xk
  • Le minimum est atteint en

si la matrice est inversible.
22
Gauss-Newton
  • Une itération Gauss-Newton pure est
  • ?g(xk)g(xk) est le gradient de ½g(x)2 en xk
  • Si ?g(xk)?g(xk)T est définie positive,
  • nous avons donc une direction de descente.

23
Gauss-Newton
  • Tout comme la méthode de Newton pure pour le cas
    général, la méthode de Gauss-Newton pure pour les
    moindres carrés peut ne pas converger.
  • Solution

24
Gauss-Newton
  • ak est choisi par la règle dArmijo.
  • Dk est une matrice diagonale telle que
    ?g(xk)?g(xk)TDk soit défini positif.
  • Méthode de Levenberg-Marquardt
  • Dk multiple de lidentité

25
Gauss-Newton
  • Cas linéaire
  • g(x)Cx-z
  • ?g(x) CT
  • xk1 xk-(CTC)-1CT(Cxk-z)
  • (CTC)-1CTz ?k
  • La solution est obtenue en une itération
  • Note le système déquations
  • CTCxCTz
  • est appelé équations normales.

26
Gauss-Newton
  • Relation avec la méthode de Newton
  • Soit gIRn ?IRm
  • f(x) ½ g(x)2

27
Gauss-Newton
  • Gauss-Newton Newton en négligeant le second
    terme

28
Méthodes incrémentales
  • Idée
  • On voudrait mettre à jour litéré sans
    nécessairement lire toutes les données.
  • Motivation
  • Très grand nombre de données.
  • Mise à jour dun modèle déjà estimé.
  • Applications en temps réel.
  • gi IRm?IRr(i) correspond à un bloc de données.

29
Méthodes incrémentales
  • Méthode incrémentale de plus forte pente
  • ?0 xk
  • ?i ?i-1 akdi, i1,,m
  • ak gt 0
  • di ?gi(?i-1)gi(?i-1)
  • xk1 ?m

30
Méthodes incrémentales
  • Exemple résistivité du cuivre
  • x0 1
  • gi(x) aix-bi
  • ai intensités, bivoltages
  • di(x) ai(aix-bi)
  • ak 25
  • On peut prouver que la méthode converge avec ak
    min (1/ai2)

31
(No Transcript)
32
Méthodes incrémentales
  • Notes
  • Méthode souvent utilisée pour les réseaux
    neuronaux.
  • Le choix du ak est important pour la convergence.
  • Lorsque les blocs de données sont linéaires, on
    peut prouver la convergence si

33
Méthodes incrémentales
  • Variantes
  • ?i ?i-1 akdib(?i-1-?i-2) b?0,1
  • A chaque itération, permuter aléatoirement les
    blocs de données.
  • Choisir aléatoirement le bloc de données à
    traiter.
  • etc.

34
Filtre de Kalman
  • Forme incrémentale de Gauss-Newton
  • Commencer à x0
  • Faire une itération Gauss-Newton pour minimiser
  • g1(x)2
  • Faire une itération Gauss-Newton pour minimiser
  • lg1(x)2 g2(x)2
  • avec 0 l 1.
  • etc.

35
Filtre de Kalman
  • Létape i consiste donc à effectuer une itération
    Gauss-Newton pour minimiser la somme partielle
    pondérée
  • Lorsque que tous les blocs de données ont été
    traités, le cycle est recommencé.

36
Filtre de Kalman
  • Le paramètre l determine linfluence des
     anciens  blocs de données sur les nouvelles
    estimations.
  • Lorsque les g sont linéaires, il suffit dune
    seule itération Gauss-Newton pour trouver la
    solution.
  • On obtient une implémentation efficace de
    lalgorithme incrémental
  • le filtre de Kalman

37
Filtre de Kalman
  • Supposons que les fonctions gi sont linéaires
  • gi(x)zi-Cix
  • Supposons que C1TC1 soit définie positive.
  • Les estimations
  • sont générées par lalgorithme suivant

38
Filtre de Kalman
  • où ?0 est un vecteur arbitraire, et
  • Hi lHi-1 CiTCi
  • avec H0 0.
  • Plus généralement, si 1 k lt i m

39
Filtre de Kalman
  • Preuve
  • La solution de
  • ?1 argmin b-Ax2
  • est
  • ?1(ATA)-1ATb
  • si ATA est définie positive.
  • Pout tout ?0, on a
  • ?1 ?0-(ATA)-1(ATA) ?0(ATA)-1ATb
  • ?1 ?0 (ATA)-1AT(b-A ?0)

40
Filtre de Kalman
  • Preuve (suite)
  • La solution de
  • ?2 argmin b-Ax2 c-Dx2
  • est
  • ?2(ATADTD)-1(ATbDTc)
  • et donc (ATADTD)?2 ATbDTc
  • Comme ?1(ATA)-1ATb, on a ATb  ATA ?1
  • (ATADTD)?2 ATA ?1 DTc

41
Filtre de Kalman
  • (ATADTD)?2 ATA ?1 DTc
  • (ATADTD)?2ATA?1DTD?1-DTD?1DTc
  • (ATADTD)?2(ATADTD)?1 -DTD?1DTc
  • (ATADTD)?2(ATADTD)?1 DT(c-D?1)
  • Multiplions à gauche par (ATADTD)-1
  • ?2?1 (ATADTD)-1 DT(c-D?1)

42
Filtre de Kalman
  • Donc
  • ?1 argmin b-Ax2
  • ?1 ?0 (ATA)-1AT(b-A ?0)
  • ?2 argmin b-Ax2 c-Dx2
  • ?2?1 (ATADTD)-1 DT(c-D?1)
  • Il reste à remplacer
  • ?1 par ?k, ?2 par ?i et

43
Filtre de Kalman
44
Filtre de Kalman
  • Appliquons le filtre de Kalman au problème de
    résistivité du cuivre avec
  • l 0.1, l 0.5 et l 1
  • ?i ?i-1
  • hi l hi-1 ai2
  • Note ?1b1/a1

45
(No Transcript)
46
Filtre de Kalman
  • Notes
  • Lorsque l1, la solution est atteinte après avoir
    parcouru une fois les données.
  • Plus grandes variations lorsque l est petit.

47
Filtre de Kalman
  • Hypothèse C1TC1 définie positive.
  • Cela peut être garanti en mettant suffisamment de
    données dans le premier bloc,
  • Si hypothèse non vérifiée, définir H0dI, de
    telle manière à ce que H1 soit définie positive.
    Dans ce cas, même si l1, on na pas
    nécessairement ?mx.

48
Régression orthogonale
Moindres carrés
Régression orthogonale
49
Régression orthogonale
(yi,zi)
(y,h(x,y))
minx miny (yi-y)2(zi-h(x,y))2
50
Régression orthogonale
  • Notes
  • Cette régression est utilisée lorsque des erreurs
    sont présentes aussi dans les entrées du modèle.
  • On suppose que les erreurs dans les entrées et
    les erreurs dans les sorties sont indépendantes,
    de moyenne nulle.
  • Même si le modèle est linéaire, le problème de
    moindres carrés nest pas linéaire.

51
Régression orthogonale
  • Exemples
  • Résistivité du cuivre
  • Moindres carrés r 1.61046 10-8
  • Régression orthogonale 1.60797 10-8
  • Modèle sphérique
  • z x1 x22-(y-x3)2½

52
Régression orthogonale
  • Modèle réel
  • x1 3
  • x2 4
  • x3 3
  • Moindres carrés
  • x1 1.9809
  • x2 4.7794
  • x3 2.9938
  • Orthogonale
  • x1 3.2759
  • x2 3.8001
  • x3 3.0165

53
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com