Title: Pourquoi les r
1Pourquoi les réseaux de neuronesde type
perceptron multicouche conviennent-ils à
lapprentissage
- Stéphane Canu, INSA de Rouen , PSI
- André Elisseeff, ERIC, université de Lyon
- http//psichaud.insa-rouen.fr/scanu/
2RNA de type PMC
y W f ( W f (W X) )
2
1
1
3
2
3Motivations
- RNA de type PMC si ça marche, il doit y avoir
un argument mathématique ! - Une machine qui apprend
- (pour comprendre ou résoudre )
- argument biologique ou mathématique
- Poser (formaliser) le problème
- dapprentissage à partir dexemples
- universalité
- contrôle de la complexité
- local vs global
- dimensionnalité
- hyper paramètre
- structure vs adaptation
4Le problème dapprentissage
- Des variables explicatives X, et des variables
à expliquer Y - (observées)
(à prédire) - des variables aléatoires (X,Y)
- une loi jointe (inconnue)
- une fonction coût
- une fonction cible r(x) E(YXx)
- un échantillon (xi,yi) i1,n
Construire , un estimateur de la fonction r
5Le problème dapprentissage
- Des variables explicatives X, et des variables
à expliquer Y - (observées)
(à prédire) - des variables aléatoires (X,Y)
- une loi jointe (inconnue)
- une fonction coût
- une fonction cible r(x) E(YXx)
- un échantillon (xi,yi) i1,n
R (une dimension)
Construire , un estimateur de la fonction r
6Apprentissage à partir d'exemples
-
- Données (xi,yi)
i1,n - Principe inductif Minimisation risque empirique
- Ce nest pas suffisant ...
7Pourquoi le principe du MRE nest pas suffisant
?
- B trop grand
- tout apprendre apprendre nimporte quoi
- Solution instable
8Pourquoi le principe du MRE nest pas suffisant
?
- B trop grand
- tout apprendre apprendre nimporte quoi
- Solution instable
Cemp 0
minimiser Cemp ce nest pas forcément minimiser EP
9Pourquoi le principe du MRE nest pas suffisant
?
- B trop grand
- tout apprendre apprendre nimporte quoi
- Solution instable
Cemp 0
minimiser Cemp ce nest pas forcément minimiser EP
10M.R.E. comment stabiliser ?deux principes.
- Ce problème est mal posé
- EP est instable
- B est trop grand
- Il faut introduire un a priori
- compactifier régulariser (Tikhonov 63,
Groetsch 93) - Stabilisateur (pénalisation),
- Arrêt de la minimisation,
- Perturber les entrées,...
- Minimiser dans un sous ensemble F de B
11Minimisation du risque empirique
f ..f .. f
1
2
3
Mesure de Qualité
12Minimisation du risque empirique
pas bon
f ..f .. f
1
2
3
Mesure de Qualité
13Minimisation du risque empirique
pas bon ..bon .. moyen
f ..f .. f
1
2
3
Mesure de Qualité
14Mesure de Qualité
?F????f? ??(f) existe?
n
1 2
Min S yi - f(xi) ?????????(f)
2
i??
f ? F
Ajustement aux Données
15Mesure de Qualité
?F????f? ??(f) existe?
n
1 2
Min S yi - f(xi) ?????????(f)
2
i??
f ? F
Ajustement aux Données
Qualité a priori
16Mesure de Qualité
?F????f? ??(f) existe?
n
1 2
Min S yi - f(xi) ?????????(f)
2
i??
f ? F
Ajustement aux Données
Qualité a priori
Roberval
17Exemple da priori
- ???????????????(f)
- mesure la qualité de f
Interprétation Bayésienne
18Exemple da priori
- ???????????????(f)
- mesure la qualité de f
Fourier
Interprétation Bayésienne
19Choix de la priori
200
m mesure P(x) densité m(dx) P(x)dx
150
100
50
0
X
-4
-2
0
2
4
6
P(x) petit
P(x) grand peu dinformation beaucoup
dinformation f doit être régulière
f peut être irrégulière
20Choix de la priori
200
m mesure P(x) densité m(dx) P(x)dx
150
100
50
0
X
-4
-2
0
2
4
6
P(x) petit
P(x) grand peu dinformation beaucoup
dinformation f doit être régulière
f peut être irrégulière
Qualité
21Choix de la prioridérivée de Radon-Nikodym
Un exemple
22exemple
23Choix de ?(f) a priori
- Solution r(x) Arg
- r(x) r (x) r (x)
- locale ?(r ) 0
- les a priori des perceptrons multicouches
- tanh(x) globale ?(tanh) 0
2
f ?F
k
l
k
24Minimisation du risque régularisé
dérivée directionnelle
25de Q à G
Qf
QQ
QQ
Ker(Q)
26de Q à G
Qf
QQ
A PRIORI
QQ
Ker(Q)
Solution
27estimation des c
28Estimation des c et des d
nk
n
1
n
nk
29Exemple
30Une Solution Mixte
- r(x) r (x) r (x)
- R.B.F P.M.C
- Un cadre théorique possible
31Perspectives
- cadre théorique pour les réseaux de neurones
- mesures signées
- multidimensionnel,
- intégration des données (x et y) dans le choix de
m, - nouveaux algorithmes d apprentissage (SVM, ),
- moins derreur des bornes !
- intégrer une mesure de complexité,
32Régression spline et a priori
- ?f Qf QQ G ?
- f(x) S ci G(xi,x) S dj Kerj(x)
- moindres carrés
- (G ? I) c y
- Noyau équivalent f(x) S yi K(xi,x)
- Matrice de lissage f(xi) S y
33Les autres fonctions couts
nom contraste
fonction cible
- Cout quadratique
- Cout absolu
- Cout relatif absolu
- Relatif quadratique
- Quantiles
- Fixé par lutilisateur, ...
r(x) E(Y Xx)
34Minimisation du Risque Empirique (M.R.E.)
- Ce problème est mal posé
- car B est trop grand !
- existence dune solution
- unicité
- stabilité de lerreur en prédiction EP
- si (xi,yi) change un peu, EP varie peu
35Minimisation du risque structurel
- Minimisation risque empirique
Régulariser choisir F tel que M.R.E. soit stable
Choix de F Minimisation du risque Structurel
36Minimisation du risque structurel
1 - Choix de F -F est fonction de léchantillon
et du problème, - pratiquement, Fm contrôle
de la complexité. 2 - Estimation de lerreur de
prédiction - borne théorique, - par
rééchantillonnage, - ensemble test. 3 -
Régulariser introduire un a priori (Groetsch
93) - stabilisateur (pénalisation, Weigend
91), - perturber les entrées (régulariser
lopérateur, Plaut 86), - arrêt de la
minimisation (Amari 95).
37Moindrescarrés