Title: R
1Réseaux de neurones à base radiale
2Introduction
- Une fonction de base radiale (FBR) dépend de
manière non croissante de la distance entre la
variable indépendante et un vecteur de référence.
- Les FBRs représentent des récepteurs locaux dans
la figure, chaque point vert est un vecteur de
référence pour une FBR. - Un réseau à base radiale contient une couche
cachée constituée de FBRs. Une unité de sortie
réalise la combinaison linéaire de leurs sorties.
w3
Les coordonnées du point noir sont interpolées
à laide de celles des trois points verts, dont
la contribution individuelle de chacun dépend de
sa distance du point noir et de son poids w. Dans
lillustration
w2
w1
3Architecture RBR
Couche de sortie combinateur linéaire. Peut
être suivi dune fonction de sortie au besoin
Couche cachée les poids sont les
coordonnées des centres des FBR
Couche tampon
- Couche cachée fonction dactivation/sortie FBR
- Sont généralement des gaussiennes
- Unité de sortie fonction dactivation/sortie
linéaire.
4Modèle des unités cachées
- Unités cachées Utilisent des FBR
La sortie dépend de la distance entre Lentrée x
et le centre t
f?( x - t)
x1
- f?( x - t)
- t est le centre
- est létendue
- t et ? sont à déterminer
x2
xm
5Propriétés des unités cachées
- Un neurone caché est plus sensible aux entrées
situées proche de son centre. - Pour un FBR de type gaussien, la sensibilité est
réglée à laide du paramètre détendue ?, pour
lequel une valeur plus grande signifie moins de
sensibilité. - Plausibilité biologique Les cellules cochléaires
stéréociliaires du système auditif possèdent des
réponses qui sont optimales pour des bandes de
fréquences données.
centre
6Différentes sortes de FBR
- Multiquadriques
- Multiquadriques inverses
- Gaussiennes (les plus utilisées)
7Illustration du rôle de la couche cachée
8Exemple le problème du OU-X
- Espace simuli
- (problème)
- Espace réseau
- (solution)
- Construire un classifieur RBR tel que
- (0,0) et (1,1) sont projetés sur 0 (classe C1)
- (1,0) et (0,1) sont projetés sur 1 (classe C2)
9le problème du OU-X (2)
- Dans lespace des traits (couche cachée)
- Une fois projetées dans la couche cachée, C1 and
C2 deviennent linéairement séparables, permettant
au classifieur linéaire à la sortie de prendre
?1(x) and ?2(x) comme entrées et donner la bonne
sortie OU-X.
10Paramètres dun réseau RBR
- Que doit-on connaître (apprendre) pour un réseau
RBR donné ? - Le nombre de FBR
- Les centres des FBR
- Les étendues des FBR
- Les poids entre la couche cachée et la couche de
sortie - Plusieurs algorithmes dapprentissage sont
possibles
11Algorithme dapprentissage 1
- Centres sélectionnés aléatoirement
- Les centres sont choisis aléatoirement en partant
de lensemble dapprentissage - Étendues déterminées par normalization
- La fontion dactivation/sortie dun neurone caché
i est alors -
-
12Algorithme dapprentissage 1
- Poids Déterminés par la méthode de la matrice
pseudo-inverse - Considérons la sortie du réseau pour la paire
dapprentissage - Nous voulons avoir pour chaque
xi
13Algorithme dapprentissage 1
- On peut réécrire les équations précédentes
-
- pour un exemple dapprentissage xi donné, et
- pour tous les exemples simultanément
14Algorithme dapprentissage 1
- Si on pose
- Alors on a
- et
- où est la matrice pseudo-inverse de
15Principe du pseudo inverse
- Soit un vecteur X (X1Xp) et une relation
linéaire -
- Règle des moindres carrés
min
16Résumé de lalgorithme
- Choisir les centres aléatoirement à partir de
lensemble dapprentissage. - Déterminer les étendues des FBR en utilisant la
méthode de normalisation. - Trouver les poids de sortie en utilisant la
méthode de la pseudo-inverse.
17Algorithme dapprentissage 2
- Centres déterminés par un lalgorithme de
groupement des k moyennes adaptatif - Initialisation tk(0) aléatoire k 1, , m1
- Échantillonnage on tire x dans lespace
dapprentissage - Appariement par similarité trouver lindex du
centre le plus proche de x - Mise à jour adaptation des centres
- Continuation nn1, aller à 2 et continuer
jusquà ce que les centres se stabilisent
(changent peu).
18Algorithme dapprentissage 2
- Étendues déterminés par un algorithme basés sur
les plus P plus proches voisins - Un nombre P est choisi, et pour chaque centre,
les P centres les plus proches sont déterminés. - La distance quadratique moyenne entre le centre
courant et les centres de ses P plus proches
voisins est calculée, et est utilisée comme
valeur de ?. -
- Si le centre du groupe courant est cj, la valeur
de ? est -
- Une valeur typique pour P est 2, auquel cas ?
est la distance moyenne entre les deux plus
proches centroÍdes voisins.
19Résumé de lalgorithme
- Processus dapprentissage hybride
- Algorithme de groupement pour trouver les
centres. - Étendue fixée par normalisation des distances
entre P plus proches voisins. - Poids déterminés par un algorithme de moindres
carrés (e.g. Adaline)
20Algorithme dapprentissage 3
- Appliquer la technique de descente de gradient
pour trouver aussi bien les centres, les étendues
et les poids, de manière à minimiser lerreur
quadratique - Centres
- Étendues
- Poids
21Comparaison RBR-PMC
- Tous les deux approximateurs universels de
fonctions L2. - Réseaux non récurrents à couches multiples.
- RBR surtout utilisé pour la régression et la
classification binaire. - RBR apprend plus vite que PMC
- La couche cachée RBR est souvent plus facile à
interpréter que celle dun PMC - Après apprentissage, les réseaux RBR sont
généralement plus lents en phase de rappel.
22Comparaison RBR-PMC
- Architecture
- RBR possède une seule couche cachée.
- Modèle de neurone
- Dans RBR, le modèle des neurones cachés est
différent de celui des neurones de sortie. - La couche cachée dans RBR est non-linéaire, celle
de sortie est linéaire.
- PMC peut posséder plus dune couche cachée.
- Dans PMC, le modèle de neurone dans les
différentes couches peut être le même. - Dans PMC, toutes les couches peuvent être
non-lineaires.
23Comparaison RBR-PMC
- Fonctions de sortie
- Dans RBR, largument dune FBR de la couche
cachée est la distance (euclidienne ou autre)
entre un vecteur dentrée et le centre de
lunité. - Dans PMC, largument dun neurone caché est le
produit scalaire dun vecteur dentrée et du
vecteur des poids synaptiques qui alimentent le
neurone. - Approximation
- Les réseaux RBR construisent généralement une
approximation locale de projections
non-linéaires. Peuvent demander plus de
ressources mais mènent à des représententations
terses et linéairement decodables. - Les réseaux PMC construisent une approximation
globale des mêmes projections. Peuvent êter
difficiles à interpréter.
24Application Reconnaissance de visages
- Le problème
- Reconnaitre des visages de personnes faisant
partie dun groupe dans un environnement
intérieur. - Lapproche
- Apprendre les différentes classes, chacune
représentant des poses diverses dun même visage
en utilisant un réseau RBR.
25Données
- Base de données
- 100 images de 10 personnes (tons de gris sur 8
bits, résolution de 384 x 287) - Pour chaque individu, 10 images de la tête vue de
face et de profil - Conçue pour évaluer la performance de techniques
de reconnaissance du visage en présence de
variations de langle de prise de vue.
26Données
Images des classes 0-3 de la base de données
Sussex, centrées sur le nez et réduites à un
format de 25x25 avant traitement
27Approche RBR pour chaque visage
- Un réseau RBR par personne est utilisé pour
reconnaître le visage de la personne. - Lapprentissage utilise des exemples dimages de
la personne à reconnaître comme évidence positive
et des images dautres personnes pouvant prêter à
confusion comme évidence négative.
28Architecture du réseau
- La couche dentrée contient 2525 entrées
répréseantant les intensités (normalisées) des
pixels dune image. - La couche cachée contient pa neurones
- p neurones cachés pro (récepteur pour évidence
positive) - a neurones cachés con (récepteurs for évidence
negative) - La couche de sortie contient deux neurones
- Un pour la personne visée.
- Un pour toutes les autres.
- Le résultat est ignoré si la différence absolue
entre les sorties des deux neurones est
inférieure à un seuil R.
29Architecture pour reconnaître un visage
Unités de sortie linéaires
Supervisé
Unités FBR Non-linéaires
Non supervisé
Unités dentrée
30Couche cachée
- Les unités cachées peuvent être
- Neurones pro Évidence positive pour la
personne. - Neuones anti Évidence négative pour la
personne. - Le nombre de neurones pro est égal aux exemples
positifs dans lensemble dapprentissage. À
chaque Neurone pro correspondent un ou deux
neurones anti. - Modèle de neurone caché FBR gaussienne.
31Apprentissage et test
- Centres
- dun neurone pro lexemple positif
correspondant - Dun neurone anti lexemple négatif le plus
similaire au neurone pro correspondant, en
utilisant une distance euclidienne. - Étendue distance moyenne entre le centre du
neurone et tous les autres centres. Létendue
dun neurone caché est donc - où H est le nombre de neurones cachés et
est le centre du neurone . - Poids déterminés par la méthode du pseudo
inverse. - Un réseau RBR avec 6 neurones pro, 12 neurones
anti, et R égal à 0.3, rejeta 23 des images de
lensemble de test et classa correctement 96
des images retenues.