Title: Application des r
1Application des réseaux de neurones aux données
censurées
- Antonio Ciampi Mac Gill University, Canada
- Yves Lechevallier INRIA, France
2Problème (1/2)
- Construire un modèle de prédiction du temps de
survie à partir dun ensemble de descripteurs ou
variables - Ingénierie
- Brown, S.F., Branford, A.J., Moran, (1997) On
the use of Artificial Neural networks for the
Analysis of Survival Data, IEEE Transacions on
Neural Networks, 8, 1071-1077 - Médecine
- - Faraggi, D., Simon, R. (1995) A Neural
Network Model for Survival Data, Statistics in
Medicine, 14, p73-82 - - Biganzoli, E., Boracchi, P., Mariani, L.,
Marubini, E. (1998) Feed Forward Neural Networks
for he analysis of censored survival data a
partial logistic regression approach Statistics
in Medicine, 17, 1169-1186
3Problème (2/2)
- Difficultés
- Comment introduire la notion de censure dans un
réseau de neurones? - Comment entraîner un réseau afin dobtenir des
bonnes prédictions sur des nouvelles données?
4Organisation de la présentation
- Notion de base de lanalyse de survie
- Utilisation du Perceptron multi-couches
- Architecture, apprentissage, évaluation
- Un exemple
5Analyse de Survie
Lapproche statistique est de construire un
modèle de régression approprié à partir du
tableau de données
Données de survie avec une censure à droite
6Données de survie
Un échantillon de taille N
(z(i), t(i),?(i)), i 1,,N
Pour chaque observation i nous avons
- z(i) son vecteur de description
- t(i) son temps de survie
- ?(i) lindicateur de censure (1 observé, 0
censuré)
7La fonction de survie
Les variables prédictives servent à estimer le
paramètre de la distribution de la fonction de
survie La fonction h(tz) est définie à partir
de la fonction de survie par
Cest le taux de décroissance de la survie en
fonction de z
8Hypothèses sur la fonction h(tz)
h peut être décomposée comme un produit de deux
fonctions. Lune dépend de t, lautre est liée à
z.
avec j(0)0
On suppose que les variables prédictives sont
centrées et normées.
9la vraisemblance
Pour une observation (z(i), t(i),?(i)) le log de
la vraisemblance est égal à
Voir Cox et Oakes, 1984
Il faut estimer les fonctions h0 et j à partir
des données
10Modèle exponentiel
On suppose que le fonction j est linéaire
?(z) wz
et que h0(t) l0constant
doù léquation du log de la vraisemblance
redéfinir
11Régression
?(zw) wz
12Architecture du Perceptron Multi-Couches
Sortie calculée Out(zw)
Sortie désirée (t,d)
Couche cachée H neurones
Entrée p1 valeurs
13La fonction de transfert
- les variables prédictives sont associées aux
cellules de la couche dentrée - Le couple (t,d) est associé au neurone de la
couche de sortie
W est un vecteur de matrices
Lapprentissage de ce réseau est supervisé. Il
utilise un algorithme de rétropropagation du
gradient de lerreur
14Algorithme du gradient stochastique
On choisit un w0 dans l'espace des solutions. à
l'étape t on effectue un tirage aléatoire. On
obtient une réalisation zt on procède à la mise
à jour par la formule suivante
la suite de termes at positifs doit vérifier
15La mise à jour des pondérations
- Mesure de lerreur le processus dapprentissage
du réseau consiste à présenter successivement les
exemples de lensemble dapprentissage de façon à
estimer les poids W. - On utilise lerreur quadratique moyenne
- Algorithme de minimisation de lerreur On peut
écrire quà létape t, le vecteur des matrices
des pondérations W dépendent de létape t-1 par
la formule suivante
16Calcul des pondérations
De manière générale nous avons
Pour le neurone i de la couche de sortie NC il
faut calculer
Cette partie est dépendante de la fonction de
coût J.
17Calcul des pondérations
car
Doù
Ce calcul est indépendant de la fonction de coût
J.
18Perceptron multi-couches
Fonction de coût
Avec le modèle exponentiel nous avons
la fonction Out de sortie du réseau représente la
fonction j du modèle de survie
19Architecture
Le choix le plus simple est dutiliser un réseau
de neurones ayant une couche cachée. Dans ce cas
il faut spécifier le nombre de neurones dans
cette couche.
20Apprentissage, évaluation
Apprentissage Lobjectif est de déterminer, à
partir des données, le vecteur de pondération w
qui minimise la fonction coût
Évaluation on se propose de comparer la
performance de notre prédiction avec les
approches classiques
21Généralisation
On veut estimer lefficacité de notre prédiction
par rapport à des situations futures. Cette
prédiction a été construite à partir dun
ensemble dapprentissage. Cependant cette
prédiction dépend de larchitecture du réseau et
donc à chaque modification de larchitecture nous
avons une autre fonction de prédiction. Un
troisième ensemble des données (ensemble de
validation) est donc nécessaire pour pouvoir
comparer deux prédictions issues darchitectures
différentes mais construites sur le même ensemble
dapprentissage .
22 Early Stopping
Dans Bishop (1995) Neural Networks for Pattern
Recognition de nombreuses solutions sont
proposées pour comparer et évaluer différents
fonctions de prédiction issues darchitectures
neuronales différentes. Dans cette stratégie on
divise lensemble dapprentissage Le en deux
ensembles lensemble dentraînement Tr qui
permet de calculer les pondérations w de réseau,
lensemble de validation Vl qui permet darrêter
le processus dapprentissage. La convergence est
déclarée quand la fonction de coût, évaluée sur
Tr croit sur Vl. Lensemble test Ts mesure la
qualité de la prédiction choisie.
23Choix de larchitecture
C(wH(A) B) coût global dune architecture avec H
neurones dans la couche cachée, évalué sur
lensemble B mais estimé sur lensemble A. wH(A,
i, r) pondérations wH à l'itération i de lessai
r (initialisation au hasard) calculées avec A
H nombre de neurones fixé, choisir litération i
et lessai r par (iV(H), rV(H)) argmin
C(wH(Tr, i, r)) Vl) pour i 1,2,....., et r
1, 2,...R et déterminer le bon choix du nombre
de neurones H par H argmin C(wH(Tr, iV(H),
rV(H)Vl) h 1,2,...
24Un exemple
Treize variables décrivent des rythmes cardiaques
ont été utilisées pour construire une prédiction
de la fonction de survie à partir dun ensemble
de 1550 malades ayant une maladie cardiaque.
Lensemble de données a été divisé en trois
parties lensemble dapprentissage Le (1000
malades) et lensemble test Ts (550 malades).
Lensemble dapprentissage a été divisé en deux
lensemble dentraînement Tr ( 700 malades) et
lensemble de validation Vl (300 malades)
25Courbes dévaluation sur Vl
H1
H2
26Courbes dévaluation sur Vl
H8
H10
27Fonction coût sur Tr, Vl et Ts
H4
H8
H3
28Intérêt de lutilisation de Vl
(iTs(H), rTs(H)) argmin C(wH(Le, i, r)) Ts)
pour i 1,2,....., r 1, 2,...R H? argmin
C(wH(Le, iTs(H), rTs(H)) h 1,2,.. Biais
lié à lutilisation de lensemble Ts
29Biais associé à Ts
30Mesures pour lévaluation
i) Le coût global ii) Moyenne quadratique de
lerreur de prédiction (c'est calculé après avoir
complété la valeur censurée du temps en ajoutant
la survie résiduelle attendue) iii)
l'adaptation du C-index de Harrel (Harrel et
al.,1984).
31Évaluation et comparaison de deux réseaux avec la
régression
Régression ANN
Ens Apprentissage 8 AN
2 AN Coût 573.73 563.14 563.50 EMS
169.46 137.87 106.13 C-index 0.68
0.70 0.68 Ens test Coût
327.98 294.28 298.29 EMS 178.11 180.28 1
16.98 C-index 0.69 0.70 0.70
32Conclusion
Lapproche neuronale peut être appliquée avec
succès à l'analyse de données de la survie
Notre approche évite la discretisation de la
variable temps mais suppose un modèle
paramétrique qui est un compromis entre
l'approche semi-paramétrique de Faraggi et Simon
et celle de Biganzoli. Nous avons aussi utilisé
une nouvelle approche qui permet darrêter le
processus dapprentissage et semble bien
fonctionner avec un temps de calcul
raisonnable. La limitation majeure de ce travail
peut être vaincue par le développement de modèles
plus réalistes, par exemples des mélanges de
distributions exponentielles.