Title: Apprentissage MultiTche MTL
1Apprentissage Multi-Tâche (MTL)
- Présentation IFT6390
- Pascal Bachand 13 avril 2006
2Plan de présentation
- Introduction
- Multi-tâche VS Simple-tâche
- Les tâches reliées
- Quand utiliser le MTL
- Optimisations
- Conclusion
3Réseau de neurones
4Réseau de neurones Simple Tâche
5Classification multi-classe
Utilisation de 3 réseaux simple-tâche
6Classification multi-classe
Utilisation dun seul réseau pour lapprentissage
multi-classe
7Représentation interne des données
Espace des 2 dimensions
cas idéal...
longueur
luminosité
8Représentation interne des données
Espace des 2 dimensions
cas plus complexe...
longueur
Représentation interne ambiguë
luminosité
9Apprentissage Multi-Tâche (ou avec indice)
Apprentissage dune tâche supplémentaire reliée
à la tâche principale
Maladie chez saumon?
autres
autres
autres
10Représentation interne des données
longueur
luminosité
11Lapprentissage Multi-Tâche
- Propriétés
- Ajout de tâches supplémentaires reliées à la
tâche principale - Apprentissage en parallèle des tâches
- On utilise uniquement les résultats de la tâche
dintérêt pour nos prédictions - Partage des attributs à lentrée
- Partage de la représentation interne (noeuds
cachés) - Permet une représentation interne plus précise et
une meilleure performance (gain 10)
12Tâche reliée?
- Définie en fonction dun gain en performance
- Problème on ne sait que 2 tâches sont reliées
seulement après avoir testé la performance de
leur apprentissage conjoint...
- Comment reconnaître une relation a priori?
- ? Utilisation de règles heuristiques...
13Quand utiliser le MTL?
- Plusieurs situations le permettent. 8 cas seront
présentés ici - Attributs exclusifs à lensemble dentraînement
- Utilisation du futur pour prédire le présent
- Utilisation dattributs experts ou coûteux
- Concentrer lattention sur des détails
- Représentations alternatives
- Multiple fonctions derreurs
- Multiple représentation de la sortie
- Séparation de la catégorie autres
- Tâches similaires avec des distributions
différentes - Attribut à la sortie au lieu dune entrée
141. a) Utilisation du futur pour prédire le présent
Avant maladie
Attributs de base
âge, sexe, tension, ...
Objectif Prédire une maladie...
- Ces attributs sont disponibles seulement pour un
séjour prolongé à lhôpital si la malaldie sest
déclarée. - Connus seulement pour lensemble dentraînement.
- On fait appel aux attributs de la condition
future pour aider lentraînement sur les
attributs de bases.
151. a) Utilisation du futur pour prédire le présent
Pneumonie?
161. b) Utilisation dattributs experts ou coûteux
Attributs nécessitant expert ou trop coûteux
Attributs de base
disponible pour tous les échantillons
disponible pour lensemble dentraînement
seulement
Tâche principale
172. Concentrer lattention sur des détails
Encourager le réseau à remarquer des motifs qui
auraient été ignoré, en forçant lapprentissage
dune représentation interne supportant ce motif
Détails à remarquer
Navigation
Attributs de base
image 960 pixels
183. a) Multiple fonctions derreurs
Parfois une métrique derreur ne capture pas tous
les aspects dun problème. Il est possible
dintégrer par multi-tâche des métriques
alternatives qui capturent des aspects différents.
métrique2(t, z)
erreur
métrique3(t, z)
objectif t
sortie z
même tâche
193. b) Multiple représentations de la sortie
De manière analogue aux multiples fonctions
derreur, il est possible de faire ressortir des
aspects différents en employant des
représentations alternatives des mêmes
informations.
sortie cartésienne
sortie polaire
x
y
a
z
angle
même tâche
204. Séparation de la catégorie autres
- Problème multi-classe catégorie autres
introduite pour éliminer les exemplaires qui
nappartiennent pas aux catégories dintérêt. - Avantageux de diviser cette classe en plusieurs
éléments qui la composent pour réduire les
ambiguïtés.
autres
autres
Image 8X8 pixels
215. Tâches similaires avec des distributions
différentes
Souvent on retrouve plusieurs problèmes qui sont
pratiquement identiques, mais dont les résultats
ne pourraient pas sappliquer à lun lautre en
raison dun contexte et dune distribution
différente des données. On peut faire appel au
multi-tâche
Pneumonie?
Hôpital 2
Hôpital 3
Hôpital 4
Hôpital 1
226. Attribut à la sortie au lieu dune entrée
Parfois, un attribut utilisé pourrait être une
fonction dautres attributs en entrée.
attributs complexes f(B1... B5)
f(B1 ... B8)
Si une telle situation est soupçonnée ?
comparer la performance en utilisant cet attribut
comme nouvelle tâche du réseau. La
représentation interne apprise pour cette tâche
pourrait bénéficier la tâche principale.
B6
B7
B8
B1 B2 B3 B4 B5 B6 B7 B8
attributs complexes? f(B1... B5)
23Optimisations
- Arrêt hâtif de lapprentissage
- Taux dapprentissage
- Architecture du réseau
241. Arrêt hâtif de lapprentissage
- Lorsquon optimise en multi-tâche, lerreur de
test de chaque tâche est rarement optimale au
même moment...
- Il faut donc optimiser en fonction de la tâche
principale
100,000 epochs
75,000 epochs
125,000 epochs
252. Taux dapprentissage
- De manière similaire, utiliser le même taux
dapprentissage pour toutes les tâches est
suboptimal. - Il est nécessaire doptimiser les taux par
descente de gradient, en fonction de la
performance sur la tâche principale.
?1
?2
?3
?4
c 3
...
nH 300
263. Architecture du réseau
- En pratique, on observe 100 noeuds internes par
tâche
problème interne de sélection dattribut...
Utilisation dune couche cachée privée.
27Conclusion
- Lapprentissage Multi-Tâche (ou avec indice) peut
sappliquer dans énormément de contextes. - Permet un gain en performance par amplification
de la représentation interne. - Plusieurs tests empiriques on montré des gains
allant de 5-10, et jusquà 20 sur un réseau
optimisé (par rapport à lapprentissage
simple-tâche). - Sapplique bien aux réseaux de rétropropagation,
mais peut aussi sappliquer aux K-PPV, et à la
régression de noyau.
28Référence
- Caruana, Rich. Multitask Learning, thesis
submitted at School of Computer Science, Carnegie
Mellon University, Pittsburgh PA, sept 1997.
29Questions?
30Amplification de la représentation interne
- Données bloquantes. Ce type damplification
correspond à lexemple vu précédemment sur des
fonctions booléennes entre les tâches 1 et 2. - Dans cet exemple, lapprentissage de la Parité
est bloqué pour la tâche 1 chaque fois que B1
1. La tâche 2 complémente donc cet apprentissage
de la parité en raison de linversion du B1. - Amplification déchantillonnage des données. Ce
type damplification est observé lorsque deux
tâches possèdent une composante commune
additionnée dune seconde composante qui leur est
propre. - Dans ce type de situation, le signal pour la
composante F est amplifié et son apprentissage
sen trouve considérablement raffiné. - Amplification statistique des données. Il sagit
ici dune généralisation du cas précédent où lon
retrouve une composante additionnelle de bruit
aléatoire. Malgré tout, le signal de la
composante en commun sen trouve précisé.
31Amplification de la représentation interne
- Lécoute clandestine (eavesdropping). Cette
situation est caractérisée par le fait quune
composante dun signal est si faible que son
apprentissage devient impossible. Lexemple
suivant illustre cette situation -
- Dans cet exemple bien que lapprentissage de F
cernera bien la tâche à létude, une part
derreur restera présente en raison de la
contribution de G qui sera particulièrement
difficile à capturer. Lécoute clandestine
consiste donc à introduire une tâche qui est au
contraire, est fortement influencée par cette
composante - La sélection dattribut. Dans certaine
situation, malgré un domaine dattributs élevé,
la fonction réelle de la tâche à cerner pourrait
dépendre que dun nombre limité dattributs. -
- Dans cette situation il devient difficile de
distinguer les attributs pertinents des attributs
inutiles, et lapprentissage sera donc bruité par
lensemble des ces attributs superflus. Une
tâche supplémentaire qui traite cette même
composante sur les mêmes attributs aidera
lapprentissage par amplification, et éliminera
une partie du bruit causé par les attributs
superflus.
32Amplification de la représentation interne
- Biais de représentation. Une manière alternative
dillustrer lavantage dun apprentissage
conjoint de tâches reliées, consiste à imaginer
un diagramme de Venne qui présente les ensembles
des solutions pour chaque tâche. La combinaison
de lapprentissage permettra de mieux cerner les
régularités du domaine communes aux 2 tâches.