Title: Les SVM : S
1Les SVM Séparateurs à Vastes Marges(Support
Vector Machines)
- Antoine Cornuéjols
- IIE CNRS - Université de Paris-Sud, Orsay
- antoine_at_lri.fr http//www.lri.fr/antoine
2Hyperplans séparateurs
- Tâche de classification
- Cas de la séparation linéaire
- - On cherche h sous forme dune fonction linéaire
h(x) w.x b - - La surface de séparation est donc lhyperplan
- - Elle est valide si
- - Lhyperplan est dit sous forme canonique
lorsque - ou encore
3Hyperplan de plus vaste marge
4Optimisation de la marge
5Optimisation de la marge
- La distance dun point à lhyperplan est
- Lhyperplan optimal est celui pour lequel la
distance aux points les plus proches (marge) est
maximale. Cette distance vaut - Maximiser la marge revient donc à minimiser w
sous contraintes
6SVMs un problème doptimisation quadratique
- Il faut donc déterminer w et w0 minimisant
-
- (afin de maximiser le pouvoir de généralisation)
- sous les contraintes (hyperplan séparateur)
7Résolution de la forme primaire du problème
d dimension de lespace dentrée
- Il faut régler d 1 paramètres
- Possible quand d est assez petit avec des
méthodes d'optimisation quadratique - Impossible quand d est grand (gt qqs 103)
8Transformation du problème doptimisation
- Méthode des multiplicateurs de Lagrange
- Problème dual
9Propriétés de la forme duale
- La conversion est possible car les fonctions de
coût et les contraintes sont strictement convexes
(Th. de Kuhn-Tucker) - La complexité du problème d'optimisation est
- µ m (taille de l'échantillon
d'apprentissage) - et non µ d ( taille de l'espace d'entrée X )
- Possible d'obtenir des solutions pour des
problèmes impliquant 105 exemples
10Solution du problème doptimisation
- Propriété1 seuls les ?i correspondant aux
points les plus proches sont non-nuls. On parle
de points de support (exemples critiques). - Propriété 2 seuls interviennent les produits
scalaires entre les observations x dans le
problème doptimisation.
11Problèmes non linéairement séparables dans X
- La majorité des problèmes !!!
- Idée
- Si on projette dans un espace de redescription de
très grande dimension ?? - Presque toujours le problème devient linéairement
séparable - Mais
- Fléau de la dimensionalité
- dVC explose !!?
12SVM et redescription
Espace des représentations internes
Espace d'entrées X
Espace de sortie
F
h
x
y
Séparation linéaire
Redescription non linéaire
13Petite digression
- La reconnaissance de chiffres manuscrits par
réseaux de neurones (ATT Bell labs, 1993)
14La redescription des entrées illustration
- Soit un espace dentrée à 2 dimensions
- Tout vecteur x (x1, x2) peut être redécrit à
laide de polynômes dordre 6 - Nouvel espace de descripteurs à 16 dimensions
(fonctions de base)
15Le nouveau problème doptimisation
- Soit ? X -gt ?(X), on peut remplacer partout x
par ?(x) - Si ? est bien choisie, K(x, x) ?(x).?(x) peut
être facile à calculer et le problème devient
16Solution du nouveau problème doptimisation
- La fonction de décision devient
- Soit dans la forme duale
n nb de fcts de base (peut être très grand)
mS nb de points de support
17Schéma de fonctionnement des SVMs
18Les conditions de Mercer
- Si on prend une fonction K symétrique, il existe
une fonction ? tq - ssi, pour toute fonction f telle que
- lon a
- Si cette condition est vérifiée, on peut
appliquer les SVMs - MAIS cela ne dit pas comment construire ?
19Fonctions noyau usuelles (1/2)
- Polynomiale
- Les polynomes de degré q ont pour fonction noyau
associée - RBF
- Les fcts à base radiale
- ont pour fct noyau associée
- Sigmoïde
- Les réseaux de neurones à fcts d'activation
- ont pour fct noyau associée
20Fonctions noyau usuelles (2/2)
- Construction à partir de fonctions noyau de
base(Propriétés de clôture) - K(x,z) K1(x,z) K2(x,z)
- K(x,z) a K1(x,z)
- K(x,z) K1(x,z) . K2(x,z)
-
- Construction de fonctions noyau dédiées
- Splines Bm
- Expansion de Fourrier
- Ondelettes
- ...
21Les fonctions noyau
- encodent
- Une mesure de similarité sur les données
- La forme fonctionnelle des fonctions de décision
- Le type de régularisation réalisée
- (ex les fcts gaussiennes favorisent les
solutions régulières) - Le type de covariance dans lespace des entrées
- (ex fcts noyau invariantes par rotation)
- Sorte de distribution de probabilité a priori sur
lespace des hypothèses
22Illustration le cas du XOR
23Illustration le cas du XOR
- Fonction noyau polynomiale de d 2
- K(x,x') 1 (xT . x')2
- soit K(x,xi ) 1 x12xi12 2 x1x2xi1xi2
x22xi22 2x1xi1 2x2xi2 - correspondant à la projection F
- 1, x12, v2 x1x2, x22, v2 x1, v2 x2 T
24Illustration le cas du XOR
25Illustration le cas du XOR
- L'optimisation de Q(a) en fonction des
multiplicateurs de Lagrange conduit au système
d'équations
- La valeur optimale des multiplicateurs de
Lagrange est
26Illustration le cas du XOR
- Les 4 exemples sont donc des exemples critiques
("support vectors") - La valeur optimale de Q(a) est
- Et soit
27Illustration le cas du XOR
- Les 4 exemples sont donc des exemples critiques
("support vectors") (? i , ai ? 0) - La fonction de décision sécrit
28Illustration le cas du XOR
- En revenant dans lespace dorigine
- Le vecteur poids optimal est
soit
29Illustration le cas du XOR
- L'hyperplan optimal correspond à
30Illustration le cas du XOR
Séparatrice dans l'espace F(X) (espace à 6
dimensions)
- Séparatrice dans l'espace d'entrée
- D(x) -x1x2
31Cas du problème non séparable marges douces
- On introduit des variables ressort qui
pénalisent lerreur commise - Le problème dual a la même forme à lexception
dune constante C
32La mise en pratique
- Il faut choisir
- Le type de fonction noyau K
- Sa forme
- Ses paramètres
- La valeur de la constante C
- La sélection rigoureuse de ces paramètres exige
une estimation de la dimension de
Vapnik-Chervonenkis et lapplication de la borne
de généralisation ? - Dans le cas séparable, il est possible de
déterminer ces paramètres - Dans le cas non séparable, il faut tester avec
des méthodes empiriques pour faire le meilleur
choix
33Exemple
- exemple
- exemple -
- Dans cercle points de support
- Fct noyau polynomiale de degré 3
- Démo
- http//svm.research.bell-labs.com/
- http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
34Effet des paramètres de contrôle
- Apprentissage de deux classes
- exemples tirés uniformément sur l'échiquier
- SVM à fonctions noyau gaussienne
- Ici deux valeurs de s
- En haut petite valeur
- En bas grande valeur
- Les gros points sont des exemples critiques
- Plus en haut qu'en bas
- Dans les deux cas Remp 0
35Les données d'apprentissage
36Paramètres de contrôle les fonctions noyau
- http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
- 47 exemples (22 , 25 -)
- Exemples critiques 4 et 3 -
- Ici fonction polynomiale de degré 5 et C 10000
37Paramètres de contrôle les fonctions noyau
(5-, 4)
(5-, 4)
(3-, 4)
- 47 exemples (22 , 25 -)
- Exemples critiques 4 et 3 -
Ici fonction polynomiale de degré 2, 5, 8 et C
10000
(10-, 11)
(8-, 6)
(4-, 5)
Ici fonction Gaussienne de s 2, 5, 10, 20 et
C 10000
38Ajout de quelques points ...
- http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
- 47 8 exemples (30 , 25 -)
- Exemples critiques 5 et 8 -
- Ici fonction polynomiale de degré 5 et C 10000
39Domaines dapplication des SVMs
- Traitement dimages
- Reconnaissance de caractères manuscrits
- Reconnaissance de scènes naturelles
- Reconnaissance de visages
- Entrées image bidimensionnelle en couleur ou
en niveaux de gris - Sortie classe (chiffre / personne)
40Domaines dapplication des SVMs
- Images 256 256 (100 niveaux de gris)
- Codées en 16 16 (niveaux de gris) mêmes par
4 opérateurs différentiels à une dimension
(,-,/,\) 1280 pixels (5 16 16) - 25 objets pris sous 25, 89 ou 100 points de vue
(ens. dapprentissage)
Thèse B. Schölkopf, 1997
41Domaines dapplication des SVMs
- Résultats avec noyaux polynomiaux
42Application images couleurs
- Base dimages Corel Stock Photo Collection
- 200 catégories
- 100 images / catégorie
- Codage
- Pixel vecteur dans espace à trois dimensions
(RGB) - Image histogramme (fraction des pixels dune
couleur donnée) - Invariant / nombreuses opérations
- Noyau
(fonction c2)
43Domaines dapplication des SVMs
- Catégorisation de textes
- Classification de-mails
- Classification de pages web
- Entrées document (texte ou html)
- Approche sac de mots
- Document vecteur de mots (lemmatisés pondérés
par tf-idf) - Sortie catégorie (thème, spam/non-spam)
- Noyau
- Produit scalaire des vecteurs
- C (marge dure)
44Domaines dapplication des SVMs
- Diagnostic médical
- Évaluation du risque de cancer
- Détection darythmie cardiaque
- Évaluation du risque daccidents
cardio-vasculaires à moins de 6 ans - Entrées état du patient (sexe, age, bilan
sanguin, ) - Sortie
- Classe à risque ou non
- Probabilité daccident à échéance donnée
45Domaines dapplication des SVMs
- Dans les deux cas
- Pas dinformation de structure
- Seulement des informations globales
46Domaines dapplication des SVMs
- Étude de séquences en bio-informatique
- Biologie structurale prédictive (prédiction de
structure secondaire du génome) - Identification de régions codantes de lADN
génomique - Phylogénie
- Entrées chaînes dacides aminées
- Sortie
- Structure secondaire
- Intron / exon
- Ancêtre
- Noyau relationnel
- Modèle génératif (chaînes de Markov insertion,
délétion, remplacement, )
47Implémentation des SVMs
- Minimisation de fonctions différentiables
convexes à plusieurs variables - Pas doptima locaux
- Mais
- Problèmes de stockage de la matrice noyau (si
milliers dexemples) - Long dans ce cas
- Doù mise au point de méthodes spécifiques
- Gradient sophistiqué
- Méthodes itératives, optimisation par morceaux
- Plusieurs packages publics disponibles
- SVMTorch
- SVMLight
- SMO
48Extensions
- Classification multi-classes
- Régression
- Détection de nouveautés
- Analyse en composantes principales par noyaux
49SVM et régression
50SVM et apprentissage non supervisé
On cherche à séparer au maximum le nuage de
points de lorigine
51Pourquoi ça marche ?
- La marge est liée à la capacité en généralisation
- Normalement, la classe des hyperplans de Rd est
de dH d 1 - Mais la classe des hyperplans de marge est
bornée par dH Min (R2 c, d) 1 - où R est le rayon de la plus petite sphère
englobant l'échantillon d'apprentissage S - Peut être beaucoup plus petit que la dimension
d de l'espace d'entrée X -
52Bilan
- SVMs très utilisés
- Méthode générale
- Facile demploi
- Résultats en général équivalents et souvent
meilleurs - Stimulent tout un ensemble de travaux sur des
méthodes à base de noyaux (kernel-based methods) - Limites
- Problèmes i.i.d. (données indépendantes et
identiquement distribuées)
53Sources documentaires
- Ouvrages / articles
- Cornuéjols Miclet (02) Apprentisage
artificiel. Concepts et algorithmes. Eyrolles,
2002. - Cristianini Shawe-Taylor (00) Support Vector
Machines and other kernel-based learning methods.
Cambridge University Press, 2000. - Herbrich (02) Learning kernel classifiers. MIT
Press, 2002. - Schölkopf, Burges Smola (eds) (98) Advances
in Kernel Methods Support Vector Learning. MIT
Press, 1998. - Schölkopf Smola (02) Learning with kernels.
MIT Press, 2002. - Smola, Bartlett, Schölkopf Schuurmans (00)
Advances in large margin classifiers. MIT Press,
2000. - Vapnik (95) The nature of statistical learning.
Springer-Verlag, 1995. - Sites web
- http//www.kernel-machines.org/ (point dentrée)
- http//www.support-vector.net (point dentrée)