Title: Complexit
1Complexité et Classification
- Quelques aspects algorithmiques de problèmes de
classification
Richard Nock DSI-GRIMAAG Université
Antilles-Guyane, Campus de Schoelcher, Schoelcher,
Martinique, France rnock_at_martinique.univ-ag.fr ht
tp//www.martinique.univ-ag.fr/rnock
Département Scientifique Interfacultaire
Groupe de Recherche en Informatique et
Mathématiques Appliquées des Antilles-Guyane
2Background
- Ingénieur Agronome (1993)
- DEA Informatique (1993)
- Doctorat Informatique (1998) directeur O.
Gascuel - Mcf UAG Guadeloupe (1998-2000)
- Mcf UAG Martinique (2000-)
3Thèmes de recherche actuels
Algorithmes dapprentissage/classification
Théorie
(Complexité, stats/probas)
Analyse dimages
4Thèmes de recherche actuels
-
Résultats dinapproximabilité  appliqués en
ML/C
NP-Complétude
Concentration de v.a.
Bornes derreur sur algorithmes dapprentissage
5Résumé
Apprentissage et classification
Complexité algorithmique
Application à lapprentissage
Conclusion
6Apprentissage et classification
Introduction
7Apprendre ?
- Apprendre capacité pour une entité daméliorer
ses capacités de manière automatique, par
lexpérience. - Valiant (1984) 2 contraintesAlgorithmique
apprendre ? rapideStatistique apprendre ? fiable
8Apprendre ??
- Quapprends-ton dun point de vue informatique ?
- Détail des contraintes du modèle de Valiant ?
9Apprentissage et classification
Le modèle PAC de L. Valiant
10Observations et Exemples
Concept
 cibleÂ
Domaine
Un exemple
lt(x,y), gt
Exemples
tirés selon D
2 classes
11Grandes étapes
y
1- Collecte des exemples
2- Construction dune hypothèse
3- Qualité de lhypothèse ?
x
12Evaluation
y
B
Prob. Err.
?
A
Problème ?
C
x
13Evaluation
y
1- Pas daccès à Prob. Err. !
2- Uniquement Freq. Err.
3- Comment  assurer qualité ?
4- Et si distrib. quelconque ??
Freq. Err. 0
5- Et si distrib. inconnue ???
Problème !
x
14Solution modèle PAC I
y
1- Requérir Prob. Err. limitée
avec une forte probabilité
2- Sachant la distribution
quelconque
inconnue
mais fixe
3- Tirer suffisamment dexemples
x
15Modèle PAC II
1- A partir de là , comment trouver la meilleure
formule ?
Indép. du nb dexemples
2- Il suffirait de disposer dun algorithme
énumérant
toutes les formules possibles
Problème ?
3- Enumération souvent exponentielle
donc inutilisable
Problème !
16Solution
1- Exiger que lalgorithme fonctionne rapidement
2- Exiger un algorithme polynomial
Rectangles en 2D facile
17Modèle de Valiant (1984)
- Une classe de représentation de concepts C est
apprenable au sens du modèle PAC ssi il existe un
algorithme A vérifiant les deux conditions
suivantes
18Modèle de Valiant
- ?c?C, A a accès à un Oracle rétribuant des
exemples selon c et une distribution D inconnue,
quelconque, mais fixée, et, étant donnés deux
paramètres 0lte,dlt1, renvoie une hypothèse h de C
telle que
19Modèle de Valiant
- A fonctionne en temps polynomial
Taille du concept
cible
Variables de description
Confiance
Fiabilité
20Prouver que C nest pas PAC
- Trop dexemples nécessairespour satisfaire à la
première condition - Temps de calcul rhédibitoirepour satisfaire à la
deuxièmecondition
21Complexité algorithmique
Introduction
22Les problèmes de décision
Problème de décision
Instance
Ensemble dexemples
Question
Formule de C consistante ?
?
Oui
23Les problèmes de décision
Problème de décision
Instance
Ensemble dexemples
Question
Formule de C consistante ?
?
Non
24Classes de complexité
Classe des problèmes de décision admettant un
algorithme de résolution de temps polynomial en
la taille de linstance
P
NP
Classe des problèmes de décision admettant un
algorithme non déterministe de résolution de
temps polynomial en la taille de linstance
?
25Hypothèse(s) fondamentale(s)
P
NP
P
P temps
P
26Hypothèse(s) fondamentale(s)
QP
NP
QP
P
QP
QP
et bien sur
27Hypothèse(s) fondamentale(s)
NP
pour un
P
QP
et bien sur
28Hypothèse(s) fondamentale(s)
NP
???
Quy a-til ici ?
P
QP
et bien sur
29Problèmes  difficilesÂ
A
B
poly
instances
NP-Complets
Oui
Oui
Hyp. de comp.
Tous difficiles !
solutions
Un est Poly
Tous sont Poly
30Complexité algorithmique
Décision et optimisation
31Problème d optimisation
Définition
Instance
Ensemble dexemples LS
Ens. Solutions
Formules de C consistantes avec LS
Fonction de Coût
Taille de la formule
Objectif
Trouver une sol. min. (max.) la fonct. de coût
Décision vs Optimisation
La plupart des problèmes de décision admettent
(au moins) une version d optimisation
 naturelleÂ
32Problème d optimisation
Le coût d une instance est le coût optimal
d une solution
pour cette instance
Problèmes d optimisation difficiles
Existence ?
Procédure ?
33Difficulté d approximation I
Coût des instances
Prob. déc. NP-Complet
Prob. Minimisation
Non
 gapÂ
Oui
Réduction
34Difficulté d approximation II
Hypothèse le problème de minimisation
admet un algorithme
dapproximation de ratio
Comment arriver à une contradiction ?
35Difficulté d approximation II
Etapes
A
B
C
Non
Non
On résoud le problème NP-Complet !!
Algorithme hypothétique
Oui
d approximation
Oui
Instances
Solutions
36Difficulté d approximation III
Si il existe une réduction de temps polynomial
depuis un
prob. NP-Complet vers un problème de
minimisation, t.q.
Les instances  Oui sont transformées en inst.
de coût
Les instances  Non sont transformées en inst.
de coût
Alors, sous l hypothèse
le prob. de minimisation
n est pas approximable à moins de
37Remplacement de P par QP
Si on remplace l exigence polynomiale par une
exigence
Quasi-Polynomiale
Définition de l approximabilité
Temps de la réduction
Temps de l algorithme d approximation
hypothétique
Alors, sous l hypothèse
le prob. de minimisation
n est pas approximable à moins de
38Pourquoi remplacer P par QP ?
Avantage direct
Les ratios d inapproximabilité peuvent être bcp
grands
Inconvénient
Hypothèse bcp plus forte, et donc  moinsÂ
réaliste
devient
Avantage indirect
On peut aussi remplacer
par
et (espérer) des ratios encore grands !
39Application à l apprentissage
Réductions  traditionnellesÂ
40Preuves directes
- On part dun problème difficile (NP-Complet)
traditionnel - On construit une instance difficile d un
problème de classification, formulé comme un
problème de décision, ou d optimisation
41Exemple
- Kearns, Li, Pitt, Valiant (STOCÂ 87)
- Problèmes
Consistance (DNF)
Instance
Ensemble dexemples, entier kgt0
Question
k-term-DNF consistante ?
Optimisation (DNF)
Instance
Ensemble dexemples
Ens. Solutions
DNF consistantes
Fonction de Coût
Nb de monomes de la DNF
42(k-term-)DNF
Un monome (Booléen) conjonction de littéraux
Une DNF disjonction de monomes
Une k-term-DNF disjonction d au plus k monomes
2 classes exemples positifs et négatifs
(10110110,1)
(0101010,0)
43Représentation du problème
LS
2-term-DNF cons. ??
 OUIÂ
44La réduction
Instance
G(X,E), entier kgt0
Instance
Ech. dex., kgt0
Question
k-coloration de G ?
Question
k-term-DNF ?
k3
 OuiÂ
 OuiÂ
45La réduction
Propriété
Le nombre minimal de couleurs
taille minimale de la DNF consistante
46Résultat dinapproximabilité
Colorabilité minimale
SAT
Feige, Kilian 96
Non
 gapÂ
Oui
Réduction
Nombre de couleurs
47Théorème
En utilisant Kearns al. 87 Feige
Kilian 96, on obtient
Théorème
La DNF minimale consistante pas approximable Ã
moins de
Renvoie Oui, Non, ? (Pr(?)cstlt1)
Problème ?
48Commentaires
Sachant que la colorabilité est (trivialement)
approximable
à un ratio
On ne peut donc pas obtenir de ratio
d inapproximabilité
pour la DNF consistante minimale
De plus, on n obtient rien d intéressant en
replaçant
l hypothèse de complexité par une hypothèse plus
forte
49Application à l apprentissage
Réductions  self-improvingÂ
50Notre Solution
- A) Faire des réductions directement  Ã
lintérieur du problème dapprentissage.
d fois
Réduction ordinaire
A
B
B
B
B
Problèmes
51Notre Solution
- B)SÂ arranger pour que le ratio
d inapproximabilité augmente  brutalementÂ
avec les réductions
d fois
Réduction ordinaire
ratio
conservation
Pb
A
B
B
B
B
52Notre Solution
- C)SÂ arranger pour que le ratio
d inapproximabilité  explose en remplaçant
l hypothèse de complexité
Réduction ordinaire
ratio
conservation
Pb
A
B
53Propriété
- La complexité de la réduction est
- Le ratio dinapproximabilité est en
54Application à l apprentissage
Synthèse Pour DNF
55La réduction II
On combine les observations
On combine les classes par et-logique
56La réduction II
On ajoute quelques astuces supplémentaires
On a besoin de graphes très particuliers
On combine en réalité 4 réductions
57Conséquence I
- Si d est constantLa réduction est toujours
polynomiale,Le ratio  exploseÂ
58Conséquence II
- Si d devient polylog
- La réduction est quasi-polynomiale,
- Mais le ratio est  boosté davantage
- Résultat  extrème (d encore gd)
59Conséquence III
- Le résultat de complexité permet
- de donner des bornes inférieures sur le
complexité de tout algorithme PAC pour DNF - de montrer la non-apprenabilité de larges
sous-classes de DNF
60Application à l apprentissage
Programmation Logique Inductive
61Application II ILP
- ILP Programmation Logique Inductive
- Formalisme puissant de représentation de
connaissance - Utilisation de Clauses de Horn plus ou moins
contraintes, en présence de Background Knowledge
62Application II ILP
Objectif
En utilisant
et réaliser le moins derreurs !
Couvrir le plus dexemples positifs,
Couvrir le moins dexemples négatifs
63Application II ILP
Problème
Nom
Wapprox(g(.)-function-free-Horn-Clauses)
Instance
Ens. dex. LS, poids w/chaque exemple
Ens. Solutions
g(.)-function-free-Horn-Clauses
Fonction de Coût
(erreur de h sur LS)
64Application II ILP
Théorème(s)
Valeur de g(.)
Ratio dinapprox.
hypothèse
constante
polylog
En utilisant les réductions  self-improvingÂ
Sans utiliser les réductions  self-improvingÂ
65Application à l apprentissage
Sélection de Variables/Prototypes
66Application III Sélection de variables/prototypes
Blum94 Â nearly all results in machine
learning deal with problems of
separating relevant from irrelevant
information in some wayÂ
Question difficulté algorithmique de la
tâche?
67Application III Sélection de variables/prototypes
variables
classe
1) enlève une variable
2) enlève un exemple
exemples
68Application III Sélection de variables/prototypes
Contrainte
Mesure dinformation
Approximation dun concept
Fct. de coût
Exemples
Réductions  self-improvingÂ
Variables
69Application III Sélection de variables/prototypes
Exemples/Mesure dinformation
Fonction f permissible f 0,1?0,1 f
symmétrique / x1/2 f(1/2)1, f(0)f(1)0 f
concave
Entropie bin.
Critère de Gini
Critère de Boosting
70Application III Sélection de variables/prototypes
Exemples/Mesure dinformation
Quantité  dinformation dune variable
Objectif (informel)
Réduire le nombre dexemples en assurant
que les variables informatives le restent
71Application III Sélection de variables/prototypes
Théorème(s)
hypothèse
Ratio dinapprox.
En utilisant les réductions  self-improvingÂ
Sans utiliser les réductions  self-improvingÂ
72Application III Sélection de variables/prototypes
Contrainte
Mesure dinformation
Approximation dun concept
Fct. de coût
Exemples
Variables
73Parallèle  IntéressantÂ
- Une technique de classification récente
extrèmement puissante (Breiman96) combine les
solutions dalgorithmes dapprentissage
modérément fiables,et retourne une nouvelle
solution beaucoup plus fiable (Boosting).
74Parallèle  IntéressantÂ
- Notre technique combine les instances de
problèmes doptimisation en apprentissage/classifi
cation modérément difficiles,et retourne une
nouvelle instance beaucoup plus difficile.
75Application à l apprentissage
Autres résultats
76Autres résultats de complexité
- Kohavi et al.98 lerreur nest pas le meilleur
critère à optimiser pour le Data Mining. - Utilisation de nouveaux critères (courbes ROC,
contraintes, etc.). - Quelle est la difficulté algorithmique de ces
nouveaux critères ?
77Autres résultats de complexité
- En utilisant un sous-ensemble des clauses de
Horn, on a montré - que ces critères entrainent une difficulté
algorithmique considérable (même si on autorise
la multiplication arbitraire des clauses de
Horn). - que loptimisation de lerreur seule est
 facile en comparaison.
78Publications directement concernées
- International Conference on Inductive Logic
Programming (ILP98, ed. Springer Verlag) - International Symposium on Algorithms and
Computation (ISAAC98, ed. Springer Verlag) - International Conference on Algorithmic Learning
Theory (ALT99, ALT00, ed. Springer Verlag) - et dautres indirectement concernées.
79Conclusion
- Apprenabilité et approximabilité de DNFun des
problèmes fondamentaux de la théorie de Valiant,
conjecturé négatif par Valiant en 1985. - En 1998, nous avions le ratio dinapproximabilité
le plus important pour DNF (mais encore très loin
de l  optimum !).
80Conclusion
Les problèmes dapprentissage semblent être de
bons candidats aux réductions self-improving.
mais lintérêt des résultats négatifs reste
limité en apprentissage.
heureusement, je développe aussi des résultats
positifs sur quelques problématiques de
classification ?(voir diapositive suivante)
81Merci pour votre attention !
dans R.Nock, Â Fast and Reliable Region Merging
inspired by
Decision-Tree PruningÂ
IEEE Int. Conf. on Computer Vision and Pattern
Recognition
(Décembre 2001)