Title: Vincent Rialle
1Apprentissage automatique de décisions à partir
de dossiers médicaux Induction automatique
d'arbres et règles de décision MSBM /
certificat IMTC2001
- Vincent Rialle
- Laboratoire TIMC-IMAG CNRS UMR 5525
- Faculté de Médecine et CHU de Grenoble
- Vincent.Rialle_at_imag.fr
2IntroductionDivers champs de recherche en
apprentissage automatique
- Apprentissage symbolique en I.A.
- Étude et conception d'algorithmes qui
s'améliorent avec l'expérience - e.g. Groupe de Recherche sur l'Apprentissage
Automatique, - e.g. Inférence grammaticale et programmation
logique inductive, - etc.
- Apprentissage par détection de similarités
- Apprentissage par recherche d'explication
- Apprentissage par analogie
- Apprentissage à partir d'exemples
- Apprentissage supervisé les réponses
(diagnostics) sont données avec les exemples - Apprentissage non-supervisé couple (variables,
valeur) uniquement - Nombreuses approches, très nombreux algorithmes...
3Une notion très actuelle le " Datamining"
- Datamining ECD extraction de connaissances à
partir de données - ensemble des méthodes visant à induire des
connaissances à partir de données informatisées - les connaissances sont de tous types
propositionnelles, quantitatives, graphiques... - les données sont constituées par tout ce qui peut
être numérisé - données obtenues par un utilisateur, un appareil
de mesure, une recherche dinformation sur le
Web, des images,... - données structurées (BdD), peu / non structurées
(textes, génome,...) - le data-mining possède un vaste marché, grâce à
- la surcharge informationnelle grandissante
- la disponibilité des matériels, la baisse des
coûts, Internet, etc.
4Une notion générale la classification
automatique
- Objectifs
- Déterminer des classes d'objets
- Réduire le plus possible de la complexité d'un
ensemble de données - Déterminer la classe d'un objet
- problèmes de type diagnostique ou reconnaissance
de forme - Types d'approches de la classification
automatique - non supervisée (clustering) nuées dynamiques,
certains algo. Génétiques, etc. - supervisée arbres de décision, certains RN,
certains algo. Génétiques, - par inférence logique systèmes experts,
systèmes à bases de connaissances - Procédure obtenue "classifieur"
5Définition intensionnelle d'un concept
- Définition intensionnelle définir le concept
d'une manière concise au moyen d'un langage de
description - e.g. concept de nombre pair y est pair si y
appartient à l'ensemble P défini par P x,
tel qu'il existe n, entier naturel positif, et x
2 x n - Ou encore l'ensemble des voitures du
département de l'Isère est défini de manière
intensive par une voiture est du département
de l'Isère si la troisième expression de sa
plaque d'immatriculation est "38"
6Définition extensionnelle dun concept
- Définition extensionnelle utiliser comme
définition du concept l'ensemble de ses
manifestations (instances, réalisations) dans un
univers U de réalisations - e.g. les voitures de l'Isère, la définition en
extension sera la liste complète des voitures
dont la plaque d'immatriculation se termine par
"38". Soit la liste V v1, v2, ..., vn. - la plus "coûteuse" à utiliser par un processeur
ou un organisme doté de capacités cognitives - impossible à utiliser lorsque l'ensemble de
définition est infini - e.g. les nombres pairs
- ou lorsque son cardinal est indéfini
- e.g. l'ensemble des oiseaux
7Intension, extension et cognition
- La définition extensionnelle correspond à
l'ensemble des expériences sensorielles que fait
un sujet pour un type donné d'objets - La définition intensionnelle correspond à la
représentation synthétique, dans l'univers de
représentation du sujet, de ces objets - Representation formée à la suite de l'expérience
perceptuelle répétée de ces objets. - La définition intensionnelle est donc étroitement
liée à la capacité cognitive de catégorisation
(Rosch, 1978 Meunier, 1992).
8Apprendre, c'est trouver une fonction F
- ? est la population (la réalité )
- E est l ensemble des descriptionsdes éléments
de la population - K est l ensemble des classes
- K est le plus souvent construite parle jugement
dun expert - X ? ? EX est la fonction qui associe à tout
élément de ? sa description - X est le plus souvent assumée par le jugement
dun expert - Y ? ? KY est la fonction qui associe à tout
élément de ? sa classe - On cherche une fonction F E ? K telle que F o X
Y - en pratique F doit être une bonne
approximation de Y
9Induction de classifieursà partir dexemples
pré-classés
- Qu'est-ce qu'un "système d'apprentissage
automatique" ? - A learning system is a computer program that
makes decisions based on the accumulated
experience contained in successfully solved
cases(Weiss et Kulikowski, 1991) - Représentation (ou description)
- p variables descriptives P v1, ..., vp
- k classes décisionnelles possibles K
c1,...,ck - n exemples pré-classés E e1, ..., en
- ei ((ai1, ai2, ..., aip), ci)
- aij Î Val(vj) et ci Î K
- Construction du modèle classifieur F
- F E ? K
- ei ? c F(ei)
- Généralisation
- E ensemble de cas non pré-classés
- e Î E, F(e) calculable ? exact ? ...
10Exemples...
- Exemples
- on décrira un patient par un ensemble de
symptômes et une suite de mesures (tension,
température, ...) - on décrira un client par un ensemble de données
que l'on possède sur lui (âge, sexe, catégorie
socio-professionnelle, ...) - etc.
- Il existe de nombreuses bases d exemples
benchmarks accessibles sur Internet
11La base d exemples pierre d angle de
l apprentissage
Variables
n
j
classe
1
2
m
de cas
1
a
i
ij
n
- Mise en garde ce formalisme
- correspond à une simplification plus ou moins
drastique de la réalité - des variables continues peuvent être "vécues"
comme discrète sur certains sous-domaines ou dans
certaines conditions - (e.g. l'âge, la température corporelle,...).
- Il peut y avoir plusieurs diagnostic possibles
pour un cas donné, sans possibilité de trancher
en faveur de l'un d'entre eux. Etc. - ne couvre pas les problèmes de représentation de
raisonnements ou de représentation d'histoires. - répond mal aux exigences des bases de cas dont le
nombre de variables utilisées pour décrire un cas
varie considérablement d'un cas à l'autre
12Ingrédients de base
Base de cas pré-classés
Algorithme (théorie)
Classifieur
13Phases délaboration
Conception - réalisation d'une base de cas
Population, variables, domaines de valeur Cumul
des cas de décision à partir de couples
(observation, décision)
Apprentissage - construction d'un "modèle"
Rercherche du (des) modèle(s) capable(s) de
reproduire les mêmes décisions à partir des mêmes
observations ou d'observations peu différentes
Extraire les régularités - préserver les
singularités
Validation - utilisation - généralisation
14Diversité des algorithmes dapprentissage
- Classifieurs neuronaux - apprentissage supervisé
- rétropropagation (erreur quadratique, erreur
entropique, modèles hybrides...) - Classifieurs neuronaux - apprentissage non
supervisé - cartes corticales de Kohonen, réseaux de Hopfiel,
modèles ART de Grosberg,... - Arbres de décision par partitionnement récursif
supervisé (régression qualitative) - ID 3, C4.5 (Quinlan) mesures dentropie, CART
(Breiman) mesure du Khi-2, SIPINA (Zighed)
entropie complexe, éclatement-fusion, etc. - Généralisation logique
- AQ11, AQ15 (Michalsky...),...
- Analyses multivariées ACP, A. Discriminante,
AFC, ACM,... - Méthodes probabilistes classifieurs bayésiens,
chaînes de Markov, régression logistique, ... - Nuées dynamiques, K-means, etc..
15Induction automatique d arbre de décision
Un nud une variable Une branche une
valeur Une feuille un ensemble
d individus Un parcours une règle
16Arbre de décision
Un nud une variable Une branche une
valeur Une feuille un ensemble
d individus Un parcours une règle
exemple Fréquence cardiaque
FC
v
v
3
1
v
2
v
1
v
3
v
2
17Arbre de décision
Un nud une variable Une branche une
valeur Une feuille un ensemble
d individus Un parcours une règle
exemple Fréquence cardiaque Augmentée
FC
augmentée
v
v
3
1
v
2
v
1
v
3
v
2
18Arbre de décision
Un nud une variable Une branche une
valeur Une feuille un ensemble
d individus Un parcours une règle
FC
augmentée
v
PAS
1
v
2
Dim.
v
1
v
3
v
2
19Arbre de décision
Un nud une variable Une branche une
valeur Une feuille un ensemble
d individus Un parcours une règle
FC
augmentée
v
PAS
1
v
2
Dim.
Si FC ? et PAS ? alors ltdiagnosticgt
v
1
v
3
v
2
20Construction automatique de larbre
- Utilisation d une base de cas (BC) (base
d apprentissage) - Mise en uvre d un algorithme de partitionnement
récursif - 1) recherche de la variable la plus discriminante
/ diagnostic dans la BC - 2) poser la variable dans l arbre
- 3) réitérer 1) puis 2) sur toutes les partitions
induites par les variables
Diagnostic
FC
21Recherche dune variable discriminante
Principe de lentropie d'information
- Information portée par le diagnostic
- Info (Diag/BC)
- Information portée par une variable
- p1.Info (FC ?/BC)
- p2.Info (FC n /BC)
- p3.Info (FC ? /BC)
- MoyInfo (FC/BC)
- Gain d information
- Gain (FC) Info (DIAG/BC) - MoyInfo (FC/BC)
- Principe on retient la variable qui apporte le
maximum de gain d information
FC
22SIPINAUn logiciel pour l'apprentissage
automatiqued'arbres de décision
- Sipina réalise un partitionnement récursif de
lensemble des données dapprentissage dont
chaque étape consiste à rechercher la variable
qui partitionne le plus correctement possible,
selon un critère de qualité de partition propre à
Sipina, lensemble dapprentissage non encore
partitionné. Fondé sur une mesure dentropie de
linformation apportée par la partition associée
à chaque variable testée, ce critère a été
particulièrement étudié par les auteurs de la
méthode pour garantir une convergence vers la
partition idéale. Elle permet notamment de
prendre en compte les biais dus à leffet de la
taille de léchantillon dapprentissage. Elle a
de plus un caractère universel en ce quelle
englobe plusieurs mesures dentropie
dinformation classiquement utilisées en donnant
à lutilisateur le choix a) de la mesure
dinformation (Shannon, Daroczy, Quadratique), b)
des réglages de paramètres spécifiques à chaque
mesure.
23Exemple de base de cas
- n temps température humidité vent classe
1 ensoleillé élevée haute faux N 2 ensoleillé él
evée haute vrai N 3 couvert élevée haute faux P
4 pluvieux moyenne haute faux P 5 pluvieux basse
normale faux P 6 pluvieux basse normale vrai N 7
couvert basse normale vrai P 8 ensoleillé moyenn
e haute faux N 9 ensoleillé basse normale faux P
10 pluvieux moyenne normale faux P 11 ensoleillé
moyenne normale vrai P 12 couvert moyenne haute
vrai P 13 couvert élevée normale faux P 14 pluvi
eux moyenne haute vrai N
24Solution possible(non optimale)
25Résultat Sipina/ID3
26Sites intéressants
- www.web-datamining.net/forum/faq.as
- Cours de François Denis et Rémi Gilleron (.ps et
on-line) - http//www.grappa.univ-lille3.fr/polys/apprentissa
ge/ - Logiciel SIPINA
- ftp//rikotoma.univ-lyon2.frrépertoire
"FullSipina" - http//eric.univ-lyon2.fr/ricco/sipina.html
- Site pour l'apprentissage de SIPINA
- http//chypre.ima.uco.fr/etudiants/projets/sipina/
27Quelques livres
- E. RICH, Intelligence Artificiell. Masson.
- J.-P. HATON et al. Le raisonnement en
intelligence artificielle. InterEditions. - Kodratoff Y. (1988) Leçons dApprentissage
Symbolique Automatique, CEPADUES édition.
Toulouse, France. - Kodratoff Y. et Diday E. (1991) Induction
symbolique et numérique à partir de données,
CEPADUES Editions. Toulouse, France. - Kodratoff Y., Michalski R.S., Carbonell J.G. et
Mitchell T.M. (1993) Apprentissage symbolique
une approche de lintelligence artificielle, tome
2, CEPADUES-Edition. Toulouse, France. - Kodratoff Y., Michalski R.S., Carbonell J.G. et
Mitchell T.M. (1993) Apprentissage symbolique
une approche de lintelligence artificielle, tome
2, CEPADUES-Edition. Toulouse, France. - Mitchell T., Machine Learning. New York, McGraw
Hill, 1997.
28et articles
- Weiss S.M. et Kulikowski C.A. (1991) Computer
Systems that Learn Classification and
Prediction Methods from Statistics, Neural Nets,
Machine Learning and Expert Systems, Morgan
Kaufmann. San Mateo, California. - Ganascia J.-G. (1992) Lapprentissage par
Généralisation, Le Courrier du CNRS, 79, pp. 71. - Kodratoff Y., L'Extraction de Connaissances à
partir de Données un nouveau sujet pour la
recherche . READ, Revue Electronique sur
l'Apprentissage par les Données 1(1), p.
(http//chirouble.univ-lyon2.fr/gtra/presente.html
), 1997. - Rosch E. (1978) Principles of categorization, in
Rosch E. et Lloyd B. B. (éd.) Cognition and
Categorization, Lawrence Erlbaum. Hillsdale, New
Jersey. - Rialle V. (1996) Cognition and decision in
biomedical artificial intelligence From symbolic
representation to emergence, Artificial
Intelligence and Society, 9, 2, 138-160. - Meunier J.G. (1992) Le Problème de la
catégorisation dans la représentation des
connaissances, Intellectica, 13-14, pp. 353-356.