Classification PowerPoint PPT Presentation

presentation player overlay
1 / 71
About This Presentation
Transcript and Presenter's Notes

Title: Classification


1
Classification
  • Introduction
  • k-NN
  • Arbres de dĂ©cision
  • RĂ©seaux baysiens
  • RĂ©seaux de neurones
  • Conclusion

2
1. Apprentissage supervisé
  • DĂ©couverte de règles ou formules (patterns) pour
    ranger les données dans des classes prédéfinies
  • reprĂ©sentant un groupe d'individus homogènes
  • permettant de classer les nouveaux arrivants
  • Processus en deux Ă©tapes
  • construction d'un modèle sur les donnĂ©es dont la
    classe est connue (training data set)
  • utilisation pour classification des nouveaux
    arrivants

3
Applications
  • Marketing
  • comprendre les critères prĂ©pondĂ©rants dans
    l achat d un produit
  • segmentation automatique des clients pour le
    marketing direct
  • Maintenance
  • aide et guidage d un client suite Ă  dĂ©fauts
    constatés
  • Assurance
  • analyse de risques
  • Isolation de populations Ă  risques
  • mĂ©decine

4
2. k plus proches voisins (k-NN)
  • BasĂ© sur l'apprentissage par analogie
  • Collection de tuples d'apprentissage
  • Xi(x1i,x2i,xni) (xji numĂ©rique) de classe
    connue
  • ReprĂ©sente un point dans l'espace Ă  n dimensions
  • Classes prĂ©dĂ©finies
  • CC1,C2, Cm
  • Distance et SimilaritĂ©
  • Distance Euclidienne, Cosinus, etc.
  • SimilaritĂ© Max - Distance

5
Classement
  • Soumission d'un tuple inconnu
  • Recherche des k plus proches voisins
  • Assignation de la classe la plus reprĂ©sentative
    parmi les k voisins
  • Vote majoritaire (classe la plus frĂ©quente)
  • Plus grande similaritĂ© Ă  la classe

6
Algorithme k-NN
  • Class (X)
  • // Training collection T X1, X2, Xn
  • // Predefined classes C C1,C2, Cm
  • // Compute similarities
  • For i1..N similari Max - distance(X,Xi)
  • SortDescending(similar)
  • kNNSelect k nearest neighbors with highest
    similarity
  • // Calculer les scores des classes
  • scoreCj f(Cj, kNN)
  • Class(X) Class Cj with highest score

7
Forces et faiblesses
  • Les attributs ont le mĂŞme poids
  • centrer et rĂ©duire pour Ă©viter les biais
  • certains peuvent ĂŞtre moins classant que d'autres
  • Apprentissage paresseux
  • rien n'est prĂ©parĂ© avant le classement
  • tous les calculs sont fait lors du classement
  • nĂ©cessitĂ© de technique d'indexation pour large BD
  • Calcul du score d'une classe
  • peut changer les rĂ©sultats variantes possibles

8
3. Arbres de décision
  • DĂ©finition
  • Arbre permettant de classer des enregistrements
    par division hiérarchiques en sous-classes
  • un nĹ“ud reprĂ©sente une classe de plus en plus
    fine depuis la racine
  • un arc reprĂ©sente un prĂ©dicat de partitionnement
    de la classe source
  • Un attribut sert d'Ă©tiquette de classe (attribut
    cible à prédire), les autres permettant de
    partitionner

9
Génération de l'arbre
  • Objectif
  • obtenir des classes homogènes
  • couvrir au mieux les donnĂ©es
  • Comment choisir les attributs (Ai) ?
  • Comment isoler les valeurs discriminantes (vj) ?

A1 ?
v1
v3
v2
A2 ?
A2 ?
...
v'3
v'1
v'1
v'3
v'2
v'2
C9
C8
C2
C3
C7
C1
10
Arbre ensemble de règles
  • (A1v1)(A2v'1) ? C1
  • (A1v1)(A2v'2) ? C2
  • (A1v1)(A2v'3) ? C3
  • (A1v3)(A2v'1) ? C7
  • (A1v3)(A2v'2) ? C8
  • (A1v3)(A2v'3) ? C9

A1?
v1
v3
v2
A2?
A2?
...
v'1
v'3
v'1
v'3
v'2
v'2
C9
C8
C3
C2
C7
C1
11
Exemple codant une table
Attributs ou variables
Joueur?
Zidane
Henri
Barthès
Note?
Note?
Note?
Moyen
Mauvais
Bon
Bon
Gagné
Gagné
Nul
Gagné
Classes cibles
12
Autre Exemple
13
Autre Exemple
  • Faut-il vous envoyer un contrĂ´leur fiscal ?

Salaire?
lt30
gt50
31..50
Etudiant?
ImpĂ´ts?
ContrĂ´le
non
oui
lt20
gt20
ContrĂ´le
PasContrĂ´le
PasContrĂ´le
ContrĂ´le
14
Procédure de construction (1)
  • recherche Ă  chaque niveau de lattribut le plus
    discriminant
  • Partition (nĹ“ud P)
  • si (tous les Ă©lĂ©ments de P sont dans la mĂŞme
    classe) alors retour
  • pour chaque attribut A faire
  • Ă©valuer la qualitĂ© du partitionnement sur A
  • utiliser le meilleur partitionnement pour diviser
    P en P1, P2, Pn
  • pour i 1 Ă  n faire Partition(Pi)

15
Procédure de Construction (2)
  • Processus rĂ©cursif
  • L'arbre commence Ă  un nĹ“ud reprĂ©sentant toutes
    les données
  • Si les objets sont de la mĂŞme classe, alors le
    nœud devient une feuille étiqueté par le nom de
    la classe.
  • Sinon, sĂ©lectionner les attributs qui sĂ©parent le
    mieux les objets en classes homogènes gt Fonction
    de qualité
  • La rĂ©cursion s'arrĂŞte quand
  • Les objets sont assignĂ©s Ă  une classe homogène
  • Il n'y a plus d'attributs pour diviser,
  • Il n'y a pas d'objet avec la valeur d'attribut


Class
Atr?
16
Choix de l'attribut de division
  • DiffĂ©rentes mesures introduites
  • il s'agit d'ordonner le dĂ©sordre
  • des indicateurs basĂ©s sur la thĂ©orie de
    l'information
  • Choix des meilleurs attributs et valeurs
  • les meilleurs tests
  • PossibilitĂ© de retour arrière
  • Ă©laguer les arbres rĂ©sultants (classes inutiles)
  • revoir certains partitionnements (zoom, rĂ©duire)

17
Mesure de qualité
  • La mesure est appelĂ© fonction de qualitĂ©
  • Goodness Function en anglais
  • Varie selon l'algorithme
  • Gain d'information (ID3/C4.5)
  • Suppose des attributs nominaux (discrets)
  • Peut-ĂŞtre Ă©tendu Ă  des attributs continus
  • Gini Index
  • Suppose des attributs continus
  • Suppose plusieurs valeurs de division pour chaque
    attribut
  • Peut-ĂŞtre Ă©tendu pour des attributs nominaux

18
Mesure d'impureté (variable nominale)
  • Mesure des mĂ©langes de classes d'un nĹ“ud N
  • i(N) ?i ?j pi pj avec i?j
  • pi est la proportion d individus de la classe i
    dans N.
  • La rĂ©duction dimpuretĂ© de chaque division du
    nœud N par la variable xj sexprime par
  • ?N i(N) - ?j pj i(Nj)
  • pj est la proportion d'individus du nĹ“ud dans le
    fils j
  • Sur l ensemble des n variables, la division du
    nœud t est effectuée à l aide de la variable qui
    assure la réduction maximale de limpureté (?
    minimum)

19
Mesure d'entropie
  • Minimisation du dĂ©sordre restant
  • pi frĂ©quence relative de la classe i dans le
    nœud N ( d éléments de la classe i dans N)
  • Mesure d entropie d'un segment s
  • E(N) -? pi Log2(pi)
  • Minimiser son Ă©volution globale Quinlan
  • ?N E(N) - ?j Pj E(Nj)

20
Indices de Gini et Twoing
  • Indice de GINI
  • Si un ensemble de donnĂ©es T contient des
    éléments de N classes
  • gini(T) 1- ?i pi2 ou pi est la frĂ©quence
    relative de la classe i dans T
  • Indice de Twoing
  • G ( tg,td) (( ng/n)(nd/n))/4?i1m ( nig /
    ng ) - ( nid / ng ) 2
  • tg Sommet gauche issu de t.
  • td Sommet droit issu de t
  • nd ( resp (ng) ) card td ( resp card tg ).
  • N La taille de l échantillon d apprentissage.
  • M Le nombre de classe.
  • nid (resp (nig) l effectif de la classe ci
    dans td ( resp (tg)).

21
Exemple Partitions de boules (1)
  • Partition selon A1 (densitĂ©)
  • Indice d'impuretĂ©
  • i(N) ?ik ?jk pi pj avec i?j
  • Pi est la proportion dindividus de la classe i
    dans N.
  • Entropie d'un segment s
  • E(N) - ?i pi log2(pi)

A13
A11
A12
Vert
Rouge
Bleu
22
Exemple Partitions de boules (2)
  • Partition selon A2
  • Position et 4 au plus par partition

A23
A21
A22
Vert
Rouge
Bleu
23
Exemple Partitions de boules (3)
  • Partition selon A3
  • Poids

A3gt1
A3 lt 1
Rouge
Vert
24
Exemple Partitions de table (1)
Atr?
Gain(Outlook) 0.246 Gain(Temperature)
0.029 Gain(Humidity) 0.151 Gain(Windy) 0.048
25
Exemple Partitions de table (2)
outlook
overcast
sunny
rain
Atr?
26
Exemple Partitions de table (3)
outlook
overcast
sunny
rain
humidity
high
normal
N
P
27
Exemple Partitions de table (4)
outlook
overcast
sunny
rain
humidity
P
high
normal
N
P
28
Exemple Partitions de table (5)
outlook
overcast
sunny
rain
humidity
windy
P
high
normal
true
false
N
P
N
P
29
Types de tests
  • Binaire ou n-aire
  • plus ou moins large et profond
  • Variable nominale
  • un prĂ©dicat par valeur ou par liste de valeurs ?
  • Choix par niveau ou par classe
  • mĂŞmes tests pour chaque nĹ“ud interne d'un niveau
  • arbres balancĂ©s ou non
  • Élimination de classes
  • vides ou presque, peu reprĂ©sentatives

30
Problème des attributs continus
  • Certains attributs sont continus
  • exemple salaire
  • dĂ©couper en sous-ensembles ordonnĂ©s
    (e.g.,déciles)
  • division en segments a0,a1, a1,a2, .,
    an-1,an
  • utiliser moyenne, mĂ©diane, pour reprĂ©senter
  • minimiser la variance, une mesure de dispersion
  • investiguer diffĂ©rents cas et retenir le meilleur
  • exemple 2, 4, 8, etc. par dĂ©coupe dintervalles
    en 2 successivement

31
Attributs continus Régression
  • Partitionnement par droite de rĂ©gression
  • Chaque nĹ“ud est reprĂ©sentĂ© par une
  • formule de rĂ©gression
  • SĂ©paration des donnĂ©es
  • point de non linĂ©aritĂ©
  • 1 ou plusieurs rĂ©gresseurs
  • Exemple
  • salaire a btranche_age

32
Procédure d'élagage
  • Les arbres trop touffus sont inutiles
  • IntĂ©rĂŞt d'un Ă©lagage rĂ©cursif Ă  partir des
    feuilles
  • S'appuie sur un modèle de coĂ»t d'utilitĂ©
  • PossibilitĂ© de l'appliquer sur l'ensemble des
    données ou sur un sous-ensemble réservé à la
    validation

33
Exemple d'élagage
  • Exemple
  • arbres vus comme encodage de tuples
  • partition utile si gain supĂ©rieur Ă  un seuil
  • coĂ»t d'un partitionnement
  • CP bits pour coder les prĂ©dicats de patition
  • Entropie_Après bits pour coder chaque tuple
  • partitionnement Ă  supprimer si
  • Gain n Entropie_Après CP - n
    Entropie_Avant lt seuil
  • Ce test peut ĂŞtre appliquer lors de la crĂ©ation

34
Types d'arbres
35
Méthodes ID3 et C4.5
  • ID3
  • Le pouvoir discriminatoire (ou gain
    informationnel) d une variable lt une variation
    d  entropie de Shannon  lors de la partition
    de S
  • C4.5 (ID3)
  • Support des variables continues
  • Introduit un facteur Gain ratio  visant Ă 
    pénaliser la prolifération des nœuds
  • Critères d'arrĂŞt
  • Seuils de gain informationnel, d'effectif dans un
    nœud
  • Test statistique d'indĂ©pendance des variables
    (Ki2 )

36
Méthode CART
  • Principes
  • si problème Ă  2 classes, cherche la bi-partition
    minimisant lindice dimpureté de Gini
  • si problème Ă  N classes, cherche celle maximisant
    le gain dinformation donné par lindice de
    Towing
  • Critères d arrĂŞt
  • Seuil de gain informationnel
  • Seuil d effectif dans un nĹ“ud
  • ProcĂ©dure d'Ă©lagage

37
Méthodes passant à l'échelle
  • La plupart des algorithmes de base supposent que
    les données tiennent en mémoire
  • La recherche en bases de donnĂ©es a proposer des
    méthodes permettant de traiter de grandes BD
  • Principales mĂ©thodes
  • SLIQ (EDBT96 -- Mehta et al.96)
  • SPRINT (VLDB96 -- J. Shafer et al.96)
  • RainForest (VLDB98 -- J. Hekankho et al.98)
  • PUBLIC (VLDB98 -- R. Rastogi et al.98)

38
Méthode SLIQ
  • SLIQ (EDBT96 -- Mehta et al.96)
  • Supervised Learning In Quest
  • Classificateurs CART et C4.5
  • DĂ©veloppe l'arbre en profondeur d'abord
  • Tri les donnĂ©es de manière rĂ©pĂ©tĂ©e Ă  chaque nĹ“ud
  • SLIQ
  • Remplace le tri rĂ©pĂ©tĂ© par 1 seul tri par
    attribut
  • Utilise une nouvelle structure de donnĂ©es
    (class-list)
  • S'applique sur des attributs numĂ©riques ou
    nominaux
  • Indicateur maximiser ginisplit(T) ?i ni/n
    gini(Ti)

39
Méthode SPRINT
  • SPRINT (VLDB96 -- J. Shafer et al.96)
  • Scalable PaRallelizable INndution of decision
    Tree
  • SLIQ nĂ©cessite de garder la class-list en mĂ©moire
  • SPRINT
  • Ne nĂ©cessite pas de structure rĂ©sidente en
    mémoire
  • Version parallèle passant Ă  l'Ă©chelle

40
Data Structure (Attribute lists)
  • Sprint crĂ©e une attribute-list pour chaque
    attribut
  • Une entrĂ©e contient
  • Valeur d'attribute
  • Etiquette de classe
  • Identifiant d'article (rid)

41
Evolution des listes
  • Les listes initiales sont associĂ©es Ă  la racine
    de l'arbre
  • Au fur et Ă  mesure du dĂ©veloppement de l'arbre,
    les listes d'attributs de chaque nœud sont
    partitionnées et associées aux enfants

42
Data Structure (Histograms)
  • Attributs continus
  • deux histogrammes sont associĂ©s Ă  chaque nĹ“ud
  • Cbelow maintient la distribution pour les
    articles déjà traités
  • Cabove maintient la distribution pour les
    articles non traités

43
Data Structure (Histograms)
  • Pour les attributs nominaux, un seul histogramme
  • matrice de comptage Valeur d'attribut, Classe

44
Choix des divisions
  • Pendant la construction de l'arbre, l'objectif Ă 
    chaque nœud est de déterminer le découpage qui
    divise au mieux l'ensemble de données de la
    feuille considérée
  • L'indice Gini est utilisĂ©
  • Gini(S)1-?pj2
  • oĂą pj est la frĂ©quence de la classe j dans S
  • Ginisplit(S) n1/n(S1)n2/n(S2)

45
Exemple Continu (1)
Age Class Tid
17 High 1
20 High 5
23 High 0
32 Low 4
43 High 2
68 Low 3
H L
Cabove 3 0
Cbelow 1 2
Cursor Position 3
46
Exemple Continu (2)
  • Après calcul de tous les indices Gini, le plus
    petit est retenu
  • Donc, on divise Ă  la position 3 oĂą l'age est le
    point médian entre 23 et 32 (i.e. Age lt 27.5)

47
Exemple Nominal
H L
Family 2 1
Sports 2 0
Truck 0 1
48
Exécution du partitionnement
  • Une fois le meilleur point de division trouvĂ©, on
    exécute la découpe en éclatant le nœud par
    création des nœuds enfants qui se partage les
    enregistrements selon le prédicat
  • Pour les autres listes d'attributs, (i.e.
    CarType), il faut retrouver les informations par
    jointure sur rid.

49
Comparaison avec SLIQ
  • SLIQ ne divise pas les listes d'attributs lors du
    split
  • Repère le nĹ“ud par un pointeur dans la class-list
  • Avantages
  • Pas de recopie des listes d'attributs lors du
    split
  • RĂ©-allocation d'articles par dĂ©placement de
    pointeur
  • DĂ©savantage
  • La liste des rĂ©fĂ©rences (class-list) de taille le
    nombre d'articles doit tenir en mémoire
  • SPRINT peut ĂŞtre facilement parallĂ©lisĂ©
  • pas de structures partagĂ©es en mĂ©moire

50
Bilan
  • De nombreux algorithmes de construction d'arbre
    de décision
  • SPRINT passe Ă  l'Ă©chelle et traite des attributs
    nominaux ou continus
  • Autres algorithmes proposĂ©s
  • Encore plus rapides ?

51
4. Réseaux Bayésiens
  • Classificateurs statistiques
  • BasĂ©s sur les probabilitĂ©s conditionnelles
  • PrĂ©vision du futur Ă  partir du passĂ©
  • Suppose l'indĂ©pendance des attributs

52
Fondements
  • DĂ©rivĂ© du thĂ©orème de Bayes
  • permet de calculer une probabilitĂ© Ă  postĂ©riori
    P(Ci/X) dun événement Ci sachant que X sest
    produit à partir d'une probabilité à priori P(Ci)
    de production de lévénement Ci
  • P(Ci/X) P(X/Ci)P(Ci) / ?P(X/Cj)P (Cj)
  • Plus simplement si E est l'Ă©vĂ©nement
  • P(E/X) P(X/E)P(E)/P(X)

53
Bayésien Naïf
  • Chaque enregistrement est un tuple
  • X (x1, x2, xn) sur R(A1, A2, An)
  • Il s'agit de classer X parmi m classes C1, Cm
  • L'Ă©vĂ©nement Ci est l'appartenance Ă  la classe Ci
  • Assignation de la classe la plus probable
  • Celle maximisant P(Ci/X) P(X/Ci)P(Ci)/P(X)
  • P(X) est supposĂ© constant (Ă©qui-probabilitĂ© des
    tuples)
  • On cherche la classe maximisant
  • P(X/Ci)P(Ci) pour i 1 Ă  m

On calcule la probabilité de chaque classe étant
donné le tuple X On retient la classe la plus
probable
54
Calcul de P(X/Ci)
  • P(Ci) est dĂ©duite de l'Ă©chantillon
  • Comptage "training set" Taille(Ci)/ Taille(Ech)
  • P(X/Ci) est approchĂ©e comme suit
  • IndĂ©pendance des attributs ?
  • P(X/Ci) ?k P(xk/Ci)
  • P(xk/Ci) est estimĂ© comme suit
  • variable nominale Taille(txk de Ci)/Taille(Ci)
  • distribution gaussienne si variable continue

P(xk/Ci) est la probabilité d'avoir une valeur
donnée xk pour un attribut d'un tuple dans la
classe Ci Calculée sur le training set
55
Exemple de problème
  • Faut-il effectuer un contrĂ´le fiscal ?
  • Échantillon de contrĂ´lĂ©s
  • Faut-il contrĂ´ler un nouvel arrivant ?

56
Les classes nominales
Sallt30
Salgt50
Sal 31..50
1
2
2
impĂ´tsgt20
impĂ´tslt20
1
4
Non Etudiant
Etudiant
3
2
Positif
Négatif
2
3
57
Calcul de Probabilités
  • Il s'agit de choisir Ci maximisant P(Ci/X)
  • P(Positif/X) P(X/Positif)P(Positif)/P(X)
  • P(NĂ©gatif/X) P(X/NĂ©gatif)P(NĂ©gatif)/P(X)
  • P(X) est supposĂ© constant
  • Donc, choisir le plus grand de P(X/Positif)P(Posi
    tif), P(X/Négatif)P(Négatif)
  • P(X/Positif) ?k P(Xk/Positif)
    P(sal30..50/Positif) P(impotslt20/Positif)P(Etu
    diant/Positif) 2/311/32/9 P(Positif) 3/5
    ? Produit 0.13
  • P(X/NĂ©gatif) ?k P(Xk/NĂ©gatif)
    P(sal30..50/Négatif) P(impotslt20/Négatif)P(Etu
    diant/Négatif) 1/21/21/21/8 P(Négatif)
    2/5 ? Produit 0.05
  • On effectuera donc un contrĂ´le !

58
Réseau Bayésien
  • NĹ“uds Variables alĂ©atoires
  • Structure
  • Graphe direct acyclique de dĂ©pendance
  • X? Y signifie que X est un parent de Y
  • X??Y signifie que X est un descendant de Y
  • Les variables non liĂ©es sont indĂ©pendantes
  • Classes Ă  dĂ©terminer
  • NĹ“uds singuliers du rĂ©seau
  • ProbabilitĂ©s connues
  • Ă  priori et conditionnelles (arcs)

59
Calculs
  • L'instanciation des variables non classes permet
    de calculer la probabilité des classes
  • Application des calculs classiques de probabilitĂ©
    et du théorème de bayes
  • Apprentissage Ă  partir d'une base d'Ă©chantillons
  • Peut ĂŞtre complexe si structure inconnue

60
Exemple complet
Sallt30
Salgt50
Sal 31..50
1
2
2
impĂ´tsgt20
impĂ´tslt20
1
4
Non Etudiant
Etudiant
3
2
Positif
Négatif
3
2
61
Structure de connaissance
Sallt30
Salgt50
Sal 31..50
2
1
2
impĂ´tsgt20
impĂ´tslt20
1
4
Non Etudiant
Etudiant
3
2
Positif
Négatif
3
2
62
Autre exemple
  • Classification de pannes d'ordinateurs
  • Couleur de voyant (Rouge, Vert)
  • Équipement dĂ©faillant (UC,MC,PE)
  • Envoie d'un dĂ©panneur selon la classe
  • Calcul de probabilitĂ©s sur le training set

63
Exemple de réseau
Rouge
0.68
0.32
Voyant
Rouge
Vert
0.09
0.44
0.44
0.09
0.82
0.12
UC
PE
MC
Panne
0.50
0.30
0.60
0.40
0.50
0.70
Dépanneur
Pierre
?
Paul
64
Intérêt
  • Permet d'infĂ©rer les probabilitĂ©s dans le rĂ©seau
  • mĂ©thode d infĂ©rence du futur Ă  partir du passĂ©
  • les Ă©vĂ©nements Xi doivent ĂŞtre indĂ©pendants
  • mĂ©thode assez peu appliquĂ©e en Data Mining
  • Problèmes
  • Comment choisir la structure du rĂ©seau ?
  • Comment limiter le temps de calcul ?

65
Bilan
  • Apprentissage
  • si structure connue calculs de proba.
  • si inconnue difficile Ă  infĂ©rer
  • Baysien naĂŻf
  • suppose l'indĂ©pendance des variables
  • RĂ©seaux baysiens
  • permettent certaines dĂ©pendances
  • nĂ©cessitent des tables d'apprentissage rĂ©duites

66
5. Réseaux de neurones
  • Tentative de reproduction des structures du
    cerveau afin de raisonner
  • Ensemble d'unitĂ©s transformant des entrĂ©es en
    sorties (neurones) connectées, où chaque
    connexion à un poids associé
  • La phase d'apprentissage permet d'ajuster les
    poids pour produire la bonne sortie (la classe en
    classification)

67
Analogie avec le cerveau
  • Le cerveau humain contient environ 100 milliards
    de neurones, et chacun est connecté à environ
    10.000 autres
  • Un neurone reçoit des impulsions Ă©lectriques de
    ses voisins via les dendrites. Si la somme des
    signaux dépasse un certain seuil, il se produit
    une décharge électrique de type tout ou rien
    appelée potentiel daction. Le potentiel daction
    se propage le long de laxone, qui se ramifie en
    une multitude de dendrites.
  • La terminaison dune dendrite est une petite
    usine de production chimique. Elle diffuse des
    neurotransmetteurs chimiques dans un espace
    appelé synapse, qui rejoint un autre neurone.

68
Modélisation du neurone
69
Plus précisément
  • Induit une valeur en sortie Ă  partir d'un
    ensemble de valeurs en entrée
  • Les liens sont pondĂ©rĂ©s par des poids
  • RĂ©alise une combinaison linĂ©aire des entrĂ©es
    suivie dune fonction de transfert (fonction Ă 
    seuil)
  • Fonction Sigma (??wi Ei)
  • Biais optionnel b
  • Fonction SigmoĂŻde f(?) 1/(1e-
    ?)

Entrée En
wn
wi
f
??wi Ei b
Entrée Ei
Sortie
w1
Entrée E1
70
Combinaison/Activation
Entrée 1
0,5
Combinaison
Activation
0,75
0,1
Entrée 2
0,9
Entrée 3
Phase de combinaison combine les entrées et
produit une valeur en sortie Phase dactivation
prend en entrée la sortie de la fonction de
combinaison et déduit la valeur de sortie
71
Combinaison
Entrée 1
0,5
Combinaison
0,75
0,1
Entrée 2
0,9
Entrée 3
  • Fonctions de combinaison
  • Produit scalaire
  • Norme euclidienne
  • minimum, maximum, majoritĂ©

E1 E2 E3
0,5 0,1 0,9
.
E1 E2 E3
72
Activation
  • Trois intervalles
  • en dessous du seuil neurone non actif
  • aux alentours du seuil phase de transition
  • au dessus du seuil neurone actif

Fonction sigmoĂŻde
73
Organisation en réseau
  • RĂ©seau multi-couches totalement connectĂ©
  • EntrĂ©es, Calculs (cachĂ©s), Sorties

74
Topologie
  • Choix du nombre de couches
  • entrĂ©es, 1 ou 2 couches cachĂ©es, sorties
  • Choix du nombre de neurones par couche
  • dĂ©pend des entrĂ©es et sorties
  • couches cachĂ©es intermĂ©diaires
  • Normalisation des variables d'entrĂ©es
  • Variable continue centrĂ©e rĂ©duite -1,1
  • Variable discrète codĂ©e ou valeurs attribuĂ©es aux
    entrées
  • Sorties boolĂ©enne codant les classes

75
Perceptron multicouche
Entrées
Couches cachées
Sorties
76
Apprentissage
  • DĂ©couverte de modèles complexes avec affinage
    progressif
  • Le rĂ©seau s'adapte lors de la phase
    d apprentissage
  • Plusieurs algorithmes possibles
  • le plus utilisĂ© rĂ©tropropagation
  • modification des poids wi par rĂ©tropropagation

77
Principe
  • Off-Line ou Batch après tous les exemples
  • On-Line ou Stochastique après chaque exemple

JusquĂ  condition darrĂŞt
Initialisation de la matrice des poids au hasard
Pour chaque exemple calculer la sortie avec
les poids actuels du réseau
Calcul des erreurs de sortie et application
de lalgorithme de mis Ă  Jour des poids
78
Rétropropagation
  • Initialiser les poids et les biais
  • tirage alĂ©atoire sur -1,1
  • Propager les entrĂ©es en avant
  • Un exemple est appliquĂ© aux entrĂ©es
  • Le rĂ©seau calcul les sorties
  • Propager les erreurs en arrière
  • Sortie devant dĂ©livrer T Err O(1-O)(T-O)
  • Cellule cachĂ©e Err O(1-O) ?k wkErrk
  • Corriger poids et biais de sorte Ă  rĂ©duire les
    erreurs
  • Dwij lErrjOi Dbj lErrj

79
Forces et Faiblesses
  • Permet d'approcher toute sorte de fonction
  • CoĂ»teux en apprentissage
  • calculs complexes
  • possibilitĂ© d'Ă©laguer le rĂ©seau en connexions
  • peu applicable sur de larges BD
  • Effet boite noire
  • comportement difficile Ă  expliquer
  • Autres applications possibles
  • prĂ©diction, dĂ©codage, reconnaissance de formes,
    etc.

80
6. Bilan Classification
  • De nombreuses techniques dĂ©rivĂ©es de l'IA et des
    statistiques
  • Autres techniques
  • règles associatives, raisonnement par cas,
    ensembles flous,
  • Problème de passage Ă  lĂ©chelle
  • arbre de dĂ©cisions, rĂ©seaux
  • Tester plusieurs techniques pour rĂ©soudre un
    problème
  • Y-a-t-il une technique dominante ?
Write a Comment
User Comments (0)
About PowerShow.com