Title: Data Mining
1Data Mining
2Ce quest le Data Mining
- Extraction dinformations intéressantes
- non triviales,
- implicites,
- préalablement inconnues et
- potentiellement utiles
- à partir de données.
- Autres appellations
- ECD (Extraction de Connaissances Ă partir de
Données) - KDD (Knowledge Discovery from Databases)
- Analyse de données/patterns, business
intelligence, fouille de données, etc.
3Quels types dinformation Rechercher ?
- La typologie de linformation que lon veut
extraire dépend du type daction que le décideur
veut entreprendre - Nous allons considérer
- Recherche des liens entre éléments de la base de
données (Règles dassociation) - Analyse des comportement des éléments de la base
de données (prédiction) - Recherche de similitudes entre éléments de la
base (Regroupement)
4Associations (1)
- Les enseignes de grands magasins proposent
régulièrement des promotions sur divers produits - Une promotion représente un manque à gagner pour
le magasin - Dilemme Comment proposer des promotions
intéressantes pour les clients tout en réduisant
le manque Ă gagner ? - Regarder les habitudes dachats des clients si
en général, les clients qui achètent du lait
achètent aussi du sucre, alors il nest pas
intéressant de faire des promotions sur les 2
produits en même temps - Idée trouver les associations entre produits
pour extraire les produits Ă promouvoir
5Associations (2)
- Règles dassociation
- motifs de la forme Corps ? TĂŞte
- Exemple Lait ? sucre
-
- Etant donnés (1) une base de transactions, (2)
chaque transaction est décrite par un identifiant
et une liste ditems - Trouver toutes les règles qui expriment une
association entre la présence dun item avec la
présence dun ensemble ditems - Ex., 98 des personnes qui achètent du lait
achètent du sucre
6Associations Support et Confiance (3)
- Trouver les règles X Y ? Z avec un support gt s
et une confiance gtc - support s, probabilité quune transaction
contienne X, Y, Z - confiance c, probabilité conditionnelle quune
transaction qui contient X, Y contienne aussi Z
Clients achetant les deux
Clients achetant du lait
Clients achetant du sucre
Confiancesupport(X,Y,Z)/support(X,Y)
Soit support minimum 50, et confiance minimum
50, A ? C (50, 66.6) C ? A (50, 100)
7Problème algorithmique
- Si on a 1010 produits, on a 21010 itemsets Ă
vérifier ! - Idée Exploiter la propriété de non monotonicité
- Si A,B,C nest pas fréquent, alors A,B,C,D ne
peut pas lĂŞtre
8Prévision (1)
- Les Ă©tablissements financiers accordent des
crédits à leurs clients - Lattribution dun crédit dépend de certains
critères que le client doit satisfaire - Dilemme
- Si on ne prête quaux très riches, on naura pas
de problèmes de remboursement mais on perd les
autres clients (pas de risque). - Si on prĂŞte aux moins riches, on ne va pas perdre
les clients mais on est exposé aux non
remboursements (trop de risque) - Idée se baser sur lhistorique des clients pour
dresser des profils de bons clients, clients
moyens, et mauvais payeurs
9Prévision (2)
- Lorganisme dispose dun fichier décrivant ses
différents clients à qui il a attribué un crédit - Chaque client est décrit par un certain nombre
dattributs Salaire, situation marital, emploi,
locataire/propriétaire, personnes à charge,
montant crédit, - A chaque client, on ajoute un attribut
particulier qui est le nom de la classe et qui
est Ă©gal Ă bon, mauvais ou moyen - Le but consiste Ă extraire Ă partir de ce fichier
un ensemble de règles quon va utiliser
lorsquun nouveau client demande un crédit pour
savoir si lon peut le lui attribuer ou pas
10Prévision (3)
- Exemples de règles de production
- Si crédit gt 1/3 salaire ? mauvais
- Si crédit lt1/3 salaire charges gt4 ? mauvais
- Si crédit lt1/3 salaire charges lt4
- propriétaire oui ? bon
- Si crédit lt1/3 salaire charges lt4
- propriétairenon cadreoui ? bon
- Si crédit lt1/3 salaire charges lt4
- propriétairenon cadre non ? moyen
-
- Ces règles peuvent être représentées par un arbre
de décision
11Prévision (4)
Endettement
gt1/3
lt1/3
Mauvais
charges
En pratique, les systèmes construisent dabord
les arbres doù ils dérivent les règles
gt4
lt4
Mauvais
Propriétaire
oui
non
Bon
Cadre
oui
non
Bon
moyen
12Association versus prévision
- Dans les deux cas, on cherche Ă extraire des
règles - Les règles dassociation expriment une notion de
lien entre objets de mĂŞme type (ex les produits
vendus par un magasin). Attention Une règle
dassociation nexprime pas une corrélation - Les règles de production expliquent le lien entre
une classe particulière et la valeur des
caractéristiques de plusieurs objets - Les deux types de règles ne véhiculent pas le
mĂŞme type dinformation
13Regroupement (1)
- Considérons une entreprise de vente par
correspondance qui veut envoyer des prospectus
publicitaires Ă ses clients - Lentreprise a un fichier de 100.000 clients. Le
coût de la campagne est estimé à 0,5 ce qui
fait un coût global de 50.000 - Doù lintérêt de cibler les envois un client
qui a lhabitude dacheter du matériel de pêche
na que faire dune pub qui porte sur les
vêtements pour le golf (en général ) - Dilemme ne pas envoyer de prospectus versus en
envoyer mais en ciblant les clients - Idée construire des groupes de clients. Chaque
groupe sera soit destinataire dun prospectus
ciblé soit on ne lui envoie pas du tout.
14Regroupement (2)
- Les groupes (ou clusters) sont construits de
sorte à - Maximiser la similarité entre éléments dun même
groupe - Maximiser la dissimilarité entre groupes
- Les questions auxquelles le décideur est
confronté - Si chaque individu forme à lui seul un groupe,
alors la similarité intra-groupe est maximale
mais la dissimilarité inter-groupes peut ne pas
lĂŞtre - Si on ne forme quun seul groupe, la
dissimilarité intergroupes est maximale, mais la
similarité intra-groupe peut ne pas lêtre - ? des techniques qui permettent à lutilisateur
de fixer le nombre k de groupes quil veut
construire
15Regroupement
16Regroupement (3)
- Linformation extraite se présente sous forme
dun ensemble de groupes GG1, G2, , Gk - Toutes les techniques utilisent une mesure de
similarité ou distance entre - Individus (similarité intra)
- Groupes dindividus (similarité inter)
- Les mesures dépendent du type des attributs
décrivant les individus - Attributs numériques ? distance au sens
mathématique - Ex o1(1,2), o2(0,3), dist(o1,o2)
1-02-32 - Attributs binaires (oui ou non) ? coefficient de
similarité - Ex o1(oui, non, oui), o2(oui, oui, non)
- dist(o1,o2)1/3
- Attributs catégoriels. Ex taille grand, petit,
moyen
17Prévision Versus Regroupement
- Dans la littérature, souvent lun est dénommé
Apprentissage supervisé et lautre Apprentissage
non-supervisé - Le regroupement pourrait être utilisé pour
affecter une classe Ă un nouvel individu la
classe du groupe dindividus auxquels il
ressemble le plus - La prévision pourrait être considérée comme du
regroupement Chaque valeur de lattribut
particulier  Classe correspond à un groupe
18Autres types dinformation
- SĂ©quences similaires trouver les actions
boursières qui évoluent dune manière similaire,
trouver les internautes dont le comportement lors
de la visite dun site marchand est similaire, - Les exceptions trouver les clients dune
entreprise de téléphonie dont les factures ne
ressemblent pas aux autres travail Ă domicile,
fraude -
19Conclusion
- Utiliser un système de datamining est intéressant
quand on sait - Quelles actions nous voulons entreprendre
- Quelles types dinformation nous devons
rechercher - Pour chaque type dinformation, il existe
plusieurs techniques qui ne sont dans la plupart
des cas, pas équivalentes mais complémentaires - Pour bien exploiter les informations extraites,
il est important de comprendre les techniques
sous jacentes
20Merci