Data Mining - PowerPoint PPT Presentation

1 / 20

About This Presentation

Title:

Data Mining

Description:

La typologie de l'information que l'on veut extraire d pend du type ... Nous allons consid rer. Recherche des liens entre l ments de la base de donn es (R gles ... – PowerPoint PPT presentation

Number of Views:127

Avg rating:3.0/5.0

Slides: 21

Provided by: lab54

Category:

more less

Transcript and Presenter's Notes

Title: Data Mining

1
Data Mining
2
Ce quest le Data Mining

Extraction dinformations intéressantes
non triviales,
implicites,
préalablement inconnues et
potentiellement utiles
à partir de données.
Autres appellations
ECD (Extraction de Connaissances à partir de
Données)
KDD (Knowledge Discovery from Databases)
Analyse de données/patterns, business
intelligence, fouille de données, etc.

3
Quels types dinformation Rechercher ?

La typologie de linformation que lon veut
extraire dépend du type daction que le décideur
veut entreprendre
Nous allons considérer
Recherche des liens entre éléments de la base de
données (Règles dassociation)
Analyse des comportement des éléments de la base
de données (prédiction)
Recherche de similitudes entre éléments de la
base (Regroupement)

4
Associations (1)

Les enseignes de grands magasins proposent
régulièrement des promotions sur divers produits
Une promotion représente un manque à gagner pour
le magasin
Dilemme Comment proposer des promotions
intéressantes pour les clients tout en réduisant
le manque à gagner ?
Regarder les habitudes dachats des clients si
en général, les clients qui achètent du lait
achètent aussi du sucre, alors il nest pas
intéressant de faire des promotions sur les 2
produits en même temps
Idée trouver les associations entre produits
pour extraire les produits à promouvoir

5
Associations (2)

Règles dassociation
motifs de la forme Corps ? Tête
Exemple Lait ? sucre
Etant donnés (1) une base de transactions, (2)
chaque transaction est décrite par un identifiant
et une liste ditems
Trouver toutes les règles qui expriment une
association entre la présence dun item avec la
présence dun ensemble ditems
Ex., 98 des personnes qui achètent du lait
achètent du sucre

6
Associations Support et Confiance (3)

Trouver les règles X Y ? Z avec un support gt s
et une confiance gtc
support s, probabilité quune transaction
contienne X, Y, Z
confiance c, probabilité conditionnelle quune
transaction qui contient X, Y contienne aussi Z

Clients achetant les deux
Clients achetant du lait
Clients achetant du sucre
Confiancesupport(X,Y,Z)/support(X,Y)
Soit support minimum 50, et confiance minimum
50, A ? C (50, 66.6) C ? A (50, 100)
7
Problème algorithmique

Si on a 1010 produits, on a 21010 itemsets à
vérifier !
Idée Exploiter la propriété de non monotonicité
Si A,B,C nest pas fréquent, alors A,B,C,D ne
peut pas lêtre

8
Prévision (1)

Les établissements financiers accordent des
crédits à leurs clients
Lattribution dun crédit dépend de certains
critères que le client doit satisfaire
Dilemme
Si on ne prête quaux très riches, on naura pas
de problèmes de remboursement mais on perd les
autres clients (pas de risque).
Si on prête aux moins riches, on ne va pas perdre
les clients mais on est exposé aux non
remboursements (trop de risque)
Idée se baser sur lhistorique des clients pour
dresser des profils de bons clients, clients
moyens, et mauvais payeurs

9
Prévision (2)

Lorganisme dispose dun fichier décrivant ses
différents clients à qui il a attribué un crédit
Chaque client est décrit par un certain nombre
dattributs Salaire, situation marital, emploi,
locataire/propriétaire, personnes à charge,
montant crédit,
A chaque client, on ajoute un attribut
particulier qui est le nom de la classe et qui
est égal à bon, mauvais ou moyen
Le but consiste à extraire à partir de ce fichier
un ensemble de règles quon va utiliser
lorsquun nouveau client demande un crédit pour
savoir si lon peut le lui attribuer ou pas

10
Prévision (3)

Exemples de règles de production
Si crédit gt 1/3 salaire ? mauvais
Si crédit lt1/3 salaire charges gt4 ? mauvais
Si crédit lt1/3 salaire charges lt4
propriétaire oui ? bon
Si crédit lt1/3 salaire charges lt4
propriétairenon cadreoui ? bon
Si crédit lt1/3 salaire charges lt4
propriétairenon cadre non ? moyen
Ces règles peuvent être représentées par un arbre
de décision

11
Prévision (4)
Endettement
gt1/3
lt1/3
Mauvais
charges
En pratique, les systèmes construisent dabord
les arbres doù ils dérivent les règles
gt4
lt4
Mauvais
Propriétaire
oui
non
Bon
Cadre
oui
non
Bon
moyen
12
Association versus prévision

Dans les deux cas, on cherche à extraire des
règles
Les règles dassociation expriment une notion de
lien entre objets de même type (ex les produits
vendus par un magasin). Attention Une règle
dassociation nexprime pas une corrélation
Les règles de production expliquent le lien entre
une classe particulière et la valeur des
caractéristiques de plusieurs objets
Les deux types de règles ne véhiculent pas le
même type dinformation

13
Regroupement (1)

Considérons une entreprise de vente par
correspondance qui veut envoyer des prospectus
publicitaires à ses clients
Lentreprise a un fichier de 100.000 clients. Le
coût de la campagne est estimé à 0,5 ce qui
fait un coût global de 50.000
Doù lintérêt de cibler les envois un client
qui a lhabitude dacheter du matériel de pêche
na que faire dune pub qui porte sur les
vêtements pour le golf (en général )
Dilemme ne pas envoyer de prospectus versus en
envoyer mais en ciblant les clients
Idée construire des groupes de clients. Chaque
groupe sera soit destinataire dun prospectus
ciblé soit on ne lui envoie pas du tout.

14
Regroupement (2)

Les groupes (ou clusters) sont construits de
sorte à
Maximiser la similarité entre éléments dun même
groupe
Maximiser la dissimilarité entre groupes
Les questions auxquelles le décideur est
confronté
Si chaque individu forme à lui seul un groupe,
alors la similarité intra-groupe est maximale
mais la dissimilarité inter-groupes peut ne pas
lêtre
Si on ne forme quun seul groupe, la
dissimilarité intergroupes est maximale, mais la
similarité intra-groupe peut ne pas lêtre
? des techniques qui permettent à lutilisateur
de fixer le nombre k de groupes quil veut
construire

15
Regroupement
16
Regroupement (3)

Linformation extraite se présente sous forme
dun ensemble de groupes GG1, G2, , Gk
Toutes les techniques utilisent une mesure de
similarité ou distance entre
Individus (similarité intra)
Groupes dindividus (similarité inter)
Les mesures dépendent du type des attributs
décrivant les individus
Attributs numériques ? distance au sens
mathématique
Ex o1(1,2), o2(0,3), dist(o1,o2)
1-02-32
Attributs binaires (oui ou non) ? coefficient de
similarité
Ex o1(oui, non, oui), o2(oui, oui, non)
dist(o1,o2)1/3
Attributs catégoriels. Ex taille grand, petit,
moyen

17
Prévision Versus Regroupement

Dans la littérature, souvent lun est dénommé
Apprentissage supervisé et lautre Apprentissage
non-supervisé
Le regroupement pourrait être utilisé pour
affecter une classe à un nouvel individu la
classe du groupe dindividus auxquels il
ressemble le plus
La prévision pourrait être considérée comme du
regroupement Chaque valeur de lattribut
particulier Classe correspond à un groupe

18
Autres types dinformation

Séquences similaires trouver les actions
boursières qui évoluent dune manière similaire,
trouver les internautes dont le comportement lors
de la visite dun site marchand est similaire,
Les exceptions trouver les clients dune
entreprise de téléphonie dont les factures ne
ressemblent pas aux autres travail à domicile,
fraude

19
Conclusion

Utiliser un système de datamining est intéressant
quand on sait
Quelles actions nous voulons entreprendre
Quelles types dinformation nous devons
rechercher
Pour chaque type dinformation, il existe
plusieurs techniques qui ne sont dans la plupart
des cas, pas équivalentes mais complémentaires
Pour bien exploiter les informations extraites,
il est important de comprendre les techniques
sous jacentes

20
Merci

Write a Comment

User Comments (0)