Data Mining

1 / 20
About This Presentation
Title:

Data Mining

Description:

La typologie de l'information que l'on veut extraire d pend du type ... Nous allons consid rer. Recherche des liens entre l ments de la base de donn es (R gles ... –

Number of Views:132
Avg rating:3.0/5.0
Slides: 21
Provided by: lab54
Category:
Tags: allons | data | mining

less

Transcript and Presenter's Notes

Title: Data Mining


1
Data Mining
2
Ce quest le Data Mining
  • Extraction dinformations intéressantes
  • non triviales,
  • implicites,
  • préalablement inconnues et
  • potentiellement utiles
  • à partir de données.
  • Autres appellations
  • ECD (Extraction de Connaissances à partir de
    Données)
  • KDD (Knowledge Discovery from Databases)
  • Analyse de données/patterns, business
    intelligence, fouille de données, etc.

3
Quels types dinformation Rechercher ?
  • La typologie de linformation que lon veut
    extraire dépend du type daction que le décideur
    veut entreprendre
  • Nous allons considérer
  • Recherche des liens entre éléments de la base de
    données (Règles dassociation)
  • Analyse des comportement des éléments de la base
    de données (prédiction)
  • Recherche de similitudes entre éléments de la
    base (Regroupement)

4
Associations (1)
  • Les enseignes de grands magasins proposent
    régulièrement des promotions sur divers produits
  • Une promotion représente un manque à gagner pour
    le magasin
  • Dilemme Comment proposer des promotions
    intéressantes pour les clients tout en réduisant
    le manque à gagner ?
  • Regarder les habitudes dachats des clients si
    en général, les clients qui achètent du lait
    achètent aussi du sucre, alors il nest pas
    intéressant de faire des promotions sur les 2
    produits en même temps
  • Idée trouver les associations entre produits
    pour extraire les produits à promouvoir

5
Associations (2)
  • Règles dassociation
  • motifs de la forme Corps ? Tête
  • Exemple Lait ? sucre
  • Etant donnés (1) une base de transactions, (2)
    chaque transaction est décrite par un identifiant
    et une liste ditems
  • Trouver toutes les règles qui expriment une
    association entre la présence dun item avec la
    présence dun ensemble ditems
  • Ex., 98 des personnes qui achètent du lait
    achètent du sucre

6
Associations Support et Confiance (3)
  • Trouver les règles X Y ? Z avec un support gt s
    et une confiance gtc
  • support s, probabilité quune transaction
    contienne X, Y, Z
  • confiance c, probabilité conditionnelle quune
    transaction qui contient X, Y contienne aussi Z

Clients achetant les deux
Clients achetant du lait
Clients achetant du sucre
Confiancesupport(X,Y,Z)/support(X,Y)
Soit support minimum 50, et confiance minimum
50, A ? C (50, 66.6) C ? A (50, 100)
7
Problème algorithmique
  • Si on a 1010 produits, on a 21010 itemsets à
    vérifier !
  • Idée Exploiter la propriété de non monotonicité
  • Si A,B,C nest pas fréquent, alors A,B,C,D ne
    peut pas lêtre

8
Prévision (1)
  • Les établissements financiers accordent des
    crédits à leurs clients
  • Lattribution dun crédit dépend de certains
    critères que le client doit satisfaire
  • Dilemme
  • Si on ne prête quaux très riches, on naura pas
    de problèmes de remboursement mais on perd les
    autres clients (pas de risque).
  • Si on prête aux moins riches, on ne va pas perdre
    les clients mais on est exposé aux non
    remboursements (trop de risque)
  • Idée se baser sur lhistorique des clients pour
    dresser des profils de bons clients, clients
    moyens, et mauvais payeurs

9
Prévision (2)
  • Lorganisme dispose dun fichier décrivant ses
    différents clients à qui il a attribué un crédit
  • Chaque client est décrit par un certain nombre
    dattributs Salaire, situation marital, emploi,
    locataire/propriétaire, personnes à charge,
    montant crédit,
  • A chaque client, on ajoute un attribut
    particulier qui est le nom de la classe et qui
    est égal à bon, mauvais ou moyen
  • Le but consiste à extraire à partir de ce fichier
    un ensemble de règles quon va utiliser
    lorsquun nouveau client demande un crédit pour
    savoir si lon peut le lui attribuer ou pas

10
Prévision (3)
  • Exemples de règles de production
  • Si crédit gt 1/3 salaire ? mauvais
  • Si crédit lt1/3 salaire charges gt4 ? mauvais
  • Si crédit lt1/3 salaire charges lt4
  • propriétaire oui ? bon
  • Si crédit lt1/3 salaire charges lt4
  • propriétairenon cadreoui ? bon
  • Si crédit lt1/3 salaire charges lt4
  • propriétairenon cadre non ? moyen
  • Ces règles peuvent être représentées par un arbre
    de décision

11
Prévision (4)
Endettement
gt1/3
lt1/3
Mauvais
charges
En pratique, les systèmes construisent dabord
les arbres doù ils dérivent les règles
gt4
lt4
Mauvais
Propriétaire
oui
non
Bon
Cadre
oui
non
Bon
moyen
12
Association versus prévision
  • Dans les deux cas, on cherche à extraire des
    règles
  • Les règles dassociation expriment une notion de
    lien entre objets de même type (ex les produits
    vendus par un magasin). Attention Une règle
    dassociation nexprime pas une corrélation
  • Les règles de production expliquent le lien entre
    une classe particulière et la valeur des
    caractéristiques de plusieurs objets
  • Les deux types de règles ne véhiculent pas le
    même type dinformation

13
Regroupement (1)
  • Considérons une entreprise de vente par
    correspondance qui veut envoyer des prospectus
    publicitaires à ses clients
  • Lentreprise a un fichier de 100.000 clients. Le
    coût de la campagne est estimé à 0,5 ce qui
    fait un coût global de 50.000
  • Doù lintérêt de cibler les envois un client
    qui a lhabitude dacheter du matériel de pêche
    na que faire dune pub qui porte sur les
    vêtements pour le golf (en général )
  • Dilemme ne pas envoyer de prospectus versus en
    envoyer mais en ciblant les clients
  • Idée construire des groupes de clients. Chaque
    groupe sera soit destinataire dun prospectus
    ciblé soit on ne lui envoie pas du tout.

14
Regroupement (2)
  • Les groupes (ou clusters) sont construits de
    sorte à
  • Maximiser la similarité entre éléments dun même
    groupe
  • Maximiser la dissimilarité entre groupes
  • Les questions auxquelles le décideur est
    confronté
  • Si chaque individu forme à lui seul un groupe,
    alors la similarité intra-groupe est maximale
    mais la dissimilarité inter-groupes peut ne pas
    lêtre
  • Si on ne forme quun seul groupe, la
    dissimilarité intergroupes est maximale, mais la
    similarité intra-groupe peut ne pas lêtre
  • ? des techniques qui permettent à lutilisateur
    de fixer le nombre k de groupes quil veut
    construire

15
Regroupement
16
Regroupement (3)
  • Linformation extraite se présente sous forme
    dun ensemble de groupes GG1, G2, , Gk
  • Toutes les techniques utilisent une mesure de
    similarité ou distance entre
  • Individus (similarité intra)
  • Groupes dindividus (similarité inter)
  • Les mesures dépendent du type des attributs
    décrivant les individus
  • Attributs numériques ? distance au sens
    mathématique
  • Ex o1(1,2), o2(0,3), dist(o1,o2)
    1-02-32
  • Attributs binaires (oui ou non) ? coefficient de
    similarité
  • Ex o1(oui, non, oui), o2(oui, oui, non)
  • dist(o1,o2)1/3
  • Attributs catégoriels. Ex taille grand, petit,
    moyen

17
Prévision Versus Regroupement
  • Dans la littérature, souvent lun est dénommé
    Apprentissage supervisé et lautre Apprentissage
    non-supervisé
  • Le regroupement pourrait être utilisé pour
    affecter une classe à un nouvel individu la
    classe du groupe dindividus auxquels il
    ressemble le plus
  • La prévision pourrait être considérée comme du
    regroupement Chaque valeur de lattribut
    particulier  Classe  correspond à un groupe

18
Autres types dinformation
  • Séquences similaires trouver les actions
    boursières qui évoluent dune manière similaire,
    trouver les internautes dont le comportement lors
    de la visite dun site marchand est similaire,
  • Les exceptions trouver les clients dune
    entreprise de téléphonie dont les factures ne
    ressemblent pas aux autres travail à domicile,
    fraude

19
Conclusion
  • Utiliser un système de datamining est intéressant
    quand on sait
  • Quelles actions nous voulons entreprendre
  • Quelles types dinformation nous devons
    rechercher
  • Pour chaque type dinformation, il existe
    plusieurs techniques qui ne sont dans la plupart
    des cas, pas équivalentes mais complémentaires
  • Pour bien exploiter les informations extraites,
    il est important de comprendre les techniques
    sous jacentes

20
Merci
Write a Comment
User Comments (0)
About PowerShow.com