Data Mining - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Data Mining

Description:

La typologie de l'information que l'on veut extraire d pend du type ... Nous allons consid rer. Recherche des liens entre l ments de la base de donn es (R gles ... – PowerPoint PPT presentation

Number of Views:124
Avg rating:3.0/5.0
Slides: 21
Provided by: lab54
Category:
Tags: allons | data | mining

less

Transcript and Presenter's Notes

Title: Data Mining


1
Data Mining
2
Ce quest le Data Mining
  • Extraction dinformations intĂ©ressantes
  • non triviales,
  • implicites,
  • prĂ©alablement inconnues et
  • potentiellement utiles
  • Ă  partir de donnĂ©es.
  • Autres appellations
  • ECD (Extraction de Connaissances Ă  partir de
    Données)
  • KDD (Knowledge Discovery from Databases)
  • Analyse de donnĂ©es/patterns, business
    intelligence, fouille de données, etc.

3
Quels types dinformation Rechercher ?
  • La typologie de linformation que lon veut
    extraire dépend du type daction que le décideur
    veut entreprendre
  • Nous allons considĂ©rer
  • Recherche des liens entre Ă©lĂ©ments de la base de
    données (Règles dassociation)
  • Analyse des comportement des Ă©lĂ©ments de la base
    de données (prédiction)
  • Recherche de similitudes entre Ă©lĂ©ments de la
    base (Regroupement)

4
Associations (1)
  • Les enseignes de grands magasins proposent
    régulièrement des promotions sur divers produits
  • Une promotion reprĂ©sente un manque Ă  gagner pour
    le magasin
  • Dilemme Comment proposer des promotions
    intéressantes pour les clients tout en réduisant
    le manque Ă  gagner ?
  • Regarder les habitudes dachats des clients si
    en général, les clients qui achètent du lait
    achètent aussi du sucre, alors il nest pas
    intéressant de faire des promotions sur les 2
    produits en mĂŞme temps
  • IdĂ©e trouver les associations entre produits
    pour extraire les produits Ă  promouvoir

5
Associations (2)
  • Règles dassociation
  • motifs de la forme Corps ? TĂŞte
  • Exemple Lait ? sucre
  • Etant donnĂ©s (1) une base de transactions, (2)
    chaque transaction est décrite par un identifiant
    et une liste ditems
  • Trouver toutes les règles qui expriment une
    association entre la présence dun item avec la
    présence dun ensemble ditems
  • Ex., 98 des personnes qui achètent du lait
    achètent du sucre

6
Associations Support et Confiance (3)
  • Trouver les règles X Y ? Z avec un support gt s
    et une confiance gtc
  • support s, probabilitĂ© quune transaction
    contienne X, Y, Z
  • confiance c, probabilitĂ© conditionnelle quune
    transaction qui contient X, Y contienne aussi Z

Clients achetant les deux
Clients achetant du lait
Clients achetant du sucre
Confiancesupport(X,Y,Z)/support(X,Y)
Soit support minimum 50, et confiance minimum
50, A ? C (50, 66.6) C ? A (50, 100)
7
Problème algorithmique
  • Si on a 1010 produits, on a 21010 itemsets Ă 
    vérifier !
  • IdĂ©e Exploiter la propriĂ©tĂ© de non monotonicitĂ©
  • Si A,B,C nest pas frĂ©quent, alors A,B,C,D ne
    peut pas lĂŞtre

8
Prévision (1)
  • Les Ă©tablissements financiers accordent des
    crédits à leurs clients
  • Lattribution dun crĂ©dit dĂ©pend de certains
    critères que le client doit satisfaire
  • Dilemme
  • Si on ne prĂŞte quaux très riches, on naura pas
    de problèmes de remboursement mais on perd les
    autres clients (pas de risque).
  • Si on prĂŞte aux moins riches, on ne va pas perdre
    les clients mais on est exposé aux non
    remboursements (trop de risque)
  • IdĂ©e se baser sur lhistorique des clients pour
    dresser des profils de bons clients, clients
    moyens, et mauvais payeurs

9
Prévision (2)
  • Lorganisme dispose dun fichier dĂ©crivant ses
    différents clients à qui il a attribué un crédit
  • Chaque client est dĂ©crit par un certain nombre
    dattributs Salaire, situation marital, emploi,
    locataire/propriétaire, personnes à charge,
    montant crédit,
  • A chaque client, on ajoute un attribut
    particulier qui est le nom de la classe et qui
    est Ă©gal Ă  bon, mauvais ou moyen
  • Le but consiste Ă  extraire Ă  partir de ce fichier
    un ensemble de règles quon va utiliser
    lorsquun nouveau client demande un crédit pour
    savoir si lon peut le lui attribuer ou pas

10
Prévision (3)
  • Exemples de règles de production
  • Si crĂ©dit gt 1/3 salaire ? mauvais
  • Si crĂ©dit lt1/3 salaire charges gt4 ? mauvais
  • Si crĂ©dit lt1/3 salaire charges lt4
  • propriĂ©taire oui ? bon
  • Si crĂ©dit lt1/3 salaire charges lt4
  • propriĂ©tairenon cadreoui ? bon
  • Si crĂ©dit lt1/3 salaire charges lt4
  • propriĂ©tairenon cadre non ? moyen
  • Ces règles peuvent ĂŞtre reprĂ©sentĂ©es par un arbre
    de décision

11
Prévision (4)
Endettement
gt1/3
lt1/3
Mauvais
charges
En pratique, les systèmes construisent dabord
les arbres doù ils dérivent les règles
gt4
lt4
Mauvais
Propriétaire
oui
non
Bon
Cadre
oui
non
Bon
moyen
12
Association versus prévision
  • Dans les deux cas, on cherche Ă  extraire des
    règles
  • Les règles dassociation expriment une notion de
    lien entre objets de mĂŞme type (ex les produits
    vendus par un magasin). Attention Une règle
    dassociation nexprime pas une corrélation
  • Les règles de production expliquent le lien entre
    une classe particulière et la valeur des
    caractéristiques de plusieurs objets
  • Les deux types de règles ne vĂ©hiculent pas le
    mĂŞme type dinformation

13
Regroupement (1)
  • ConsidĂ©rons une entreprise de vente par
    correspondance qui veut envoyer des prospectus
    publicitaires Ă  ses clients
  • Lentreprise a un fichier de 100.000 clients. Le
    coût de la campagne est estimé à 0,5 ce qui
    fait un coût global de 50.000
  • DoĂą lintĂ©rĂŞt de cibler les envois un client
    qui a lhabitude dacheter du matériel de pêche
    na que faire dune pub qui porte sur les
    vêtements pour le golf (en général )
  • Dilemme ne pas envoyer de prospectus versus en
    envoyer mais en ciblant les clients
  • IdĂ©e construire des groupes de clients. Chaque
    groupe sera soit destinataire dun prospectus
    ciblé soit on ne lui envoie pas du tout.

14
Regroupement (2)
  • Les groupes (ou clusters) sont construits de
    sorte Ă 
  • Maximiser la similaritĂ© entre Ă©lĂ©ments dun mĂŞme
    groupe
  • Maximiser la dissimilaritĂ© entre groupes
  • Les questions auxquelles le dĂ©cideur est
    confronté
  • Si chaque individu forme Ă  lui seul un groupe,
    alors la similarité intra-groupe est maximale
    mais la dissimilarité inter-groupes peut ne pas
    lĂŞtre
  • Si on ne forme quun seul groupe, la
    dissimilarité intergroupes est maximale, mais la
    similarité intra-groupe peut ne pas lêtre
  • ? des techniques qui permettent Ă  lutilisateur
    de fixer le nombre k de groupes quil veut
    construire

15
Regroupement
16
Regroupement (3)
  • Linformation extraite se prĂ©sente sous forme
    dun ensemble de groupes GG1, G2, , Gk
  • Toutes les techniques utilisent une mesure de
    similarité ou distance entre
  • Individus (similaritĂ© intra)
  • Groupes dindividus (similaritĂ© inter)
  • Les mesures dĂ©pendent du type des attributs
    décrivant les individus
  • Attributs numĂ©riques ? distance au sens
    mathématique
  • Ex o1(1,2), o2(0,3), dist(o1,o2)
    1-02-32
  • Attributs binaires (oui ou non) ? coefficient de
    similarité
  • Ex o1(oui, non, oui), o2(oui, oui, non)
  • dist(o1,o2)1/3
  • Attributs catĂ©goriels. Ex taille grand, petit,
    moyen

17
Prévision Versus Regroupement
  • Dans la littĂ©rature, souvent lun est dĂ©nommĂ©
    Apprentissage supervisé et lautre Apprentissage
    non-supervisé
  • Le regroupement pourrait ĂŞtre utilisĂ© pour
    affecter une classe Ă  un nouvel individu la
    classe du groupe dindividus auxquels il
    ressemble le plus
  • La prĂ©vision pourrait ĂŞtre considĂ©rĂ©e comme du
    regroupement Chaque valeur de lattribut
    particulier  Classe  correspond à un groupe

18
Autres types dinformation
  • SĂ©quences similaires trouver les actions
    boursières qui évoluent dune manière similaire,
    trouver les internautes dont le comportement lors
    de la visite dun site marchand est similaire,
  • Les exceptions trouver les clients dune
    entreprise de téléphonie dont les factures ne
    ressemblent pas aux autres travail Ă  domicile,
    fraude

19
Conclusion
  • Utiliser un système de datamining est intĂ©ressant
    quand on sait
  • Quelles actions nous voulons entreprendre
  • Quelles types dinformation nous devons
    rechercher
  • Pour chaque type dinformation, il existe
    plusieurs techniques qui ne sont dans la plupart
    des cas, pas équivalentes mais complémentaires
  • Pour bien exploiter les informations extraites,
    il est important de comprendre les techniques
    sous jacentes

20
Merci
Write a Comment
User Comments (0)
About PowerShow.com