Title: Introduction au datamining
1Introduction au datamining
- Système dinformation décisionnel
- DESS ACSI et SID
- Anne Boyer
- Année universitaire 2004-2005
2Plan
- Introduction
- 1.Généralités
- 2. Le processus de datamining
- 3. Les modèles du datamining
- 4. Exemples
- 5. Critères pour le choix dun logiciel
- Conclusion et perspectives
3Environnement de l'entreprise
- Accroissement de la concurrence
- Individualisation des consommateurs
- Brièveté du cycle de vie des produits
- ? Anticiper le marché et pas seulement réagir
- ? Cibler au mieux la clientèle pour répondre à
ses attentes - ? Connaissance du métier, des schémas de
comportement des clients et des fournisseurs
4Un constat
- La grande distribution a besoin d'apprendre à
connaître se clients - Créer des relations privilégiées sur le modèle du
commerce de quartier - Idéal du "1 à 1"
- Apprendre à évaluer un client dans la durée
- Déterminer lequel fidéliser par des attentions
particulières et lequel laisser partir à la
concurrence - Déplacement des centres d'intérêt des segments de
marché vers les individus - Petit commerce
- Observe un client, se souvient de ses préférences
- Apprend des contacts passés comment améliorer le
service futur
Introduction
5Objectif
- Faire la même chose avec une entreprise de grande
taille - le client peut ne jamais entrer en contact avec
un employé - le client voit chaque fois un employé différent
- Exploiter les nombreuses traces enregistrées lors
de l'observation du client (enregistrements
transactionnels)
Introduction
6Un potentiel
- A disposition une masse importante de données
- Explorer ses réservoirs de connaissances
- Extraction de connaissances
- Données provenant de nombreuses sources
- À rassembler et à organiser selon un plan
cohérent et exploitable - À analyser, comprendre et transformer en
informations exploitables
Une solution le datamining
7Intérêt du DM
- "Trop de données tue linformation"
- seuls 15 des données stockées sont analysées
- 150 dinfo disponibles chaque année
- Objectif favoriser la prise de décision en
exploitant les tonnes dinformation disponibles - modéliser pour prédire
- faciliter la décision mais ne prend pas de
décision - améliorer la réactivité dune entreprise / marché
- Défi améliorer la productivité / volume
exponentiel de données - Extrapoler le passé pour prédire lavenir
Introduction
8Découverte de connaissances dans les bases de
données
- Intérêt scientifique
- Processus daide à la décision où les
utilisateurs cherchent des modèles
dinterprétation dans les données - Extraction dinformations auparavant inconnues et
potentiellement utiles à partir des données
disponibles - Intérêt économique
- Amélioration de la qualité des produits et des
services - Passage dun marketing de masse à un marketing
individualisé - Fidélisation des clients
- Favoriser la différentiation stratégique de
lentreprise
Introduction
9Datamining
- Ensemble des outils permettant d'accéder et
d'analyser les données de l'entreprise - moyens destinés à détecter les associations entre
des données contenues dans dimportantes bases de
données - Outil qui facilite la mise en évidence de modèles
ou de règles à partir de lobservation des
données - Démarche ayant pour objet de découvrir des
relations et des faits à la fois nouveaux et
significatifs sur de grands ensembles de données - Un élément de la transformation de données en
connaissances
Introduction
10Datamining
- Restriction aux outils permettant de générer des
infos riches, de découvrir des modèles implicites
à partir de données historiques - Pertinence et intérêt conditionnées par les
enjeux de l'entreprise
Idées et techniques provenant des statistiques,
de la RO, de l'IA, de l'administration de bases
de données, du marketing
11Connaissance versus donnée
- Données ? Connaissances
- Donnée description dun exemple ou dun
événement spécifique dont lexactitude peut être
vérifiée par rapport au monde réel - ex les achats dun client sur son ticket de
caisse - Connaissance ensemble de relations entre les
données - Règles, Tendances, Associations, Exceptions,
- Décrit une catégorie abstraite pouvant couvrir
plusieurs exemples - Ex les bons et les mauvais clients
- Connaissances ? synthèse des informations (DM)
Introduction
12DM versus autres solutions
- Outils relationnels et OLAP
- Initiative à l'utilisateur
- DM
- Initiative au système
- Pas nécessaire de poser d'hypothèses
- Interprétation par un expert
- Nécessité d'un outil ergonomique rendant
transparentes les techniques utilisées
13Datamining et Décisionnel une solution
- Archivage de données crée la mémoire d'entreprise
- Datamining crée l'intelligence de l'entreprise
- Analyse prédictive de comportement
- Généralisation prédictive communauté
- Automatisation de certaines phases de lanalyse
- Rendre les utilisateurs moins dépendants des
spécialistes de lanalyse de données - Intégrer les résultats du DM dans linformatique
- ou les procédures de lentreprise
Introduction
14Etat des lieux
- Les algorithmes existent (depuis des années voire
des décennies) - Les données sont produites
- Nécessité de grands volumes pour l'apprentissage
- Les données sont archivées
- La puissance de calcul nécessaire est disponible
et financièrement abordable - Le contexte est ultra concurrentiels
- Motivation commerciale
- Des produits commerciaux pour le DM existent
Introduction
15Contexte ultra concurrentiel
- Renforcement du rôle des informations dans la
concurrence - Économie de plus en plus tournée vers les
services - Vente de voitures ou de solutions de transports ?
- Compagnies aériennes en concurrence par les
services offerts - Apparition de la personnalisation massive
- Levi-Strauss et ses jeans personnalisés
- Peugeot et la voiture à la demande
- Individual et la revue de presse qui s'améliore
avec le temps - Importance croissante de l'information comme
produit - Courtiers en information
- IMS
- Journal de l'IOWA
Introduction
16Domaines d'application
- Grande distribution, vente par correspondance ou
commerce électronique - Banques, assurance
- Transports et voyagistes
- Télécommunications, eau et énergie
- Aéronautiques, automobiles, industrie
- Laboratoires pharmaceutiques
? Retours sur investissement
Introduction
17Exemples
- La police américaine
- Poseur de bombe d'Oklahoma City (par ex)
- DM pour filtrer les milliers de rapports soumis
par les agents du FBI - Le département du Trésor américain pour traquer
les formes suspectes dans les transferts de fonds
internationaux - Les impôts américains (acheteurs d'outils de DM)
- Les supermarchés
- Collecte d'infos par le biais de la carte de
fidélité - Utilisation de la carte pour payer ou obtenir des
"points" - déterminer l'agencement des rayons,
- Vente aux marques pour les bons de réduction à
adresser à 1 client
Introduction
18Exemples
- La banque (les premiers)
- les cartes de crédit
- Aux USA, prédire les changements de cille (et de
banque ?) - La vente croisée
- Assurance USAA
- Compagnie d'investissement Fidelity
- Marketing direct guidé par l'analyse de
comportement - Portrait robot du client fidèle
- Routage des réclamations en période de garantie
- Fabricant de moteurs diesel
- Fidélisation des bons clients
- Compagnie du gaz de Californie du sud à la fin du
monopole - Eliminer les mauvais clients
Introduction
19Plan
- Introduction
- 1.Généralités
- 2. Le processus de datamining
- 3. Les modèles du datamining
- 4. Exemples
- 5. Critères pour le choix dun logiciel
- Conclusion et perspectives
20Exemple d'une grande banque
- Constat
- Perte de clients supérieure aux nouveaux clients
- Nouveaux clients rapportent moins que les clients
partis - ? les meilleurs clients s'en vont
- Objectif augmenter la rentabilité globale
- Garder les parts de marché
- Trouver de nouveaux clients (à faible coût)
21Solutions
- Relever les taux d'épargne, diminuer les taux
d'emprunt, - Inutile pour les clients fidèles
- Attraction des clients volages
- solution chère
- Suppression de services non rentables
- Mais si ce sont ceux qui fidélisent la clientèle
? - Comprendre les clients et appliquer le modèle
trouvé - Utiliser les données disponibles
- Les transformer en informations exploitables
22Le problème
- Départ de clients rentables affecte le résultat
financier - Comment identifier les clients pouvant partir ?
- Enquête auprès d'anciens clients
- Échantillon représentatif ? Coopératif ?
- Réponses honnêtes ? Une ou plusieurs raisons ?
- Analyse des infos sur les anciens clients et
comparaison avec les clients restants - Détermination de clusters
- Transformation des résultats de l'analyse en
action - Mesure des résultats
23Les grandes étapes
- Identifier l'opportunité commerciale
- Ex planification d'actions marketing,
établissement de prix de produits ou de services,
définition des cibles marketing, explication de
pertes de clientèles, - La longueur d'attente aux caisses est elle une
raison probable de la perte de clients ? - Transformer les données concrètes en informations
permettant des actions - collectes
- Utilisation des techniques du DM
- Agir
- Mesurer les résultats
24Les tâches du DM
- Classification (affectation à une classe
prédéfinie) - Estimation
- Prédiction
- Groupement par similitudes
- Analyse des clusters (détermination de classes)
- Description
25Classification
- La classification consiste à examiner des
caractéristiques dun élément nouvellement
présenté afin de laffecter à une classe dun
ensemble prédéfini. BERRY97 - Objectif affecter des individus à des classes
- classes discrètes homme / femme, oui / non, ...
- exemple de techniques appropriées
- Ä les arbres de décision
26Estimation
- permet
- obtenir une variable continue en combinant les
données en entrée - procéder aux classifications grâce à un "barème"
- Exemple estimer le revenu dun ménage selon
divers critères - ensuite possible de définir des tranches de
revenus pour classifier les individus - intérêt
- pouvoir ordonner les résultats pour ne retenir si
on le désire que les n meilleures valeurs - facile de mesurer la position dun élément estimé
dans sa classe - particulièrement important pour les cas
limitrophes - exemple de techniques appropriées
- les réseaux de neurones
27Prédiction
- ressemble à la classification et à lestimation
mais dans une échelle temporelle différente - sappuie sur le passé et le présent mais son
résultat se situe dans un futur généralement
précisé - meilleure méthode pour mesurer la qualité de la
prédiction attendre ! - exemple de techniques appropriées Lanalyse du
panier de la ménagère - Les arbres de décision
- les réseaux de neurones
28Regroupement par similitudes
- consiste à grouper les éléments qui vont
naturellement ensembles - exemple de techniques appropriées
- Lanalyse du panier de la ménagère
29Clusterisation
- segmenter une population hétérogène en
sous-populations homogènes - Contrairement à la classification, les sous
populations ne sont pas préétablies - exemple de techniques appropriées
- Les K means
30Description
- décrire les données dune base complexe
- engendre souvent une exploitation supplémentaire
en vue de fournir des explications - exemple de techniques appropriées
- Lanalyse du panier de la ménagère
31- La classification
- Déterminer le grade en fonction du sexe, de
l'âge, l'ancienneté, le salaire et les
affectations - Déterminer le sexe en fonction de l'âge,
l'ancienneté, le salaire et les affectations - Lestimation se fait sur des variables continues
- Estimer l'âge en fonction du grade, sexe,
ancienneté et affectations - le salaire en fonction de l'âge, sexe,
ancienneté et affectations - La prédiction
- quelle sera la prochaine affectation d'un
militaire
32- Le regroupement par similitudes
- déterminer des règles de type le militaire qui
est sergent entre 25 et 30 ans sera lieutenant
colonel entre 45 et 50 ans (fiabilité de n ) - La segmentation
- segmenter les militaires en fonction de leurs
suivi de la carrière et affectations - La description
- indicateurs statistiques traditionnels âge
moyen, femmes, salaire moyen
33Deux démarches
- Test d'hypothèses
- Générer une idée
- Déterminer les données permettant de la tester
- Localiser les données
- Préparer les données pour l'analyse
- Construire les modèles informatiques sur la base
de données - Évaluer les modèles informatiques
- La découverte de connaissances
- Dirigée (expliquer une relation) ou non
(reconnaître une relation)
34Plan
- Introduction
- 1.Généralités
- 2. Le processus de datamining
- 3. Les modèles du datamining
- 4. Exemples
- 5. Critères pour le choix dun logiciel
- Conclusion et perspectives
35Gestion des connaissances
Statistiques et datamining
Compréhension du domaine
Utilisation de la connaissance
Identification de relations
Enrichissement des variables
Qualification des données
Sélection des données
Introduction
36Les étapes du processusKnowledge Discovery
- Phase 1 Poser le problème
- Phase 2 La recherche des données
- Phase 3 La sélection des données pertinentes
- Phase 4 Le nettoyage des données
- Phase 5 Les actions sur les variables
- Phase 6 La recherche du modèle
- Phase 7 Lévaluation du résultat
- Phase 8 Lintégration de la connaissance
extraite
Le processus de datamining
37(1) Poser le problème
- Quel est le problème ?
- Formulation du problème
- Recherche des objectifs et recueil de la
connaissance existante - Typologie du problème recherche des objectifs
- Explication dun phénomène précis ? ou approche
exploratoire ? - Influence sur les modèles ou techniques à
utiliser - Résultat attendu et moyens mis en œuvre pour le
mesurer - Exploitation des résultats (impacts sur
lorganisation) - Individus concernés
Le processus de datamining
38(2) Recherche des données
- Quelles données extraire ? Identifier les
variables - Rendre le processus de découverte performant et
efficace - Réduction des dimensions
- Trop de variables nuit à la capacité de
généralisation - Ratio Nombres dexemplaires / Nombre de
variables
trop peu dexemples
Le processus de datamining
39(2) Recherche des données
- Sélection des variables
- Fournies par les experts (explication dun
phénomène précis) - Recherche des facteurs déterminants par des
techniques danalyse (méthode de régression,
réseaux neuronaux...) - DM à lintérieur du DM
- Mise en évidence
- des associations triviales entre les données
- de la sémantique, des regroupements de valeurs
- des valeurs de seuil
- des valeurs aberrantes
- Eliminer les résultats triviaux et améliorer la
prédiction
Le processus de datamining
40(3) Sélection des données pertinentes
- Comment extraire ces données ?
- Réaliser un plan dextraction des données
- Constituer un fichier à plat
- Identifier les applications ou systèmes concernés
- Phase importante
- ou - facilitée par lexistence dentrepôts de
données - Certaines études nécessitent un plan de collecte
(étude qualitative, interception de données
transitoires) - Avenir flux continu de données depuis les
systèmes transactionnels et traitement immédiat
du processus de DM
Le processus de datamining
41(3) Sélection des données pertinentes
- Exhaustivité ou non des données ?
- Echantillon ?
- Dépend des modèles utilisés
- Fonction des objectifs de létude (Phase 1)
- Equilibre entre les différentes classes
dindividus à appréhender - Stratification si une faible population a des
enjeux forts - Pondérations des individus
Le processus de datamining
42(4) Nettoyage des données
- La qualité des données extraites ?
- Identifier
- les valeurs aberrantes (histogramme, ctrl de
cohérence à la saisie des données, outils de
visualisation graphique) - Quantifier
- les valeurs manquantes (exclusion des
enregistrements incomplets, remplacement par une
valeur) - les valeurs nulles
Le processus de datamining
43(4) Nettoyage des données
- Prévenir de la non-qualité des données
- Intégration de bruit équilibrer la proportion
des données erronées par rapport à lensemble
extrait - Utiliser les modèles adaptés en fonction du
diagnostic processus dapprentissage flous,
introduction de probabilité - Revoir le processus d'extraction ou la saisie des
données dans les systèmes initiaux
Le processus de datamining
44(5) Actions sur les variables
- Quelles transformations opérées sur les données ?
- Transformer les données en fonction de la nature
des données extraites et des modèles qui seront
utilisés - Exemple de transformation mono-variable
- Modification de lunité de mesure (normalisation,
log()) - cas de données numériques
- Transformation des dates en durée
- Modification des données géographiques
(géocodage) - Création de taxonomie de concepts
Le processus de datamining
45(5) Actions sur les variables
- Exemple de transformation multi-variables
- Construction dagrégats de variables
- Ratios (degré dimplication)
- Fréquences (mesurer la répétitivité)
- Tendances (évolution des échanges dans le temps -
équations linéaires ou non) - Combinaisons linéaires (construction
dindicateurs) - Combinaisons non linéaires
Le processus de datamining
46(6) Recherche du modèle
- Quel modèle découvrir ?
- Quel type de techniques ?
- Supervisé (interactivité, connaissance des
algorithmes) - Non supervisé (automatisé)
- Fonction des phases précédentes (qualité des
données, objectif,) - Algorithme de calcul ? pouvoir prédictif du
modèle - Utilisation des méthodes statistiques nouveaux
outils de type inductif, Bayésiens, neuronaux
Le processus de datamining
47(6) Recherche du modèle
- Pour la recherche du modèle
- 2 bases de travail
- base dapprentissage (80 de la population)
- pour la découverte dun modèle
- base de test (20 de la population)
- pour évaluer le modèle découvert
Le processus de datamining
48(7) Évaluation du résultat
- Évaluation qualitative
- Restitution de la connaissance sous forme
graphique - ou sous une forme interprétable
- Évaluation quantitative
- Notion dintervalle de confiance (indicateurs
pour la pertinence des règles, seuil de confiance
et intervalle de confiance fonction de la taille
de léchantillon) - Validation par le test (base de test)
- matrice de confusion / éclairage métier
Le processus de datamining
49(7) Évaluation du résultat
- Évaluation quantitative - Matrice de confusion
Achats constatés
Oui
Non
Total
Oui
270
160
430
Achats Prédits
Non
30
540
570
Total
300
700
1000
Qualité globale du modèle 270 540 / 1000
(81) Forte capacité des non-acheteurs 540 /
570 (94) Acheteurs 270/430 (63) 160
prospects à contacter
Le processus de datamining
50(8) Intégration de la connaissance
- Conversion de la connaissance découverte en
décision action - Implanter le modèle ou ses résultats dans les
systèmes informatiques ou dans le processus de
lentreprise - Bilan des étapes précédentes
- faible qualité des données collectées
- Þ revoir le processus dalimentation du data
warehouse - détection dune donnée de fort pouvoir prédictif
- Þ modification de la BD
- agrégats construits constituant des dimension
intéressantes - Þ extension des tableaux de bord
- connaissance extraite en contradiction avec la
connaissance existante - Þ mesure de communication
Le processus de datamining
51Processus dextraction - Conclusion
- Rôle primordial des utilisateurs et des experts
- Sémantique donnée aux données (méta-données)
- Orientation du processus dextraction
- Valider ou infirmer les conclusions
- Logiciels de DM orientés recherche de modèle
- Une partie du processus
- Tendance intégration de fonctions daide à tous
les stades du processus - Après le processus la diffusion et
lintégration de la connaissance
Le processus de datamining
52Plan
- Introduction
- 1.Généralités
- 2. Le processus de datamining
- 3. Les modèles du datamining
- 4. Exemples
- 5. Critères pour le choix dun logiciel
- Conclusion et perspectives
53Data Mining Cocktail de techniques
- Évolution des techniques de statistique apports
des SGBD, de lIA et de lapprentissage
automatique - Mélange de plusieurs disciplines
ML
SGBD
Représentation de la Connaissance
Les modèles du datamining
54Data Mining Utilisateur ou Statisticien
- Logiciel Presse-Bouton
- (apprentissage automatique non supervisé)
- Interaction avec lutilisateur au niveau de
lapprentissage (paramètre) ou pendant la
recherche du modèle - Logiciel basé sur des techniques statistiques
experts requis - Þ les outils de DM intègrent des tests
statistiques et des algorithmes de choix des
meilleures techniques de modélisation en fonction
des caractéristiques du cas
Les modèles du datamining
55Data Mining Lisibilité ou Puissance
- Compromis entre clarté du modèle et pouvoir
prédictif
Les modèles du datamining
56Quelques techniques
- Associations
- Raisonnement à partir de cas
- K means
- Arbres de décision
- Réseaux neuronaux
- Algorithmes génétiques
- Réseaux Bayésiens
Les modèles du datamining
57Recherche d'associations ou analyse du panier de
la ménagère
- processus de découverte de connaissances non
dirigée - étudier quels articles ont tendance à être
achetés ensemble - issue du secteur de la distribution
- applicable dès que plusieurs actions faites par
un même individu - utilisée pour découvrir des règles d'association
- but principal descriptif
- prédictive car résultats éventuellement situés
dans le temps - souvent départ d'une analyse
- règles claires et explicites pour l'utilisateur
métier - ensuite mise en œuvre d'un processus de test
d'hypothèses ou de découverte dirigée
58Les Associations
- Construire un modèle basé sur des règles
conditionnelles à partir dun fichier de données - Le modèle
- Règles de la forme
- Si prédicat(x) et prédicat(y) alors prédicat(z)
- Pondération par une probabilité ou par une
métrique de confiance - Éventuellement situées dans le temps
- "Si action1 ou condition à l'instant t1 alors
action2 à l'instant t2" - Exemples de règles
- Si achat de riz et de vin blanc, alors achat de
poisson (84) - Si achat de téléviseur alors achat de
magnétoscope dans les 5 ans (45) - Si présence et travail alors réussite à l'examen
(99,9)
Les modèles du datamining
59Les Associations
- Les domaines
- Analyse des tickets de caisse
- (mise en relation entre n produits, relation de
comportement de produits) - Analyse des séquences dachats
- détection dassociation de ventes pour un même
client - Þ dimension temporelle et notion dantériorité
- Les enjeux
- optimisation des stocks, merchandising, ventes
croisées (bon de réduction, promotion)
Les modèles du datamining
60Les Associations
- Principes de construction dune association
- transaction Û ticket de caisse
- une transaction T contient le détail des articles
ou de leur famille - chaque article est une variable binaire
- une association est une implication de la forme X
Y - avec X et Y Î T et X ÇY Æ
- deux indicateurs pour apprécier une association
- niveau de confiance Card(X Y) / Card(X)
- niveau de support Card(X Y) / Card(X ou Y)
- extraire les associations pertinentes
Les modèles du datamining
61Les Associations
Les modèles du datamining
62Les Associations
Les modèles du datamining
63Les Associations
- Domaines dapplication
- Analyse dachats dans la grande distribution
- Analyse des mouvements bancaires, des incidents
dans les assurances - Limites de lapproche
- article code à barres une famille 100
références - volume de données (100 000 réf. élémentaires)
- Þ hiérarchie de concepts
- niveau élémentaire pour confirmer limpact de
marque X sur les ventes de Y - Þ vérifier les associations sur des concepts de
haut niveau
Les modèles du datamining
64Mise en oeuvre
- LA TAXINOMIE
- Un supermarché gère environ 100 000 références
différentes - analyse sur tous les articles tableau de 10
milliards de cellules pour des associations de
deux articles ! - des espaces disques importants (en téra-octets)
- des temps de traitements en conséquence
- aujourd'hui pas très raisonnable
- Solution la taxinomie
- regrouper les articles, les généraliser sous un
même terme générique, une même rubrique - Exemple le terme chocolat regroupe les
chocolats noirs, au lait, de différentes marques,
aux noisettes, allégés,
65Mise en oeuvre
- LES ARTICLES VIRTUELS
- fréquent de rajouter des articles virtuels
- pour améliorer la performance du système
- pour représenter des informations transversales
- pour regrouper les articles d'une autre manière
que la taxinomie - Exemple produits allégés, marque que l'on
trouve dans plusieurs rubriques - pour donner des indications supplémentaires sur
la transaction - donnée temporelle (jour de la semaine, heure,
mois, saison, ), mode de paiement, météo, - si possible des données sur le client
(satisfaction, type d'habitat, catégorie
socioprofessionnelle, âge, statut matrimonial, ) - pour fournir des règles du type
- "si printemps et jardin alors achat de gants de
jardinage"
66Mise en oeuvre
- LES REGLES DE DISSOCIATION
- analogue à une règle d'association mais fait
apparaître la notion de "non" - dans une entreprise, 5 produits (A,B,C,D,E)
- Si un client prend les produits A,B et D, alors
il générera la transaction A,B,non C,D et non E - Ce procédé génère des règles comme
- "si achat du produit A et du produit C alors non
achat du produit E". - inconvénient majeur fournit des règles où tout
est nié - "si non A et non B alors non C"
- connaissances générées peu exploitables
67Mise en oeuvre
- Le LES SERIES TEMPORELLES
- L'analyse du panier de la ménagère
- Objectif faire de la description et non de la
prévision - outil non optimal pour étudier les séries
temporelles - contrainte avoir une information de temps et
une clé d'identification de l'objet
(principalement le client) - difficulté transformer les données en
transactions - Plusieurs possibilités offertes
- Ajouter à chaque article la notion de temps
avant, après, en même temps - Créer des fenêtres temporelles regrouper toutes
les transactions effectuées dans un même
intervalle de temps par un même individu - permet de dégager des profils, surtout associée à
des articles virtuels
68Mise en oeuvre
- plusieurs indicateurs complémentaires pour
évaluer - La fréquence
- règle vraie pour deux clients sur cinq
fréquence 40 - Le niveau (ou taux) de confiance
- mesure de la probabilité dans la sous population
concernée par la condition de la règle (fréquence
sur une sous population) - Ex règle "si achat de jus d'orange, alors achat
d'eau minérale" - la population ayant acheté du jus d'orange (ex
4 individus) - le nombre de fois où la règle est respectée (ex
2) - La proportion obtenue (ici 2 sur 4, soit 50 )
niveau de confiance - permet de mesurer la force de l'association
- Prudence n'intègre pas la notion d'effectif
- Ex Si achat de lait, alors achat de nettoyant
vitres - effectif 1 individu très relatif malgré un très
bon taux de confiance !
69- LE NIVEAU DE SUPPORT
- nombre de fois où l'association est respectée,
ramenée au nombre de fois où l'un des articles
est présent - permet de mesurer la fréquence de l'association.
- Le taux d'amélioration
- permet de mesurer la pertinence de l'association
- Que vaut une règle si son taux de confiance est
inférieur à la fréquence du résultat sans
condition ? - ex règle "si achat d'eau minérale, alors achat
de jus d'orange" - règle vraie pour 2 clients sur 3 qui ont acheté
de l'eau - taux de confiance pour l'achat du jus d'orange
dans ces conditions de 2/3 - Or 4 clients sur 5 achètent du jus d'orange, soit
80 ! - règle inintéressante à exploiter car ajout de
condition pour un taux moins bon - Pour mesurer l'amélioration apportée par la
règle, on divise le taux de confiance par la
fréquence de l'événement - ici 0.66 / 0.80 83
- Si le résultat est supérieur à 1, la règle
apporte une amélioration sur le résultat - sinon renoncer à l'exploiter
70Conclusion
- points forts de l'analyse du panier de la
ménagère - résultats clairs et explicites
- adaptée à l'exploitation non dirigée des données
- traite des données de taille variable
- La technique et les calculs simples à comprendre
- points faibles de l'analyse du panier de la
ménagère - Le volume de calculs croît au carré ou au cube du
volume de données - prend mal en compte les articles rares
- difficile de déterminer le bon nombre d'articles
- les attributs des articles (détails et quantités)
souvent ignorés
71Conclusion
- technique s'appliquant aux problèmes
- d'exploitation des données non dirigée
- contenant des articles bien définis, qui se
regroupent entre eux de manière intéressante - souvent analyse préalable
- car elle génère des règles susceptibles de
soulever des interrogations ou des idées - débouchera sur d'autres analyses plus fines
test d'hypothèse ou découverte de connaissance
dirigée pour expliquer un phénomène révélé
72Le raisonnement à partir de cas
- technique de découverte de connaissances dirigée
- utilisée dans un but de classification et de
prédiction - bien adapté aux bases de données relationnelles
- mise en œuvre simple
- équivalence de l'expérience chez l'homme
- processus identification des cas similaires
puis application de l'information provenant de
ces cas au problème actuel - principe on présente un nouvel enregistrement,
il trouve les voisins les plus proches et
positionne ce nouvel élément - s'applique à tous les types de données.
- pour estimer des éléments manquants, détecter des
fraudes, prédire l'intérêt d'un client pour une
offre, classifier les réponses en texte libre
73ventes de voitures Renault ventilées en fonction
de l'âge et du nombre d'enfants de l'acheteur
74(No Transcript)
75- La consultation du graphique
- des zones bien nettes
- permettant de déterminer, pour un nouveau client
dont on connaît l'âge et le nombre d'enfants, le
modèle susceptible de l'intéresser. - trois nouveaux clients
- La notion de distance est la distance métrique
- conseil au client 1 une Espace, au 2 une Clio, au
3 une Safrane
76Fonction de distance
- Pour les données numériques
- La valeur absolue de la différence A-B
- Le carré de la différence (A-B)²
- La valeur absolue normalisée A-B /
(différence maximale) - avantage se trouve toujours entre 0 et 1,
supprime les problèmes d'échelles - libre de créer sa propre fonction.
- Pour les autres types de données
- à l'utilisateur de définir sa propre fonction de
distance - Exemple
- pour comparer le sexe d'un individu, valeur 1
s'ils sont de sexe différent ou la valeur 0 s'ils
sont identiques - pour des communes, pourquoi ne pas prendre la
distance entre elles ou affecter une codification
en fonction du type (urbaine, périurbaine,
rurale) ou de la région - toujours préférable d'avoir le résultat entre 0
et 1
77Fonction de combinaison
- consiste à combiner les n voisins les plus
proches pour obtenir le résultat de la prédiction
souhaitée - exemple
- soit une liste de clients ayant déjà répondu à
une offre commerciale (par oui ou non) - l'utilisateur métier estime que les critères les
plus déterminants sont le sexe, l'âge et le
salaire net du dernier semestre
78(No Transcript)
79- soit un nouveau client une femme de 45 ans
ayant un revenu de 100000 Francs - cette cliente sera-t-elle intéressée par l'offre
? - La fonction de distance est définie ainsi
- il s'agit d'une femme, donc la distance par
rapport aux clients connus sera de 1 avec les
hommes et de 0 avec les femmes - A ce chiffre, on ajoute la distance normalisée du
salaire et de l'âge - Tableau des distances
- Les voisins les plus proches sont dans l'ordre
D C B E A
80- Utilisons maintenant la fonction de combinaison
- nombre de voisins retenus ?
- Si 3 voisins, réponse favorable avec une
probabilité (plutôt espérance) de 66 - possible également de donner un poids à chaque
contribution - Ex 1er voisin a un poids de 3, 2ème poids de 2,
3ème un poids de 1 - Possible de pondérer chaque variable utilisée
dans la fonction de distance
81Quelques remarques
- Complexité en fonction de la taille de la base de
cas - Technique d'optimisation
- ajout d'expertise pour guider la recherche vers
les critères les plus pertinents - Exemple utilisation d'un arbre de décision
- D'où principe
- Collecte des données
- Nombre d'exemples lié au nombre de variables et
de valeurs par variable - Recherche des facteurs pertinents
- Par mots clés (mc)
- dist(x,y)1-(nombre_mc_commun(x,y)/ nombre_mc(x
ou y) - Hiérarchisation de concepts
- Indexation des données (plus proche voisin)
82Conclusion
- Les points forts
- produit des résultats explicites
- s'applique à tout type de données
- capable de travailler sur de nombreux champs
- facile à mettre en œuvre et à comprendre
- Les points faibles
- nécessite un grand volume de données pour être
performant - très dépendant des fonctions de distance et de
combinaison
83Détection automatique de clusters
- méthode de découverte de connaissances non
dirigée (ou apprentissage sans supervision) - ne nécessite aucun apprentissage
- principe regrouper les éléments par similarités
successives - deux grandes catégories
- la méthode des K-moyennes et les méthodes par
agglomération. - objectif procéder à une classification du type
regroupement par similitude - un groupe appelé cluster
- utilisation classique clusteriser une
population puis étude - prévoir une fonction de distance qui mesure
l'écart entre deux enregistrements
84K means
- permet de découper une population en K clusters
- K défini par l'utilisateur
- principe de fonctionnement
- on positionne les K premiers points (ou noyaux)
au hasard - Chaque enregistrement est affecté au noyau le
plus proche - A la fin de la première affectation, calcul de la
valeur moyenne de chaque cluster - Le noyau prend cette nouvelle valeur
- répététition jusqu'à stabilisation des clusters
85Exemple
- Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 -
44 - 40 - 38 - 20 - 57 - Ex K3
- Les 3 noyaux les trois premières valeurs
- distance différence / (amplitude maximum)
différence / 37)
noyau 1 (27) 27 - 33 - 22 - 28 - 38 - 20 noyau
2 (51) 51 - 45 - 44 - 40 noyau 3 (52) 52 - 57
86- calcul des centroïdes moyenne arithmétique du
cluster - soit 28 pour noyau 1, 45 pour noyau 2 et 54.5
pour noyau 3 - Ces valeurs positions des nouvelles noyaux
- Recommençons le processus par rapport à ces
valeurs
L'affectation donne la répartition suivante
noyau 1 (28) 27 - 33 - 22 - 28 - 20 Moyenne
26 noyau 2 (45) 45 - 44 - 40 - 38 Moyenne
41.75 noyau 3 (54.5) 51 - 52 - 57 Moyenne
53.33 En réitérant le processus, aucune
modification des affectations Les clusters sont
finalisés Cluster 1 27 - 33 - 22 - 28 - 20
Jeunes majeurs - Centroïde 26 Cluster 2 45 -
44 - 40 - 38 Quadragénaires - Centroïde
41.75 Cluster 3 51 - 52 - 57 Quinquagénaires
- Centroïde 53.33
87Classification hiérarchique ascendante
- Calcul des distances 2à 2
- Agglomération des plus proches vosins (inférieurs
à un seuil - Calcul des centroïdes
- On itère ..
88Exemple
89- seuil 10 (0.1) à chaque itération
- fixé aléatoirement en fonction du niveau de
regroupement souhaité par l'utilisateur. - ensemble des valeurs ordonné en ordre croissant
- valeurs ayant un seuil inférieur à 10, soit
- 0.03 (52-51), 0.03 (27-28), 0.03 (44-45),
- 0.05 (38-40), 0.05 (20-22)
Chaque cluster est représenté par son centroïde
(ici moyenne) 27.5 - 51.5 - 33 - 44.5 - 21 - 39 -
57
90- On recommence avec un seuil de 20
91Conclusion
- Les points forts
- Les résultats sont clairs
- plutôt facile à mettre en œuvre
- Pas grosse consommatrice de ressources
- application facile.
- Les points faibles
- difficile de trouver une bonne fonction de
distance - Certains clusters résultants peuvent être
difficiles à expliquer
92Les arbres de décision
- objectif classification et prédiction
- fonctionnement basé sur un
- enchaînement hiérarchique de
- règles en langage courant
- composé
- Dun nœud racine
- De questions
- De réponses qui conditionnent la question
suivante - De nœuds feuilles correspondant à un classement
- jeu de questions réponses itératif jusquà ce
arrivé à un nœud feuille - pour déterminer quelle variable affecter à chaque
nœud, application d'un algorithme sur chaque
paramètre et conservation du plus représentatif
pour un découpage
93Les Arbres de décisions
- Le modèle
- Utiliser la valeur des attributs pour subdiviser
lensemble dexemples en sous-ensembles de plus
en plus fins - Réitérer la démarche jusquà obtenir une classe
avec un nombre majoritaire de n-uplets
appartenant à la même classe - Arbre nœud racine S exemples
- Découpage successif par une séquence de décisions
- Résultat un ensemble de règles
- Règle si Xa et Yb et alors Classe 1
- Parcours de larbre (liste dattributs dont la
valeur détermine une classe dappartenance)
Les modèles du datamining
94Les Arbres de décisions
- Algorithme - Quinlan 1979
- Fabrication dun arbre minimal en recherchant à
chaque niveau le paramètre le plus discriminant
pour classifier un exemple - Þ chemin optimal pour une classification correcte
- 1. Sélection de lattribut le déterminant à
chaque nœud - Développement des branches pour chacune des
valeurs de lattribut - 2. si tout élément dune branche appartient à la
même classe - alors la feuille est étiquetée avec la classe
- sinon retour en 2.
- 3. si toutes les feuilles sont étiquetées ou plus
dattributs - alors fin
- sinon retour en 1.
Les modèles du datamining
95Amélioration C4.5
- Utilisation de la notion dentropie pour le choix
de lattribut à chaque étape - Limiter le développement de larbre ( élagage )
- Force gt Fréq. Classe / Fréq. Totale gt seuil
- Statistiques pour mesurer lindépendance dun
attribut /classe (Chi 2)
96Les Arbres de décisions
- Traitements des infos bruitées ou corrompues
- 2 classes mais plus dattributs pour subdiviser
- étiquetage par la classe majoritaire ou
probabilité - test statistique pour mesurer lindépendance
entre attribut et classe - Traitements des valeurs manquantes
- Valeur majoritaire (renforce lentropie)
- Ignorer lexemple
- Probabilité sur chacune des branches
Les modèles du datamining
97Les Arbres de décisions
- Principes de calculs
- Algorithme de détermination de variable
significative - Diminution du désordre apparent dans les données
- Cas de descripteur qualitatif
- Probabilité dappartenance
- ex grand-moyen-petit - sur 100 observations
- 20 ont la valeur grand - 20
- Mesure de lincertitude (désordre) théorème de
Shannon - - S Pi log2(Pi)
- avec Pi dappartenance à la catégorie
- Algorithme issus du Chi 2 qui permet de vérifier
la conformité dun phénomène aléatoire à une loi
de probabilité posée en hypothèse (algorithme de
CHAID)
Les modèles du datamining
98Les Arbres de décisions
- Principes de calculs
- Cas des attributs à valeur (oui, non)
- métrique de Hamming
- Hd Nbre de non coïncidences entre deux
attributs - pseudo-métrique de Hamming
- (facteur de la mesure du désordre)
- Pm Min ((nbre ex - Hd), Hd)
Les modèles du datamining
99Les Arbres de décisions
Exemple dapplication de la distance de Hamming
Oui
Non
Arbre obtenu après 2 itérations
Les modèles du datamining
100Les Arbres de décisions
- Principes de calculs
- Cas de descripteur quantitatif
- Méthode de grappe
- partition sur la médiane pour deux classes, en
déciles pour plusieurs classes - pas de garantie pour obtenir un seuil optimal de
découpage mais la méthode est rapide -
- Méthode exhaustive
- méthode qui détermine le seuil optimal de
découpage de la variable - parcours de toutes les valeurs numériques prises
par lattribut - calcul du pouvoir discriminant pour chaque
valeur, la valeur ayant le plus grand pouvoir
discriminant devient seuil
Les modèles du datamining
101Les Arbres de décisions
- Enjeux
- La détection de variables importantes
- (structuration du phénomène étudié et mise en
place de solutions correctrices) - La construction dun S.I.
- (repérage des variables déterminantes,
amélioration des règles dalimentation dun Data
Warehouse, affinement dun processus
dhistorisation) - Data Mining de masse (formalisme très simple)
Les modèles du datamining
102Les Arbres de décisions
- Résoudre 2 types de problèmes
- Segmentation dune population
- Affectation dune classe à un individu
- Domaines dapplication
- Etude de marketing (critères prépondérants dans
lachat) - Marketing direct (isoler les meilleurs critères
explicatifs) - Ventes (analyse des performances)
- SAV (détecter les causes de réclamation, les
défauts) - Contrôle de qualité (identifier les éléments du
processus) - Domaine médical...
Les modèles du datamining
103Les Arbres de décisions
- Avantages et limites
- Simplicité dutilisation
- Lisibilité du modèle règle Si ... alors ...
sinon - Pas adapté à un apprentissage incrémental (base
de test) - Taille de larbre
- un arbre touffu perd son pouvoir de
généralisation et de prédiction - importance de lutilisateur métier
- Perspectives intégrer ce type doutil à des
tableurs ou EIS
Les modèles du datamining
104Les Algorithmes Génétiques
- Définition
- Travaux récent 1975 (J. Holland)
- Système artificiel qui sappuie sur le principe
de sélection de Darwin et les méthodes de
combinaison de gènes de Mendel - Description de lévolution dune population
dindividus en réponse à leur environnement - Sélection survie du plus adapté
- Reproduction
- Mutation
Les modèles du datamining
105Principe
- Individus codés comme un ensemble de chromosomes
- Chaque chromosome a sa vie propre
- Travail sur une population nombreuse de solutions
potentielles toutes différentes - Élimination des plus faibles pour reproduire les
mieux adaptés - Individus les adaptés ont une forte chance
d'être sélectionnés et dexister à la génération
suivante - Reproduction par hybridation génétique des plus
forts - Donne des individus encore plus forts
- La mutation dun gène permet de conserver une
certaine diversité dans la population
106Remarque
- La population initiale cherche à peupler l'espace
des solutions - Succès dans les problèmes doptimisation (proche
des techniques de recherche opérationnelle) - Lapplication successive du processus de
sélection mutation permet datteindre une
solution optimale
Les modèles du datamining
107Codage
- Codage sous forme de 0 et 1 (codage du
chromosome) - ex 1Ancienneté de la cde 1 si lt 6 mois et
0 sinon - 2CA Annuel 1 si lt 1000 et 0 sinon
- variable numérique transformée en entier puis
en binaire
108Fonction d'évaluation
- Dépendante du problème
- Ex taux d'impayés constatés
- Permet de sélectionner le taux de reproduction à
la génération suivante - Taille de la population constante
- Tirage au hasard des candidats à la survie
- Biaisé ceux qui ont une fonction d'évaluation
importante
109Manipulation génétique
- Hybridation
- échange entre 2 chromosomes d'un "morceau"
- mutation
- changement de parité
- inversion
- inversion de 2 caractères successifs
110Les Algorithmes Génétiques
Population Initiale
Non
Tri des solutions sur la fonction dévaluation
Oui
Solution acceptable ?
Solution retenue
Sélection des individus à conserver
Nouvelle génération
Hybridation Mutation
Les modèles du datamining
111Exemple voyageur de commerce
Codage 8 villes donc 3 bits Ordre donne la
succession des villes traversées Fonction
d'évaluation Ville non visitée pénalité de
1000 Km distance entre 2 villes successives
1123 chromosomes F(1) 5400 F(2) 4700 F(3)
2700 Reproduction de 2 (1 fois) et de 3 (3 fois)
113Hybridation entre les chromosomes 3 et 4 échange
d'une portion de chaîne
114F(1) 2700 F(2) 4700 F(3) 3600 F(4) 3200
115Mutation du 1 changement de parité au hasard
F(0) 2200 On conserve 0, 1,4
116(No Transcript)
117Les Algorithmes Génétiques
- Domaines dapplication
- Domaine industriel
- problème doptimisation ou de contrôle de
processus complexes (ex optimisation de la T
dun four, de la pression dun cylindre) - Domaine spatial et géomarketing
- (ex optimisation de lemplacement dautomates
bancaires, optimisation dune campagne
daffichage) - Utiliser dautres techniques en complément
- (RN modifier le poids des liaisons, arbre de
décision en isolant les variables qui expliquent
un comportement)
Les modèles du datamining
118Les Algorithmes Génétiques
- Avantages et limites
- Capacité à découvrir lespace N Þ N3
- Limite du codage (formé de 0 et 1)
- complexe à mettre en place
- pb pour représenter la proximité de valeurs
numériques - Dosage des mutations pb des sous-optimums
locaux - réglage subtil entre le mouvement et la
stabilité - taux dhybridation Þ recombinaison des chaînes
mais risque de détruire de bonnes solutions - taux de mutation Þ espace de solutions avec
des risques daltération
Les modèles du datamining
119