Introduction au datamining - PowerPoint PPT Presentation

1 / 190
About This Presentation
Title:

Introduction au datamining

Description:

Introduction au datamining Syst me d information d cisionnel DESS ACSI et SID Anne Boyer Ann e universitaire 2004-2005 Plan Introduction 1.G n ralit s 2. – PowerPoint PPT presentation

Number of Views:452
Avg rating:3.0/5.0
Slides: 191
Provided by: nat54Fre
Category:

less

Transcript and Presenter's Notes

Title: Introduction au datamining


1
Introduction au datamining
  • Système dinformation décisionnel
  • DESS ACSI et SID
  • Anne Boyer
  • Année universitaire 2004-2005

2
Plan
  • Introduction
  • 1.Généralités
  • 2. Le processus de datamining
  • 3. Les modèles du datamining
  • 4. Exemples
  • 5. Critères pour le choix dun logiciel
  • Conclusion et perspectives

3
Environnement de l'entreprise
  • Accroissement de la concurrence
  • Individualisation des consommateurs
  • Brièveté du cycle de vie des produits
  • ? Anticiper le marché et pas seulement réagir
  • ? Cibler au mieux la clientèle pour répondre à
    ses attentes
  • ? Connaissance du métier, des schémas de
    comportement des clients et des fournisseurs

4
Un constat
  • La grande distribution a besoin d'apprendre à
    connaître se clients
  • Créer des relations privilégiées sur le modèle du
    commerce de quartier
  • Idéal du "1 à 1"
  • Apprendre à évaluer un client dans la durée
  • Déterminer lequel fidéliser par des attentions
    particulières et lequel laisser partir à la
    concurrence
  • Déplacement des centres d'intérêt des segments de
    marché vers les individus
  • Petit commerce
  • Observe un client, se souvient de ses préférences
  • Apprend des contacts passés comment améliorer le
    service futur

Introduction
5
Objectif
  • Faire la même chose avec une entreprise de grande
    taille
  • le client peut ne jamais entrer en contact avec
    un employé
  • le client voit chaque fois un employé différent
  • Exploiter les nombreuses traces enregistrées lors
    de l'observation du client (enregistrements
    transactionnels)

Introduction
6
Un potentiel
  • A disposition une masse importante de données
  • Explorer ses réservoirs de connaissances
  • Extraction de connaissances
  • Données provenant de nombreuses sources
  • À rassembler et à organiser selon un plan
    cohérent et exploitable
  • À analyser, comprendre et transformer en
    informations exploitables

Une solution le datamining
7
Intérêt du DM
  • "Trop de données tue linformation"
  • seuls 15 des données stockées sont analysées
  • 150 dinfo disponibles chaque année
  • Objectif favoriser la prise de décision en
    exploitant les tonnes dinformation disponibles
  • modéliser pour prédire
  • faciliter la décision mais ne prend pas de
    décision
  • améliorer la réactivité dune entreprise / marché
  • Défi améliorer la productivité / volume
    exponentiel de données
  • Extrapoler le passé pour prédire lavenir

Introduction
8
Découverte de connaissances dans les bases de
données
  • Intérêt scientifique
  • Processus daide à la décision où les
    utilisateurs cherchent des modèles
    dinterprétation dans les données
  • Extraction dinformations auparavant inconnues et
    potentiellement utiles à partir des données
    disponibles
  • Intérêt économique
  • Amélioration de la qualité des produits et des
    services
  • Passage dun marketing de masse à un marketing
    individualisé
  • Fidélisation des clients
  • Favoriser la différentiation stratégique de
    lentreprise

Introduction
9
Datamining
  • Ensemble des outils permettant d'accéder et
    d'analyser les données de l'entreprise
  • moyens destinés à détecter les associations entre
    des données contenues dans dimportantes bases de
    données
  • Outil qui facilite la mise en évidence de modèles
    ou de règles à partir de lobservation des
    données
  • Démarche ayant pour objet de découvrir des
    relations et des faits à la fois nouveaux et
    significatifs sur de grands ensembles de données
  • Un élément de la transformation de données en
    connaissances

Introduction
10
Datamining
  • Restriction aux outils permettant de générer des
    infos riches, de découvrir des modèles implicites
    à partir de données historiques
  • Pertinence et intérêt conditionnées par les
    enjeux de l'entreprise

Idées et techniques provenant des statistiques,
de la RO, de l'IA, de l'administration de bases
de données, du marketing
11
Connaissance versus donnée
  • Données ? Connaissances
  • Donnée description dun exemple ou dun
    événement spécifique dont lexactitude peut être
    vérifiée par rapport au monde réel
  • ex les achats dun client sur son ticket de
    caisse
  • Connaissance ensemble de relations entre les
    données
  • Règles, Tendances, Associations, Exceptions,
  • Décrit une catégorie abstraite pouvant couvrir
    plusieurs exemples
  • Ex les bons et les mauvais clients
  • Connaissances ? synthèse des informations (DM)

Introduction
12
DM versus autres solutions
  • Outils relationnels et OLAP
  • Initiative à l'utilisateur
  • DM
  • Initiative au système
  • Pas nécessaire de poser d'hypothèses
  • Interprétation par un expert
  • Nécessité d'un outil ergonomique rendant
    transparentes les techniques utilisées

13
Datamining et Décisionnel une solution
  • Archivage de données crée la mémoire d'entreprise
  • Datamining crée l'intelligence de l'entreprise
  • Analyse prédictive de comportement
  • Généralisation prédictive communauté
  • Automatisation de certaines phases de lanalyse
  • Rendre les utilisateurs moins dépendants des
    spécialistes de lanalyse de données
  • Intégrer les résultats du DM dans linformatique
  • ou les procédures de lentreprise

Introduction
14
Etat des lieux
  • Les algorithmes existent (depuis des années voire
    des décennies)
  • Les données sont produites
  • Nécessité de grands volumes pour l'apprentissage
  • Les données sont archivées
  • La puissance de calcul nécessaire est disponible
    et financièrement abordable
  • Le contexte est ultra concurrentiels
  • Motivation commerciale
  • Des produits commerciaux pour le DM existent

Introduction
15
Contexte ultra concurrentiel
  • Renforcement du rôle des informations dans la
    concurrence
  • Économie de plus en plus tournée vers les
    services
  • Vente de voitures ou de solutions de transports ?
  • Compagnies aériennes en concurrence par les
    services offerts
  • Apparition de la personnalisation massive
  • Levi-Strauss et ses jeans personnalisés
  • Peugeot et la voiture à la demande
  • Individual et la revue de presse qui s'améliore
    avec le temps
  • Importance croissante de l'information comme
    produit
  • Courtiers en information
  • IMS
  • Journal de l'IOWA

Introduction
16
Domaines d'application
  • Grande distribution, vente par correspondance ou
    commerce électronique
  • Banques, assurance
  • Transports et voyagistes
  • Télécommunications, eau et énergie
  • Aéronautiques, automobiles, industrie
  • Laboratoires pharmaceutiques

? Retours sur investissement
Introduction
17
Exemples
  • La police américaine
  • Poseur de bombe d'Oklahoma City (par ex)
  • DM pour filtrer les milliers de rapports soumis
    par les agents du FBI
  • Le département du Trésor américain pour traquer
    les formes suspectes dans les transferts de fonds
    internationaux
  • Les impôts américains (acheteurs d'outils de DM)
  • Les supermarchés
  • Collecte d'infos par le biais de la carte de
    fidélité
  • Utilisation de la carte pour payer ou obtenir des
    "points"
  • déterminer l'agencement des rayons,
  • Vente aux marques pour les bons de réduction à
    adresser à 1 client

Introduction
18
Exemples
  • La banque (les premiers)
  • les cartes de crédit
  • Aux USA, prédire les changements de cille (et de
    banque ?)
  • La vente croisée
  • Assurance USAA
  • Compagnie d'investissement Fidelity
  • Marketing direct guidé par l'analyse de
    comportement
  • Portrait robot du client fidèle
  • Routage des réclamations en période de garantie
  • Fabricant de moteurs diesel
  • Fidélisation des bons clients
  • Compagnie du gaz de Californie du sud à la fin du
    monopole
  • Eliminer les mauvais clients

Introduction
19
Plan
  • Introduction
  • 1.Généralités
  • 2. Le processus de datamining
  • 3. Les modèles du datamining
  • 4. Exemples
  • 5. Critères pour le choix dun logiciel
  • Conclusion et perspectives

20
Exemple d'une grande banque
  • Constat
  • Perte de clients supérieure aux nouveaux clients
  • Nouveaux clients rapportent moins que les clients
    partis
  • ? les meilleurs clients s'en vont
  • Objectif augmenter la rentabilité globale
  • Garder les parts de marché
  • Trouver de nouveaux clients (à faible coût)

21
Solutions
  • Relever les taux d'épargne, diminuer les taux
    d'emprunt,
  • Inutile pour les clients fidèles
  • Attraction des clients volages
  • solution chère
  • Suppression de services non rentables
  • Mais si ce sont ceux qui fidélisent la clientèle
    ?
  • Comprendre les clients et appliquer le modèle
    trouvé
  • Utiliser les données disponibles
  • Les transformer en informations exploitables

22
Le problème
  • Départ de clients rentables affecte le résultat
    financier
  • Comment identifier les clients pouvant partir ?
  • Enquête auprès d'anciens clients
  • Échantillon représentatif ? Coopératif ?
  • Réponses honnêtes ? Une ou plusieurs raisons ?
  • Analyse des infos sur les anciens clients et
    comparaison avec les clients restants
  • Détermination de clusters
  • Transformation des résultats de l'analyse en
    action
  • Mesure des résultats

23
Les grandes étapes
  • Identifier l'opportunité commerciale
  • Ex planification d'actions marketing,
    établissement de prix de produits ou de services,
    définition des cibles marketing, explication de
    pertes de clientèles,
  • La longueur d'attente aux caisses est elle une
    raison probable de la perte de clients ?
  • Transformer les données concrètes en informations
    permettant des actions
  • collectes
  • Utilisation des techniques du DM
  • Agir
  • Mesurer les résultats

24
Les tâches du DM
  • Classification (affectation à une classe
    prédéfinie)
  • Estimation
  • Prédiction
  • Groupement par similitudes
  • Analyse des clusters (détermination de classes)
  • Description

25
Classification
  • La classification consiste à examiner des
    caractéristiques dun élément nouvellement
    présenté afin de laffecter à une classe dun
    ensemble prédéfini.  BERRY97
  • Objectif affecter des individus à des classes
  • classes discrètes homme / femme, oui / non, ...
  •  exemple de techniques appropriées
  • Ä  les arbres de décision

26
Estimation
  • permet
  • obtenir une variable continue en combinant les
    données en entrée
  • procéder aux classifications grâce à un "barème"
  • Exemple estimer le revenu dun ménage selon
    divers critères
  • ensuite possible de définir des tranches de
    revenus pour classifier les individus
  • intérêt
  • pouvoir ordonner les résultats pour ne retenir si
    on le désire que les n meilleures valeurs
  • facile de mesurer la position dun élément estimé
    dans sa classe
  • particulièrement important pour les cas
    limitrophes
  • exemple de techniques appropriées
  • les réseaux de neurones

27
Prédiction
  • ressemble à la classification et à lestimation
    mais dans une échelle temporelle différente
  • sappuie sur le passé et le présent mais son
    résultat se situe dans un futur généralement
    précisé
  • meilleure méthode pour mesurer la qualité de la
    prédiction attendre !
  • exemple de techniques appropriées Lanalyse du
    panier de la ménagère
  • Les arbres de décision
  • les réseaux de neurones

28
Regroupement par similitudes
  • consiste à grouper les éléments qui vont
    naturellement ensembles
  • exemple de techniques appropriées
  • Lanalyse du panier de la ménagère

29
Clusterisation
  • segmenter une population hétérogène en
    sous-populations homogènes
  • Contrairement à la classification, les sous
    populations ne sont pas préétablies
  • exemple de techniques appropriées
  • Les K means

30
Description
  • décrire les données dune base complexe
  • engendre souvent une exploitation supplémentaire
    en vue de fournir des explications
  • exemple de techniques appropriées
  • Lanalyse du panier de la ménagère

31
  • La classification
  • Déterminer le grade en fonction du sexe, de
    l'âge, l'ancienneté, le salaire et les
    affectations
  • Déterminer le sexe en fonction de l'âge,
    l'ancienneté, le salaire et les affectations
  • Lestimation se fait sur des variables continues
  • Estimer l'âge en fonction du grade, sexe,
    ancienneté et affectations
  • le salaire en fonction de l'âge, sexe,
    ancienneté et affectations
  • La prédiction
  • quelle sera la prochaine affectation d'un
    militaire

32
  • Le regroupement par similitudes
  • déterminer des règles de type le militaire qui
    est sergent entre 25 et 30 ans sera lieutenant
    colonel entre 45 et 50 ans (fiabilité de n )
  • La segmentation
  • segmenter les militaires en fonction de leurs
    suivi de la carrière et affectations
  • La description
  • indicateurs statistiques traditionnels âge
    moyen, femmes, salaire moyen

33
Deux démarches
  • Test d'hypothèses
  • Générer une idée
  • Déterminer les données permettant de la tester
  • Localiser les données
  • Préparer les données pour l'analyse
  • Construire les modèles informatiques sur la base
    de données
  • Évaluer les modèles informatiques
  • La découverte de connaissances
  • Dirigée (expliquer une relation) ou non
    (reconnaître une relation)

34
Plan
  • Introduction
  • 1.Généralités
  • 2. Le processus de datamining
  • 3. Les modèles du datamining
  • 4. Exemples
  • 5. Critères pour le choix dun logiciel
  • Conclusion et perspectives

35
Gestion des connaissances
Statistiques et datamining
Compréhension du domaine
Utilisation de la connaissance
Identification de relations
Enrichissement des variables
Qualification des données
Sélection des données
Introduction
36
Les étapes du processusKnowledge Discovery
  • Phase 1 Poser le problème
  • Phase 2 La recherche des données
  • Phase 3 La sélection des données pertinentes
  • Phase 4 Le nettoyage des données
  • Phase 5 Les actions sur les variables
  • Phase 6 La recherche du modèle
  • Phase 7 Lévaluation du résultat
  • Phase 8 Lintégration de la connaissance
    extraite

Le processus de datamining
37
(1) Poser le problème
  • Quel est le problème ?
  • Formulation du problème
  • Recherche des objectifs et recueil de la
    connaissance existante
  • Typologie du problème recherche des objectifs
  • Explication dun phénomène précis ? ou approche
    exploratoire ?
  • Influence sur les modèles ou techniques à
    utiliser
  • Résultat attendu et moyens mis en œuvre pour le
    mesurer
  • Exploitation des résultats (impacts sur
    lorganisation)
  • Individus concernés

Le processus de datamining
38
(2) Recherche des données
  • Quelles données extraire ? Identifier les
    variables
  • Rendre le processus de découverte performant et
    efficace
  • Réduction des dimensions
  • Trop de variables nuit à la capacité de
    généralisation
  • Ratio Nombres dexemplaires / Nombre de
    variables

trop peu dexemples
Le processus de datamining
39
(2) Recherche des données
  • Sélection des variables
  • Fournies par les experts (explication dun
    phénomène précis)
  • Recherche des facteurs déterminants par des
    techniques danalyse (méthode de régression,
    réseaux neuronaux...)
  • DM à lintérieur du DM
  • Mise en évidence
  • des associations triviales entre les données
  • de la sémantique, des regroupements de valeurs
  • des valeurs de seuil
  • des valeurs aberrantes
  • Eliminer les résultats triviaux et améliorer la
    prédiction

Le processus de datamining
40
(3) Sélection des données pertinentes
  • Comment extraire ces données ?
  • Réaliser un plan dextraction des données
  • Constituer un fichier à plat
  • Identifier les applications ou systèmes concernés
  • Phase importante
  • ou - facilitée par lexistence dentrepôts de
    données
  • Certaines études nécessitent un plan de collecte
    (étude qualitative, interception de données
    transitoires)
  • Avenir flux continu de données depuis les
    systèmes transactionnels et traitement immédiat
    du processus de DM

Le processus de datamining
41
(3) Sélection des données pertinentes
  • Exhaustivité ou non des données ?
  • Echantillon ?
  • Dépend des modèles utilisés
  • Fonction des objectifs de létude (Phase 1)
  • Equilibre entre les différentes classes
    dindividus à appréhender
  • Stratification si une faible population a des
    enjeux forts
  • Pondérations des individus

Le processus de datamining
42
(4) Nettoyage des données
  • La qualité des données extraites ?
  • Identifier
  • les valeurs aberrantes (histogramme, ctrl de
    cohérence à la saisie des données, outils de
    visualisation graphique)
  • Quantifier
  • les valeurs manquantes (exclusion des
    enregistrements incomplets, remplacement par une
    valeur)
  • les valeurs nulles

Le processus de datamining
43
(4) Nettoyage des données
  • Prévenir de la non-qualité des données
  • Intégration de bruit équilibrer la proportion
    des données erronées par rapport à lensemble
    extrait
  • Utiliser les modèles adaptés en fonction du
    diagnostic processus dapprentissage flous,
    introduction de probabilité
  • Revoir le processus d'extraction ou la saisie des
    données dans les systèmes initiaux

Le processus de datamining
44
(5) Actions sur les variables
  • Quelles transformations opérées sur les données ?
  • Transformer les données en fonction de la nature
    des données extraites et des modèles qui seront
    utilisés
  • Exemple de transformation mono-variable
  • Modification de lunité de mesure (normalisation,
    log())
  • cas de données numériques
  • Transformation des dates en durée
  • Modification des données géographiques
    (géocodage)
  • Création de taxonomie de concepts

Le processus de datamining
45
(5) Actions sur les variables
  • Exemple de transformation multi-variables
  • Construction dagrégats de variables
  • Ratios (degré dimplication)
  • Fréquences (mesurer la répétitivité)
  • Tendances (évolution des échanges dans le temps -
    équations linéaires ou non)
  • Combinaisons linéaires (construction
    dindicateurs)
  • Combinaisons non linéaires

Le processus de datamining
46
(6) Recherche du modèle
  • Quel modèle découvrir ?
  • Quel type de techniques ?
  • Supervisé (interactivité, connaissance des
    algorithmes)
  • Non supervisé (automatisé)
  • Fonction des phases précédentes (qualité des
    données, objectif,)
  • Algorithme de calcul ? pouvoir prédictif du
    modèle
  • Utilisation des méthodes statistiques nouveaux
    outils de type inductif, Bayésiens, neuronaux

Le processus de datamining
47
(6) Recherche du modèle
  • Pour la recherche du modèle
  • 2 bases de travail
  • base dapprentissage (80 de la population)
  • pour la découverte dun modèle
  • base de test (20 de la population)
  • pour évaluer le modèle découvert

Le processus de datamining
48
(7) Évaluation du résultat
  • Évaluation qualitative
  • Restitution de la connaissance sous forme
    graphique
  • ou sous une forme interprétable
  • Évaluation quantitative
  • Notion dintervalle de confiance (indicateurs
    pour la pertinence des règles, seuil de confiance
    et intervalle de confiance fonction de la taille
    de léchantillon)
  • Validation par le test (base de test)
  • matrice de confusion / éclairage métier

Le processus de datamining
49
(7) Évaluation du résultat
  • Évaluation quantitative - Matrice de confusion

Achats constatés
Oui
Non
Total
Oui
270
160
430
Achats Prédits
Non
30
540
570
Total
300
700
1000
Qualité globale du modèle 270 540 / 1000
(81) Forte capacité des non-acheteurs 540 /
570 (94) Acheteurs 270/430 (63) 160
prospects à contacter
Le processus de datamining
50
(8) Intégration de la connaissance
  • Conversion de la connaissance découverte en
    décision action
  • Implanter le modèle ou ses résultats dans les
    systèmes informatiques ou dans le processus de
    lentreprise
  • Bilan des étapes précédentes
  • faible qualité des données collectées
  • Þ revoir le processus dalimentation du data
    warehouse
  • détection dune donnée de fort pouvoir prédictif
  • Þ modification de la BD
  • agrégats construits constituant des dimension
    intéressantes
  • Þ extension des tableaux de bord
  • connaissance extraite en contradiction avec la
    connaissance existante
  • Þ mesure de communication

Le processus de datamining
51
Processus dextraction - Conclusion
  • Rôle primordial des utilisateurs et des experts
  • Sémantique donnée aux données (méta-données)
  • Orientation du processus dextraction
  • Valider ou infirmer les conclusions
  • Logiciels de DM orientés recherche de modèle
  • Une partie du processus
  • Tendance intégration de fonctions daide à tous
    les stades du processus
  • Après le processus la diffusion et
    lintégration de la connaissance

Le processus de datamining
52
Plan
  • Introduction
  • 1.Généralités
  • 2. Le processus de datamining
  • 3. Les modèles du datamining
  • 4. Exemples
  • 5. Critères pour le choix dun logiciel
  • Conclusion et perspectives

53
Data Mining Cocktail de techniques
  • Évolution des techniques de statistique apports
    des SGBD, de lIA et de lapprentissage
    automatique
  • Mélange de plusieurs disciplines

ML
SGBD
Représentation de la Connaissance
Les modèles du datamining
54
Data Mining Utilisateur ou Statisticien
  • Logiciel Presse-Bouton
  • (apprentissage automatique non supervisé)
  • Interaction avec lutilisateur au niveau de
    lapprentissage (paramètre) ou pendant la
    recherche du modèle
  • Logiciel basé sur des techniques statistiques
    experts requis
  • Þ les outils de DM intègrent des tests
    statistiques et des algorithmes de choix des
    meilleures techniques de modélisation en fonction
    des caractéristiques du cas

Les modèles du datamining
55
Data Mining Lisibilité ou Puissance
  • Compromis entre clarté du modèle et pouvoir
    prédictif

Les modèles du datamining
56
Quelques techniques
  • Associations
  • Raisonnement à partir de cas
  • K means
  • Arbres de décision
  • Réseaux neuronaux
  • Algorithmes génétiques
  • Réseaux Bayésiens

Les modèles du datamining
57
Recherche d'associations ou analyse du panier de
la ménagère
  • processus de découverte de connaissances non
    dirigée
  • étudier quels articles ont tendance à être
    achetés ensemble
  • issue du secteur de la distribution
  • applicable dès que plusieurs actions faites par
    un même individu
  • utilisée pour découvrir des règles d'association
  • but principal descriptif
  • prédictive car résultats éventuellement situés
    dans le temps
  • souvent départ d'une analyse
  • règles claires et explicites pour l'utilisateur
    métier
  • ensuite mise en œuvre d'un processus de test
    d'hypothèses ou de découverte dirigée

58
Les Associations
  • Construire un modèle basé sur des règles
    conditionnelles à partir dun fichier de données
  • Le modèle
  • Règles de la forme
  • Si prédicat(x) et prédicat(y) alors prédicat(z)
  • Pondération par une probabilité ou par une
    métrique de confiance
  • Éventuellement situées dans le temps
  • "Si action1 ou condition à l'instant t1 alors
    action2 à l'instant t2"
  • Exemples de règles
  • Si achat de riz et de vin blanc, alors achat de
    poisson (84)
  • Si achat de téléviseur alors achat de
    magnétoscope dans les 5 ans (45)
  • Si présence et travail alors réussite à l'examen
    (99,9)

Les modèles du datamining
59
Les Associations
  • Les domaines
  • Analyse des tickets de caisse
  • (mise en relation entre n produits, relation de
    comportement de produits)
  • Analyse des séquences dachats
  • détection dassociation de ventes pour un même
    client
  • Þ dimension temporelle et notion dantériorité
  • Les enjeux
  • optimisation des stocks, merchandising, ventes
    croisées (bon de réduction, promotion)

Les modèles du datamining
60
Les Associations
  • Principes de construction dune association
  • transaction Û ticket de caisse
  • une transaction T contient le détail des articles
    ou de leur famille
  • chaque article est une variable binaire
  • une association est une implication de la forme X
    Y
  • avec X et Y Î T et X ÇY Æ
  • deux indicateurs pour apprécier une association
  • niveau de confiance Card(X Y) / Card(X)
  • niveau de support Card(X Y) / Card(X ou Y)
  • extraire les associations pertinentes

Les modèles du datamining
61
Les Associations
Les modèles du datamining
62
Les Associations
Les modèles du datamining
63
Les Associations
  • Domaines dapplication
  • Analyse dachats dans la grande distribution
  • Analyse des mouvements bancaires, des incidents
    dans les assurances
  • Limites de lapproche
  • article code à barres une famille 100
    références
  • volume de données (100 000 réf. élémentaires)
  • Þ hiérarchie de concepts
  • niveau élémentaire pour confirmer limpact de
    marque X sur les ventes de Y
  • Þ vérifier les associations sur des concepts de
    haut niveau

Les modèles du datamining
64
Mise en oeuvre
  • LA TAXINOMIE
  • Un supermarché gère environ 100 000 références
    différentes
  • analyse sur tous les articles tableau de 10
    milliards de cellules pour des associations de
    deux articles !
  • des espaces disques importants (en téra-octets)
  • des temps de traitements en conséquence
  • aujourd'hui pas très raisonnable
  • Solution la taxinomie
  • regrouper les articles, les généraliser sous un
    même terme générique, une même rubrique
  • Exemple le terme chocolat regroupe les
    chocolats noirs, au lait, de différentes marques,
    aux noisettes, allégés,

65
Mise en oeuvre
  • LES ARTICLES VIRTUELS
  • fréquent de rajouter des articles virtuels
  • pour améliorer la performance du système
  • pour représenter des informations transversales
  • pour regrouper les articles d'une autre manière
    que la taxinomie
  • Exemple produits allégés, marque que l'on
    trouve dans plusieurs rubriques
  • pour donner des indications supplémentaires sur
    la transaction
  • donnée temporelle (jour de la semaine, heure,
    mois, saison, ), mode de paiement, météo,
  • si possible des données sur le client
    (satisfaction, type d'habitat, catégorie
    socioprofessionnelle, âge, statut matrimonial, )
  • pour fournir des règles du type
  • "si printemps et jardin alors achat de gants de
    jardinage"

66
Mise en oeuvre
  • LES REGLES DE DISSOCIATION
  • analogue à une règle d'association mais fait
    apparaître la notion de "non"
  • dans une entreprise, 5 produits (A,B,C,D,E)
  • Si un client prend les produits A,B et D, alors
    il générera la transaction A,B,non C,D et non E
  • Ce procédé génère des règles comme
  • "si achat du produit A et du produit C alors non
    achat du produit E".
  • inconvénient majeur fournit des règles où tout
    est nié
  • "si non A et non B alors non C"
  • connaissances générées peu exploitables

67
Mise en oeuvre
  • Le LES SERIES TEMPORELLES
  • L'analyse du panier de la ménagère
  • Objectif faire de la description et non de la
    prévision
  • outil non optimal pour étudier les séries
    temporelles
  • contrainte avoir une information de temps et
    une clé d'identification de l'objet
    (principalement le client)
  • difficulté transformer les données en
    transactions
  • Plusieurs possibilités offertes
  • Ajouter à chaque article la notion de temps
    avant, après, en même temps
  • Créer des fenêtres temporelles regrouper toutes
    les transactions effectuées dans un même
    intervalle de temps par un même individu
  • permet de dégager des profils, surtout associée à
    des articles virtuels

68
Mise en oeuvre
  • plusieurs indicateurs complémentaires pour
    évaluer
  • La fréquence
  • règle vraie pour deux clients sur cinq
    fréquence 40  
  • Le niveau (ou taux) de confiance
  • mesure de la probabilité dans la sous population
    concernée par la condition de la règle (fréquence
    sur une sous population)
  • Ex règle "si achat de jus d'orange, alors achat
    d'eau minérale"
  • la population ayant acheté du jus d'orange (ex
    4 individus)
  • le nombre de fois où la règle est respectée (ex
    2)
  • La proportion obtenue (ici 2 sur 4, soit 50 )
    niveau de confiance
  • permet de mesurer la force de l'association
  • Prudence n'intègre pas la notion d'effectif 
  • Ex Si achat de lait, alors achat de nettoyant
    vitres 
  • effectif 1 individu très relatif malgré un très
    bon taux de confiance !

69
  •  LE NIVEAU DE SUPPORT
  • nombre de fois où l'association est respectée,
    ramenée au nombre de fois où l'un des articles
    est présent
  • permet de mesurer la fréquence de l'association.
  • Le taux d'amélioration
  • permet de mesurer la pertinence de l'association
  • Que vaut une règle si son taux de confiance est
    inférieur à la fréquence du résultat sans
    condition ?
  • ex règle "si achat d'eau minérale, alors achat
    de jus d'orange"
  • règle vraie pour 2 clients sur 3 qui ont acheté
    de l'eau
  • taux de confiance pour l'achat du jus d'orange
    dans ces conditions de 2/3
  • Or 4 clients sur 5 achètent du jus d'orange, soit
    80 !
  • règle inintéressante à exploiter car ajout de
    condition pour un taux moins bon
  • Pour mesurer l'amélioration apportée par la
    règle, on divise le taux de confiance par la
    fréquence de l'événement
  • ici 0.66 / 0.80 83
  • Si le résultat est supérieur à 1, la règle
    apporte une amélioration sur le résultat
  • sinon renoncer à l'exploiter

70
Conclusion
  • points forts de l'analyse du panier de la
    ménagère
  • résultats clairs et explicites
  • adaptée à l'exploitation non dirigée des données
  • traite des données de taille variable
  • La technique et les calculs simples à comprendre
  • points faibles de l'analyse du panier de la
    ménagère
  • Le volume de calculs croît au carré ou au cube du
    volume de données
  • prend mal en compte les articles rares
  • difficile de déterminer le bon nombre d'articles
  • les attributs des articles (détails et quantités)
    souvent ignorés

71
Conclusion
  • technique s'appliquant aux problèmes
  • d'exploitation des données non dirigée
  • contenant des articles bien définis, qui se
    regroupent entre eux de manière intéressante
  • souvent analyse préalable
  • car elle génère des règles susceptibles de
    soulever des interrogations ou des idées
  • débouchera sur d'autres analyses plus fines
    test d'hypothèse ou découverte de connaissance
    dirigée pour expliquer un phénomène révélé

72
Le raisonnement à partir de cas
  • technique de découverte de connaissances dirigée
  • utilisée dans un but de classification et de
    prédiction
  • bien adapté aux bases de données relationnelles
  • mise en œuvre simple
  • équivalence de l'expérience chez l'homme
  • processus identification des cas similaires
    puis application de l'information provenant de
    ces cas au problème actuel
  • principe on présente un nouvel enregistrement,
    il trouve les voisins les plus proches et
    positionne ce nouvel élément
  • s'applique à tous les types de données.
  • pour estimer des éléments manquants, détecter des
    fraudes, prédire l'intérêt d'un client pour une
    offre, classifier les réponses en texte libre

73
ventes de voitures Renault ventilées en fonction
de l'âge et du nombre d'enfants de l'acheteur
74
(No Transcript)
75
  • La consultation du graphique
  • des zones bien nettes
  • permettant de déterminer, pour un nouveau client
    dont on connaît l'âge et le nombre d'enfants, le
    modèle susceptible de l'intéresser.
  • trois nouveaux clients
  • La notion de distance est la distance métrique
  • conseil au client 1 une Espace, au 2 une Clio, au
    3 une Safrane

76
Fonction de distance
  • Pour les données numériques
  • La valeur absolue de la différence A-B
  • Le carré de la différence (A-B)²
  • La valeur absolue normalisée A-B /
    (différence maximale)
  • avantage se trouve toujours entre 0 et 1,
    supprime les problèmes d'échelles
  • libre de créer sa propre fonction.
  • Pour les autres types de données
  • à l'utilisateur de définir sa propre fonction de
    distance
  • Exemple
  • pour comparer le sexe d'un individu, valeur 1
    s'ils sont de sexe différent ou la valeur 0 s'ils
    sont identiques
  • pour des communes, pourquoi ne pas prendre la
    distance entre elles ou affecter une codification
    en fonction du type (urbaine, périurbaine,
    rurale) ou de la région
  • toujours préférable d'avoir le résultat entre 0
    et 1

77
Fonction de combinaison
  • consiste à combiner les n voisins les plus
    proches pour obtenir le résultat de la prédiction
    souhaitée
  • exemple
  • soit une liste de clients ayant déjà répondu à
    une offre commerciale (par oui ou non)
  • l'utilisateur métier estime que les critères les
    plus déterminants sont le sexe, l'âge et le
    salaire net du dernier semestre

78
(No Transcript)
79
  • soit un nouveau client une femme de 45 ans
    ayant un revenu de 100000 Francs
  • cette cliente sera-t-elle intéressée par l'offre
    ?
  •  La fonction de distance est définie ainsi
  • il s'agit d'une femme, donc la distance par
    rapport aux clients connus sera de 1 avec les
    hommes et de 0 avec les femmes
  • A ce chiffre, on ajoute la distance normalisée du
    salaire et de l'âge
  • Tableau des distances
  • Les voisins les plus proches sont dans l'ordre
    D C B E A

80
  • Utilisons maintenant la fonction de combinaison
  • nombre de voisins retenus ?
  • Si 3 voisins, réponse favorable avec une
    probabilité (plutôt espérance) de 66
  • possible également de donner un poids à chaque
    contribution
  • Ex 1er voisin a un poids de 3, 2ème poids de 2,
    3ème un poids de 1
  • Possible de pondérer chaque variable utilisée
    dans la fonction de distance

81
Quelques remarques
  • Complexité en fonction de la taille de la base de
    cas
  • Technique d'optimisation
  • ajout d'expertise pour guider la recherche vers
    les critères les plus pertinents
  • Exemple utilisation d'un arbre de décision
  • D'où principe
  • Collecte des données
  • Nombre d'exemples lié au nombre de variables et
    de valeurs par variable
  • Recherche des facteurs pertinents
  • Par mots clés (mc)
  • dist(x,y)1-(nombre_mc_commun(x,y)/ nombre_mc(x
    ou y)
  • Hiérarchisation de concepts
  • Indexation des données (plus proche voisin)

82
Conclusion
  • Les points forts
  • produit des résultats explicites
  • s'applique à tout type de données
  • capable de travailler sur de nombreux champs
  • facile à mettre en œuvre et à comprendre
  • Les points faibles
  • nécessite un grand volume de données pour être
    performant
  • très dépendant des fonctions de distance et de
    combinaison

83
Détection automatique de clusters
  • méthode de découverte de connaissances non
    dirigée (ou apprentissage sans supervision)
  • ne nécessite aucun apprentissage
  • principe regrouper les éléments par similarités
    successives
  • deux grandes catégories
  • la méthode des K-moyennes et les méthodes par
    agglomération.
  • objectif procéder à une classification du type
    regroupement par similitude
  • un groupe appelé cluster
  • utilisation classique clusteriser une
    population puis étude
  • prévoir une fonction de distance qui mesure
    l'écart entre deux enregistrements

84
K means
  • permet de découper une population en K clusters
  • K défini par l'utilisateur
  • principe de fonctionnement
  • on positionne les K premiers points (ou noyaux)
    au hasard
  • Chaque enregistrement est affecté au noyau le
    plus proche
  • A la fin de la première affectation, calcul de la
    valeur moyenne de chaque cluster
  • Le noyau prend cette nouvelle valeur
  • répététition jusqu'à stabilisation des clusters

85
Exemple
  • Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 -
    44 - 40 - 38 - 20 - 57
  • Ex K3
  • Les 3 noyaux les trois premières valeurs
  • distance différence / (amplitude maximum)
    différence / 37)

noyau 1 (27) 27 - 33 - 22 - 28 - 38 - 20 noyau
2 (51) 51 - 45 - 44 - 40 noyau 3 (52) 52 - 57
86
  • calcul des centroïdes moyenne arithmétique du
    cluster
  • soit 28 pour noyau 1, 45 pour noyau 2 et 54.5
    pour noyau 3
  • Ces valeurs positions des nouvelles noyaux
  • Recommençons le processus par rapport à ces
    valeurs

L'affectation donne la répartition suivante
noyau 1 (28) 27 - 33 - 22 - 28 - 20 Moyenne
26 noyau 2 (45) 45 - 44 - 40 - 38 Moyenne
41.75 noyau 3 (54.5) 51 - 52 - 57 Moyenne
53.33   En réitérant le processus, aucune
modification des affectations Les clusters sont
finalisés Cluster 1 27 - 33 - 22 - 28 - 20
Jeunes majeurs - Centroïde 26 Cluster 2 45 -
44 - 40 - 38 Quadragénaires - Centroïde
41.75 Cluster 3 51 - 52 - 57 Quinquagénaires
- Centroïde 53.33
87
Classification hiérarchique ascendante
  • Calcul des distances 2à 2
  • Agglomération des plus proches vosins (inférieurs
    à un seuil
  • Calcul des centroïdes
  • On itère ..

88
Exemple
89
  • seuil 10 (0.1) à chaque itération
  • fixé aléatoirement en fonction du niveau de
    regroupement souhaité par l'utilisateur.
  • ensemble des valeurs ordonné en ordre croissant
  • valeurs ayant un seuil inférieur à 10, soit
  • 0.03 (52-51), 0.03 (27-28), 0.03 (44-45),
  • 0.05 (38-40), 0.05 (20-22)

Chaque cluster est représenté par son centroïde
(ici moyenne) 27.5 - 51.5 - 33 - 44.5 - 21 - 39 -
57
90
  • On recommence avec un seuil de 20

91
Conclusion
  • Les points forts
  • Les résultats sont clairs
  • plutôt facile à mettre en œuvre
  • Pas grosse consommatrice de ressources
  • application facile.
  • Les points faibles
  • difficile de trouver une bonne fonction de
    distance
  • Certains clusters résultants peuvent être
    difficiles à expliquer

92
Les arbres de décision
  • objectif classification et prédiction
  • fonctionnement basé sur un
  • enchaînement hiérarchique de
  • règles en langage courant
  • composé
  • Dun nœud racine
  • De questions
  • De réponses qui conditionnent la question
    suivante
  • De nœuds feuilles correspondant à un classement
  • jeu de questions réponses itératif jusquà ce
    arrivé à un nœud feuille
  • pour déterminer quelle variable affecter à chaque
    nœud, application d'un algorithme sur chaque
    paramètre et conservation du plus représentatif
    pour un découpage

93
Les Arbres de décisions
  • Le modèle
  • Utiliser la valeur des attributs pour subdiviser
    lensemble dexemples en sous-ensembles de plus
    en plus fins
  • Réitérer la démarche jusquà obtenir une classe
    avec un nombre majoritaire de n-uplets
    appartenant à la même classe
  • Arbre nœud racine S exemples
  • Découpage successif par une séquence de décisions
  • Résultat un ensemble de règles
  • Règle si Xa et Yb et alors Classe 1
  • Parcours de larbre (liste dattributs dont la
    valeur détermine une classe dappartenance)

Les modèles du datamining
94
Les Arbres de décisions
  • Algorithme - Quinlan 1979
  • Fabrication dun arbre minimal en recherchant à
    chaque niveau le paramètre le plus discriminant
    pour classifier un exemple
  • Þ chemin optimal pour une classification correcte
  • 1. Sélection de lattribut le déterminant à
    chaque nœud
  • Développement des branches pour chacune des
    valeurs de lattribut
  • 2. si tout élément dune branche appartient à la
    même classe
  • alors la feuille est étiquetée avec la classe
  • sinon retour en 2.
  • 3. si toutes les feuilles sont étiquetées ou plus
    dattributs
  • alors fin
  • sinon retour en 1.

Les modèles du datamining
95
Amélioration C4.5
  • Utilisation de la notion dentropie pour le choix
    de lattribut à chaque étape
  • Limiter le développement de larbre ( élagage )
  • Force gt Fréq. Classe / Fréq. Totale gt seuil
  • Statistiques pour mesurer lindépendance dun
    attribut /classe (Chi 2)

96
Les Arbres de décisions
  • Traitements des infos bruitées ou corrompues
  • 2 classes mais plus dattributs pour subdiviser
  • étiquetage par la classe majoritaire ou
    probabilité
  • test statistique pour mesurer lindépendance
    entre attribut et classe
  • Traitements des valeurs manquantes
  • Valeur majoritaire (renforce lentropie)
  • Ignorer lexemple
  • Probabilité sur chacune des branches

Les modèles du datamining
97
Les Arbres de décisions
  • Principes de calculs
  • Algorithme de détermination de variable
    significative
  • Diminution du désordre apparent dans les données
  • Cas de descripteur qualitatif
  • Probabilité dappartenance
  • ex grand-moyen-petit - sur 100 observations
  • 20 ont la valeur  grand  - 20
  • Mesure de lincertitude (désordre) théorème de
    Shannon
  • - S Pi log2(Pi)
  • avec Pi dappartenance à la catégorie
  • Algorithme issus du Chi 2 qui permet de vérifier
    la conformité dun phénomène aléatoire à une loi
    de probabilité posée en hypothèse (algorithme de
    CHAID)

Les modèles du datamining
98
Les Arbres de décisions
  • Principes de calculs
  • Cas des attributs à valeur (oui, non)
  • métrique de Hamming
  • Hd Nbre de non coïncidences entre deux
    attributs
  • pseudo-métrique de Hamming
  • (facteur de la mesure du désordre)
  • Pm Min ((nbre ex - Hd), Hd)

Les modèles du datamining
99
Les Arbres de décisions
Exemple dapplication de la distance de Hamming
Oui
Non
Arbre obtenu après 2 itérations
Les modèles du datamining
100
Les Arbres de décisions
  • Principes de calculs
  • Cas de descripteur quantitatif
  • Méthode de grappe
  • partition sur la médiane pour deux classes, en
    déciles pour plusieurs classes
  • pas de garantie pour obtenir un seuil optimal de
    découpage mais la méthode est rapide
  • Méthode exhaustive
  • méthode qui détermine le seuil optimal de
    découpage de la variable
  • parcours de toutes les valeurs numériques prises
    par lattribut
  • calcul du pouvoir discriminant pour chaque
    valeur, la valeur ayant le plus grand pouvoir
    discriminant devient seuil

Les modèles du datamining
101
Les Arbres de décisions
  • Enjeux
  • La détection de variables importantes
  • (structuration du phénomène étudié et mise en
    place de solutions correctrices)
  • La construction dun S.I.
  • (repérage des variables déterminantes,
    amélioration des règles dalimentation dun Data
    Warehouse, affinement dun processus
    dhistorisation)
  • Data Mining de masse (formalisme très simple)

Les modèles du datamining
102
Les Arbres de décisions
  • Résoudre 2 types de problèmes
  • Segmentation dune population
  • Affectation dune classe à un individu
  • Domaines dapplication
  • Etude de marketing (critères prépondérants dans
    lachat)
  • Marketing direct (isoler les meilleurs critères
    explicatifs)
  • Ventes (analyse des performances)
  • SAV (détecter les causes de réclamation, les
    défauts)
  • Contrôle de qualité (identifier les éléments du
    processus)
  • Domaine médical...

Les modèles du datamining
103
Les Arbres de décisions
  • Avantages et limites
  • Simplicité dutilisation
  • Lisibilité du modèle règle Si ... alors ...
    sinon
  • Pas adapté à un apprentissage incrémental (base
    de test)
  • Taille de larbre
  • un arbre  touffu  perd son pouvoir de
    généralisation et de prédiction
  • importance de lutilisateur métier
  • Perspectives intégrer ce type doutil à des
    tableurs ou EIS

Les modèles du datamining
104
Les Algorithmes Génétiques
  • Définition
  • Travaux récent 1975 (J. Holland)
  • Système artificiel qui sappuie sur le principe
    de sélection de Darwin et les méthodes de
    combinaison de gènes de Mendel
  • Description de lévolution dune population
    dindividus en réponse à leur environnement
  • Sélection survie du plus adapté
  • Reproduction
  • Mutation

Les modèles du datamining
105
Principe
  • Individus codés comme un ensemble de chromosomes
  • Chaque chromosome a sa vie propre
  • Travail sur une population nombreuse de solutions
    potentielles toutes différentes
  • Élimination des plus faibles pour reproduire les
    mieux adaptés
  • Individus les adaptés ont une forte chance
    d'être sélectionnés et dexister à la génération
    suivante
  • Reproduction par hybridation génétique des plus
    forts
  • Donne des individus encore plus forts
  • La mutation dun gène permet de conserver une
    certaine diversité dans la population

106
Remarque
  • La population initiale cherche à peupler l'espace
    des solutions
  • Succès dans les problèmes doptimisation (proche
    des techniques de recherche opérationnelle)
  • Lapplication successive du processus de
    sélection mutation permet datteindre une
    solution optimale

Les modèles du datamining
107
Codage
  • Codage sous forme de 0 et 1 (codage du
    chromosome)
  • ex 1Ancienneté de la cde 1 si lt 6 mois et
    0 sinon
  • 2CA Annuel 1 si lt 1000 et 0 sinon
  • variable numérique transformée en entier puis
    en binaire

108
Fonction d'évaluation
  • Dépendante du problème
  • Ex taux d'impayés constatés
  • Permet de sélectionner le taux de reproduction à
    la génération suivante
  • Taille de la population constante
  • Tirage au hasard des candidats à la survie
  • Biaisé ceux qui ont une fonction d'évaluation
    importante

109
Manipulation génétique
  • Hybridation
  • échange entre 2 chromosomes d'un "morceau"
  • mutation
  • changement de parité
  • inversion
  • inversion de 2 caractères successifs

110
Les Algorithmes Génétiques
  • Principes

Population Initiale
Non
Tri des solutions sur la fonction dévaluation
Oui
Solution acceptable ?
Solution retenue
Sélection des individus à conserver
Nouvelle génération
Hybridation Mutation
Les modèles du datamining
111
Exemple voyageur de commerce
Codage 8 villes donc 3 bits Ordre donne la
succession des villes traversées Fonction
d'évaluation Ville non visitée pénalité de
1000 Km distance entre 2 villes successives
112
3 chromosomes F(1) 5400 F(2) 4700 F(3)
2700 Reproduction de 2 (1 fois) et de 3 (3 fois)
113
Hybridation entre les chromosomes 3 et 4 échange
d'une portion de chaîne
114
F(1) 2700 F(2) 4700 F(3) 3600 F(4) 3200
115
Mutation du 1 changement de parité au hasard
F(0) 2200 On conserve 0, 1,4
116
(No Transcript)
117
Les Algorithmes Génétiques
  • Domaines dapplication
  • Domaine industriel
  • problème doptimisation ou de contrôle de
    processus complexes (ex optimisation de la T
    dun four, de la pression dun cylindre)
  • Domaine spatial et géomarketing
  • (ex optimisation de lemplacement dautomates
    bancaires, optimisation dune campagne
    daffichage)
  • Utiliser dautres techniques en complément
  • (RN modifier le poids des liaisons, arbre de
    décision en isolant les variables qui expliquent
    un comportement)

Les modèles du datamining
118
Les Algorithmes Génétiques
  • Avantages et limites
  • Capacité à découvrir lespace N Þ N3
  • Limite du codage (formé de 0 et 1)
  • complexe à mettre en place
  • pb pour représenter la proximité de valeurs
    numériques
  • Dosage des mutations pb des sous-optimums
    locaux
  • réglage subtil entre le mouvement et la
    stabilité
  • taux dhybridation Þ recombinaison des chaînes
    mais risque de détruire de bonnes solutions
  • taux de mutation Þ espace de solutions avec
    des risques daltération

Les modèles du datamining
119
Write a Comment
User Comments (0)
About PowerShow.com