Le forage de donn - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Le forage de donn

Description:

Le forage de donn es ou data mining Customer information Time Customers – PowerPoint PPT presentation

Number of Views:35
Avg rating:3.0/5.0
Slides: 15
Provided by: Nicola160
Category:

less

Transcript and Presenter's Notes

Title: Le forage de donn


1
Le forage de données ou data mining
Customer information
Time
Customers
2
Définition de lexploitation des données (data
mining)
Lexploration et lanalyse de grandes quantités
de données afin de découvrir des formes et des
règles significatives en utilisant des moyens
automatiques ou semi-automatiques.
3
Le data mining est utilisé
  • par plusieurs entreprises
  • pour mieux connaître leur clientèle et accroître
    les profits
  • Quel client restera fidèle et qui partira?
  • Quels produits proposés à quels clients?
  • Quest-ce qui détermine si une personne répondra
    à une offre donnée?
  • Quel est le prochain produit ou service quun
    client particulier désirera?
  • pour mieux gérer
  • la distribution
  • la production
  • les ressources humaines

4
Lexploitation des données devenue une réalité
industrielle
  • Les techniques dexploitation des données
    existent depuis des années.
  • Lutilisation de ces techniques dans lindustrie
    est cependant beaucoup plus récente parce que
  • Les données sont produites,
  • Les données sont archivées,
  • La puissance de calcul nécessaire est abordable,
  • Le contexte est ultra-concurrentiel,
  • Des produits commerciaux pour lexploitation des
    données sont devenus disponibles.

5
Entreprises courtiers en informations (données
)
  • IMS
  • AC Nielson
  • Equifax
  • Info Canada
  • Statistique Canada
  • ICOM

6
  • Data Mining nouveauté ou marketing?
  • Modèles prédictifs
  • Analyse discriminante
  • Régression logistique
  • Autres méthodes de régression
  • Arbres de régression (CHAID,CART,)
  • Réseaux Neuronneaux (Neural networks)
  • Segmentation traditionnelle
  • Domaines de recherche

7
Principales méthodes multivariées utilisées pour
la modélisation
  • Technique Date
  • 1- Régression multiple 1888
  • 2- Analyse discriminante 1936
  • 3- Régression logistique 1944,1955
  • 4- Modèles log-lineaires 1968
  • 5- CHAID (arbres de rég.) 1980

8
Data Mining nouveauté ou marketing?
  • Nouveauté logiciels informatiques.
  • 2 méthodes ont moins de dix ans
  • Réseaux neuronneaux
  • M.A.R.S.
  • Les deux principales méthodes utilisées dans la
    majorité des industries existent depuis plus de
    vingt ans.

9
Première étape accès et qualité de linformation
disponible
  • Avant de pouvoir parler de data mining, on doit
    avoir une base de données structurée.
  • Accès à linformation
  • données manquantes
  • données aberrantes

10
Accès à linformation
  • Il existe plusieurs types de structure de bases
    de données
  • flat file
  • Toute linformation du client est contenue dans
    un même ficher qui peut être de longueur variable
  • Relationelle
  • Linformation du client est contenu dans
    plusieurs fichiers unis par une clé commune,
    par exemple le numéro du client

11
Données manquantes
  • Certaines information qui sont nécessaire pour
    comprendre la clientèle sont manquantes.
  • Ex âge
  • Que faire ?

12
Données manquantes solutions possibles
  • Remplacement par la moyenne
  • Calculer la moyenne de la variable qui nous
    intéresse parmis les enregistrements qui ont une
    valeur. Cette valeur sera ensuite attribuée à
    tous les enregistrements où la valeur est
    manquante
  • Avantages rapide et facile dexécution
  • Désavantages imprécis et perte de la variabilité
    dans les données

13
Données manquantes solutions possibles
  • Remplacement aléatoire
  • Pour chacune des valeurs manquantes, ont
    attribuera au hasard une des valeurs parmis
    lensemble des valeurs des enregistrements
    non-manquants
  • Avantages Permet de garder la variabilité dans
    les données et la moyenne de la population
  • Désavantages plus complexe à implanter et la
    valeur imputée pour chacun des clients nest pas
    plus précise que le remplacement par la moyenne.

14
Données manquantes solutions possibles
  • Utilisation de la régression
  • On utilise la régression pour obtenir un estimé
    de la valeur possible en utilisant les données
    des enregistrement complets et de toutes
    linformation disponible.
  • Avantages méthode la plus précise (meilleure)
  • Désavantages pas toujours possible (variables
    explicatives) et la plus complexe à implanter.
Write a Comment
User Comments (0)
About PowerShow.com