Chapitre 1 : - PowerPoint PPT Presentation

About This Presentation
Title:

Chapitre 1 :

Description:

Title: Segmentation Portefeuilles Author: Mayot Last modified by: Laetitia Nguyen Trong Created Date: 1/24/2005 3:05:23 PM Document presentation format – PowerPoint PPT presentation

Number of Views:84
Avg rating:3.0/5.0
Slides: 104
Provided by: Mayo107
Category:
Tags: chapitre

less

Transcript and Presenter's Notes

Title: Chapitre 1 :


1
Chapitre 1
Le Système dinformation décisionnel SID

2
Enjeux des entreprises
  • Objectifs stratégiques
  • Améliorer les performances décisionnelles de
    lentreprise.
  • Identifier les tendances du marché.
  • Connaître le passé pour anticiper sur le futur.
  • Simuler des situations.
  • Augmenter le rendement des actions commerciales.
  • Augmenter les services fournis.
  • Fidéliser sa clientèle.
  • Transformer les données du si en informations
    cohérentes et de qualités.
  • Meilleure connaissance de son activité.
  • Disposer dun pilotage fiable.
  • Réaliser des analyses.
  • Présenter des statistiques.
  • Forer les informations.

3
Enjeux des entreprises
  • Comment ?
  • En répondant aux demandes danalyse des
    décideurs.
  • Réponses correctes et rapides
  • Exemple
  • Clientèle Qui sont mes clients ? Comment les
    conserver , les fidéliser ou les faire revenir ?
    Qui sont mes meilleurs clients depuis 5 ans.
  • Marketing comment améliorer le ciblage de mes
    actions commerciales ? Ou placer ce produit dans
    les rayons.
  • Simuler les risques

4
Enjeux des entreprises
  • Défi
  • Transformer leur système dinformation qui avait
    une vocation de production à un SI décisionnel
    dont la vocation de pilotage devient majeure
  • Évoluer dun SI production à un SI production
    un SI décisionnel.
  • ( Si système dinformation ).

5
Problématique
  • Une grande masse de donnée
  • Éparpillées
  • Volatiles
  • Incohérentes
  • Pas ou peu de données externes.
  • Pour une utilisation par
  • Décideur
  • Pilotage par agrégats , investigations, analyses
    transversales
  • Gestionnaire
  • Préparation de décision, simulation
  • Opérationnel
  • Accès à linformation élémentaires, requêtes
    adhoc
  • ? utilisation par des NON INFORMATICIENS

6
Problématique
  • Utilisation par des NON INFORMATICIENS
  • Informations fiables et documentées.
  • Accès à linformation via des outils conviviaux
    et intuitifs.
  • Des temps de réponses acceptables.

7
Métiers du décisionnel
  • SPM Strategic performance management.
  • Déterminer et controler les indicateurs clé de la
    performance de lentreprise.
  • FI Finance intelligence.
  • Planifier, analyser et diffuser linformation
    financière.
  • Mesurer et gérer les risques.
  • CRM Customer relationship management.
  • Améliorer la connaissance client. Identifier et
    prévoir la rentabilité client.
  • Accroître lefficacité du marketing client.
  • SRM Supplier relationship management.
  • Classifier et évaluer lensemble des
    fournisseurs.
  • Planifier et piloter la stratégie Achat.

8
la solution Le sid
  • L information courante et passée devient vitale
    pour l entreprise.
  • Toutes les données utiles , qu elles
    proviennent du système de production de
    lentreprise ou quelles soient achetées vont
    devoir être
  • Organisées dans un ensemble cohérent.
  • Intégrées.
  • Stockées.
  • ? Pour constituer la mémoire de lentreprise.
  • Modèle dintégration
  • ? Pour donner à lutilisateur une vue intégrée et
    orientée métier de ces informations.

9
la solution le data warehouse
  • Le système dinformation décisionnel
  • est un système dinformation dédié aux
    applications décisionnelles
  • En aval des bases de production ( des bases
    opérationnelles )
  • En amont des prises de décision
  • ? sid data warehouse

10
chapitre 2
  • Définitions et objectifs du data warehouse.

11
Lentrepot de données data warehouse
  • Définition de Bill Inmon (1996)
  • Le data warehouse est une collection de données
    orientées sujet, intégrées, non volatiles et
    historisées, organisées pour le support dun
    processus daide à la décision.
  • Définition utilisateur
  • Un ensemble de données organisées spécifiquement
    et utilisées pour laide à la décision.
  • Une transformation et une représentation
    intelligente des données en informations.
  • Un pole dinformations détaillées,
    fiables,historisées et facilement accessible et
    compréhensible.

12
Lentrepot de données data warehouse
  • Des données aux informations
  • Exemple
  • Le profil client à partir des données
  • - Emprunts
  • - Épargne
  • - Carte de crédit

13
Les notions fondamentales
  • Les données du data warehouse sont
  • Orientées sujet.
  • Intégrées.
  • Non volatiles.
  • Agrégées en fonction du temps.
  • Documentées.
  • ? Mémoire de lentreprise

14
orientées sujets
  • Disposer de lensemble des informations utiles
    sur un sujet le plus souvent transversal aux
    structures fonctionnelles et organisationnelles
    de lentreprise.
  • Le data warehouse est organisé autour des sujets
    majeurs de lentreprise.
  • Client contrat contrôle de gestion salariés
    ..ect
  • Structuration par thème.
  • A noter les données des différents sujets
    seront intégrées dans un modèle de données
    unique.

15
Données intégrées
  • Divers sources de données.
  • A noter possibilité de source externe.
  • Il faut les collecter.
  • Elles ne sont pas structurées à lidentique.
  • Il faut les filtrer, les transformer,les
    contrôler,les synchroniser.
  • Chaque donnée doit avoir
  • une seule définition.
  • Un seul codage.
  • Pas de redondance dans le modèle de donnée
  • un attribut unique
  • ? Afin de garantir
  • Qualité de la donnée.
  • Cohérence des résultats.

16
Données non volatiles
  • Ne pas supprimer les données du DW.
  • Les données sont datées.
  • Pas dannule et remplace.
  • Historique
  • On conserve les données détaillées avec un
    historique de plusieurs années
  • Objectif analyser les tendances.
  • La nouvelle valeur dune donnée fait passer
    lancienne en historique
  • Objectif analyser à périmètre fonctionnel
    stable.
  • ?il faudra choisir les données à historiser.

17
données agrégées en fonction du temps
  • Les données sont historisées pour suivre leurs
    évolutions.
  • Les données récentes
  • sont disponibles en ligne.
  • Sont détaillées au niveau le plus fin.
  • Concernent des utilisateurs experts et peu
    nombreux.
  • Les données anciennes
  • Ne sont plus disponibles en ligne au niveau
    détail le plus fin, mais néanmoins archivées.
  • Sont disponibles en lignes consolidées, agrégées.
  • Concernent la plupart des utilisateurs.

18
données documentées les metadonnées
  • Les métadonnées ou dictionnaire des données
  • Description technique des processus.
  • Collecte source et transformation des données.
  • Description technique des données.
  • Description utilisateurs des données.
  • Sémantique des données.
  • Règle de gestion.
  • Localisation.
  • Les métadonnées sont mises à disposition dans un
    ou des référentiels.

19
données documentées les metadonnées
  • Pour chaque colonne de chaque table
  • Lorigine ( en production ).
  • Lévolution processus de transformation.
  • Lhistorique date des changements.
  • La signification.
  • Ce référentiel sert
  • Aux processus dalimentation.
  • Aux utilisateurs.

20
Sio / sid des objectifs différents
SIOpérationnel SIDécisionnel
Activité au quotidien Analyse et aide à la décision
Orienté mise à jour Lecture uniquement
Requêtes simples Requêtes évoluées
Faible volume manipulé (par transaction ) Gros volume manipulé ( par requêtes )
Consommation maîtrisée Consommation aléatoire
Temps de réponse en seconde Temps de réponse en minutes ou heures

Critique stratégique
21
Chapitre 3
Architecture du data warehouse
22
Systèmes intermédiaires
  • L exploitation informationnelle des données de
    production est antérieure à lapparition du sid.
  • Mise a disposition des décideurs, de données
    assimilées à des informations de pilotage via des
    systèmes intermédiaires
  • Tableaux de bord opérationnels à partir du sio.
  • Outils de requêtes sur les données du sio.
  • Outils de requêtes sur des données dédiées et
    copiées à partir du sio.
  • Outils de requêtes sur des données dédiées,
    organisées à partir des données du sio
  • ? ne sont pas un sid.

23
Systèmes intermédiaires
  • Tableaux de bord opérationnels à partir du sio.
  • L application de production ne dispose que de
    ses propres données et n offre pas de vision
    informationnelle adaptée au périmètre du domaine
    danalyse.
  • Toute nouvelle requête informationnelle
  • Maintenance difficile, voir sur la structure des
    données.
  • Délai dattente prohibitifs.

24
Systèmes intermédiaires
  • outils de requêtes sur les données du sio.
  • Données hétérogènes et incohérentes.
  • Données non préparées à lanalyse décisionnelle.
  • Dépendance aux contraintes de la production.
  • Temps de réponse élevés.
  • ? correspond à un outil de présentation adossé
    aux données de production.

25
Systèmes intermédiaires
  • Outils de requêtes sur des données dédiées et
    copiées à partir du sio.
  • Avantage
  • Données séparées entre les bases de production et
    les bases danalyse.
  • Inconvénients
  • Données hétérogènes et incohérentes.
  • Données non intégrées , non unifiées, non
    documentées
  • Difficulté décriture des requêtes.
  • ? correspond à une organisation de type
    infocentre.

26
Systèmes intermédiaires
  • Outils de requêtes sur des données dédiées et
    partiellement organisées.
  • Avantages
  • Données séparées entre les bases de production et
    les bases danalyse.
  • Bribes de modèle de données unifiées et
    organisées pour une analyse métier.
  • Inconvénients
  • Pas de modèle de donnée complet.
  • Pas ou peu de transformation des données.
  • Pas ou peu de documentation.
  • Difficulté décriture des requêtes.
  • ? correspond à une organisation de type
    infocentre évolué.

27
architecture de référence du sid
  • Nécessite deux dispositifs distincts
  • Entrepôt ou data warehouse
  • Stockage des informations en un point unique.
  • Magasin de données ou Datamart
  • Stockage des données nécessaires à lanalyse dun
    thème (sujet ).
  • Un entrepôt unique.
  • N Datamart suivant les thèmes à analyser.

28
architecture de référence du sid
Données de production
sci
Entrepôt de données
sdp
datamart
datamart

datamart
Outils de présentation
Utilisateurs finaux
29
architecture de référence du sid
  • Deux dispositifs distincts
  • 1. Le système de collecte et dintégration
  • La Fonction de collecte assure l
    approvisionnement des données du sid à partir des
    données de production.
  • La Fonction dintégration des données assure la
    cohérence globale et le stockage en un point
    unique.
  • ? stocke les données dans lentrepôt de données.

30
architecture de référence du sid
  • Deux dispositifs distincts
  • 2. Le système de diffusion et de présentation
  • La Fonction de diffusion met à disposition des
    applications décisionnelles les données sous une
    forme dimensionnelle.
  • ? stocke les données orientées sujet dans un
    magasin de données.
  • La Fonction de présentation gère laccès de
    lutilisateur final aux données stockées sous
    forme dimensionnelle.
  • ? puise les données dans les magasins de données
    ( datamart ).
  • Fonction assurée par les outils de présentation.

31
lentrepôt de données
  • Mémoire de lentreprise.
  • Stockage des données en un point unique.
  • Données unifiées et documentées.
  • Modèle conceptuel de données classique
  • Type entité/association.
  • Normalisé en 3éme forme normale.

32
lentrepôt de données
  • Partie la plus complexe et difficile du sid.
  • En autres
  • Capture des données sans impacter le sio.
  • Mode dalimentation globale.
  • Mode dalimentation incrémentale.
  • Modèle conceptuel évolutif. (gestion du temps)
  • Volumétrie très importantes.
  • Charge de recette importantes.
  • Contrôle qualité des données avant chargement.
  • Temps de chargement.
  • Documentation
  • Procédure de reprise des données
  • .

33
datamart
  • Base de données thématique
  • Stocke les données nécessaires à lanalyse du
    sujet.
  • Modéliser lactivité que lon souhaite analyser.
  • Modélisation sous forme multidimensionnelle.
  • Modèle en étoile.
  • Modèle en Flocon.
  • Cube multidimensionnel.
  • Orienté utilisateur finale
  • Compréhensible par lutilisateur.
  • Temps de réponse acceptable.

34
Architecture du sid
  • Dans un sid
  • Un entrepôt de données unique.
  • Un ensemble de datamart par sujet à traiter.

35
Chapitre 4
  • Construction du data warehouse

36
le système de Collecte et dintégration le
sci
  • Objectif alimenter le socle sur lequel repose
    le sid
  • Socle entrepôt de données.
  • L entrepôt de données est la base de données
    unique pour toutes les applications du système de
    diffusion et de présentation.
  • Le système sci
  • La partie du sid la plus complexe.
  • Nombre de traitement important et lourd.
  • Prototypage de la solution finale difficile.
  • Ne doit pas perturber le système de production.
  • Architecture propre à chaque entreprise.

37
le système de Collecte et dintégration le
sci
  • Fonctions
  • Extrait, transforme, unifie et charge les données
    à partir des sites de production.
  • Génération des niveaux dagrégation.
  • Génération des règles de correspondance des méta
    données.
  • Génération des fichiers daudit.
  • Technologie utilisée
  • Code manuel.
  • Outils d extraction automatique ETL
  • Etl extract transformation loading

38
le système de Collecte et dintégration sci
  • Conception
  • Pour chaque table de l entrepôt
  • Création de lidentifiant
  • Les identifiants sont propres à lentrepôt.
  • Pour chaque donnée de la table
  • Recherche de la ou les données source dans le
    sio.
  • Définition des règles de transformation.
  • Définition des règles dagrégation.
  • Définition de la périodicité de rafraîchissement.
  • Définition des règles et mode de contrôle des
    données avant intégration dans lentrepôt de
    données.

39
le système de Collecte et dintégration sci
  • Architecture technique
  • Choix du mode de capture des données.
  • Localisation des traitements
  • Machine sio et/ou machine sid
  • Procédure de contrôle des données.
  • Procédure de réfection des données.

40
le système de Collecte et dintégration sci
  • Solution de collecte via un ods
  • Ods opérationnel data store
  • Les applications de production  déversent  les
    données nécessaires au data warehouse dans un
    ensemble de fichiers normalisés.
  • Lods sera la source de lalimentation de
    lentrepôt de données.
  • ? permet une indépendance entre le monde de la
    production et le monde du décisionnel.
  • ? simplifie la synchronisation des données entre
    les applications de production.

41
le système de présentation
  • Le sdp est un ensemble dapplications destiné à
    répondre aux demandes dinformation des
    utilisateurs
  • États prédéfinis.
  • Requêtes paramétrables.
  • Requêtes adhoc ( non connues à lavance).
  • Manipulation main libre.
  • Simulation.
  • Recherche de connaissance (corrélation des
    données data mining)
  • Alertes.
  • Applications verticales.

42
la modélisation dimensionnelle
  • Les Datamarts se modélisent sous forme
    multidimensionnelle
  • Contient les informations destinées à répondre
    aux requêtes des utilisateurs.
  • objectifs datamart
  • Accessibilité des informations
  • Facile à comprendre, donc facile à utiliser.
  • Informations cohérentes
  • Une seule réponse possible.(un seul chemin sql)
  • Incomplétude signalée.
  • Temps de réponse acceptable.

43
la modélisation dimensionnelle
  • Différentes formes de modélisation.
  • Modèle en étoile.
  • Modèle en flocon.
  • Cube multidimensionnelle olap

44
Modèle en étoile
  • Datamart analyse des frais de déplacement des
    commerciaux par région et véhicule

Dimension employé
Dimension véhicule
Clé_employé Nom Prénom fonction
Clé_véhicule Immatricula Puissance Marque
Table de Faits
0,N
0,N
Clé_employé Clé_région Clé_véhicule Clé_mois Frai
_deplac Kilométrage
Dimension région
Dimension mois
0,N
Clé_région Région pays
Clé_mois Mois Trimestre Semestre annéé
0,N
45
Modèle en étoile
  • Une association unique et des entités.
  • La Table de fait Association unique.
  • Contient les faits ( mesure , indicateur ). Une
    information déterminée par la combinaison de deux
    ou plusieurs entités.
  • Les Tables entités les Dimensions.
  • Contiennent les conditions caractéristique d
    une entité susceptible dintervenir comme critère
    de définition dune requête.

46
Modèle en étoile
  • Les questions
  • Quels ont été les frais de déplacement et le
    kilométrage des commerciaux de la région pays de
    la loire ayant des véhicules de 12 à 14 cv en
    juillet 1996.
  • La liste des noms des commerciaux de la région
    pays de la loire ayant des véhicules de 12 à 14
    cv avec, pour chacun, les frais de déplacement,
    le kilométrage, et la marque de véhicule pour
    juillet 1996.
  • La liste des régions avec, pour chacune, les
    frais de déplacements de lannée en cours.
  • La liste des véhicules ayant parcouru plus de 50
    000 km cette année.

47
Modèle en étoile
  • hiérarchies
  • Exemple Département,région,pays
  • Représente pour lutilisateur des chemins de
    consolidations dindicateurs.
  • Sont stockées dans les dimensions.
  • Résister à une normalisation sous forme entité
    association.
  • Modèle en flocon.
  • Une dimension peut comporter plusieurs
    hiérarchies.

48
Modèle en étoile
  • le grain
  • Le grain dune dimension est le niveau de
    sélection le plus fin possible de cette
    dimension.
  • Le grain dun datamart est le niveau de détail
    pouvant être obtenu par la requête la plus
    sélective et la plus fine possible mettant en jeu
    toutes les dimensions.

49
Modèle en étoile
  • Propriété d additivité des faits
  • Fait additif.
  • Additionnable suivant toutes les dimensions.
  • Fait semi-additif.
  • Additionnable seulement suivant certaines
    dimensions.
  • Fait non additif.
  • Non additionnable quelque soit la dimension.

50
Modèle en étoile
  • Les règles de base
  • Règle 1 il ne doit pas y avoir de dépendance
    fonctionnelle entre deux entités appartenant à
    des dimensions différentes.
  • Règle 2 Tous les faits doit etre définis dune
    maniére cohérente pour toutes les combinaisons
    dimensionnelles.
  • Règle 3 Tous les faits doivent etre définis
    pour le grain.
  • Règle 4 le graphe de chaque dimension doit être
    acyclique.

51
Modèle en flocon
  • Datamart analyse des frais de déplacement des
    commerciaux par région et véhicule

Dimension employé
Dimension véhicule
fonction
marque
Clé_employé Nom Prénom Fonction
Clé_véhicule Immatricula Puissance Marque
Clé_fonction Grade sal_min Sal_max
Clé_marque Constructeur Pays_contruc .
Table de Faits
0,N
0,N
Clé_employé Clé_région Clé_véhicule Clé_mois Frai
_deplac Kilométrage
Dimension région
semestre
Année
Dimension mois
trimestre
pays
Clé_ mois Mois Trimestre
Clé_ trimestre Lib_trim Semestre
Clé_ semestre Lib_sem Année
Clé_ Année Typ_année
Clé_région Région Pays
0,N
0,N
Clé_pays Pays Continent Devise
52
Modèle en flocon
  • Modèle en flocon modèle en étoile
    normalisation des dimensions
  • Lorsque les tables sont trop volumineuses.
  • Avantages
  • Réduction du volume
  • Inconvénients
  • Nombreuses jointures.
  • Performances dégradées.
  • ?Règles Préférer le modèle en étoile au modèle
    en flocon.

53
les faits
  • Faits dynamiques et faits statiques.
  • Un fait dynamique représente un flux affectant le
    système observé.
  • Ex montant dun dépôt, dun retrait
  • Sont généralement additif.
  • Peuvent se produire un nombre quelconque de fois
    au cours dune période.
  • Un fait statique est un élément descriptif de
    létat du système à un instant donné.
  • Ex solde dun compte courant.
  • Sont généralement semi-additif ( excepté sur la
    dimension temps )

54
Les faits.
  • Faits dynamiques et faits statiques.
  • En théorie un fait statique peut être
    reconstitué à partir de lhistoire dun fait
    dynamique.
  • Ne nécessite pas de stockage.
  • En pratique le stockage des faits statiques
    peut apporter une valeur ajoutée
  • Pas de nécessité de stocker lensemble des faits
    dynamiques.
  • Lutilisateur peut sintéresser uniquement aux
    faits statiques.

55
Les faits.
  • Faits dynamiques et faits statiques.
  • ? coexistence de faits statiques et dynamiques
    dans le datamart.
  • Implique des comportements différents des faits
    dans les hiérarchies.
  • Implique présentation des méthodes de
    consolidation des faits aux utilisateurs.
  • Les méthodes de consolidation des faits doivent
    faire partie intégrante des méta-données.

56
Les formes dimensionnelles complexes.
  • Dérives dimensionnelles
  • Dérive de contenu.
  • Dérive de périmètre.
  • Les indicateurs qualifiés.
  • Dimension douteuse.
  • Dimension dégénérée.
  • Dimension causale.
  • Dimension temps.
  • Inégalité temporelle.
  • Les grandes dimensions.
  • Les entités hétérogènes.
  • Table de faits sans fait.
  • Les agrégats.

57
Dérive de contenu
  • Modification des attributs des dimensions
  • L écoulement du temps
  • Ajoute de nouveaux faits.
  • Modifie les attributs des dimensions
  • changement de situation de famille
  • changement de condition de log
  • Ces dérives dimensionnelles doivent être prises
    en compte dés la conception du modèle
    dimensionnel.

58
Dérive de contenu
  • Dimensions à évolution lente
  • Dimension presque constante mais dont certains
    attributs changent de valeurs dans le temps.
  • Solutions
  • 1 type Perdre les valeurs anciennes.
  • 2 type Créer un nouveau enregistrement.
  • 3 type Créer des champs actuels et historiques
    à lintérieur de lenregistrement dorigine.
  • Ne pas tout mettre dans la table de faits.

59
Dimension à évolution lente du 2 éme type
  • Créer un nouveau enregistrement.
  • Nécessite une extension de la clé primaire.
  • Clé étendue Clé primaire suffixe de version
  • Clé étendue gérée par léquipe de lentrepôt.
  • Deux possibilités
  • Attributs permanents et mouvants dans la table de
    dimension. (modèle en étoile )
  • Création dune table avec uniquement les
    attributs changeants. ( modèle en flocon )

60
Dimension à évolution lente du 2 éme type
  • Partitionne lhistorique
  • la table de faits assurera la relation à
    lenregistrement actuel ou historique de la
    dimension à évolution lente.
  • Pas de nécessité de gérer des dates deffet dans
    la dimension à évolution lente.
  • Ne permet pas le what if sur lhistoire. (ce que
    lhistoire aurait été si la situation avait été
    celle-là depuis le début).
  • Tous les changements sont conservés.

61
Dimension à évolution du 3éme type
  • Créer des champs actuels et historiques à
    lintérieur de lenregistrement dorigine.
  • Attribut actuel et attribut dorigine date
    effet de lattribut actuel.
  • Pas de partitionnement de lhistorique dans la
    table de fait.
  • Nécessite dutiliser la date effet pour
    partitionner lhistorique.
  • Les valeurs intermédiaires sont perdues.
  • ? Permet de suivre à la fois lancienne et la
    nouvelle valeur.

62
Dérive de périmètre
  • Les dérives de périmètre sont des changements de
    dimension liés généralement à des mutations que
    traversent les entreprises ( fusions, cessions,
    réorganisations internes).
  • Elles sont parfois assimilables à des dérives de
    contenu et peuvent être traitées selon cette
    méthode.

63
Dérive de périmètre
  • exemple
  • Changement de périmètre dune région commerciale
  • Ajout du département de la Loire atlantique.
  • Les analyses peuvent sintéresser au périmètre de
    la région tel quil était au début de la période
    analysée,ou tel quil est aujourdhui.
  • Si ce besoin danalyse à périmètre variable est
    vérifié alors nécessité de représenter cette
    dérive dans le datamart.
  • ? Autre Solution possible la méthode des
    indicateurs qualifiés

64
Les indicateurs qualifiés
  • Plusieurs indicateurs dun domaine danalyse
    peuvent correspondre en réalité à plusieurs
    façons de représenter un même indicateur
    fonctionnel.
  • Un même montant peut ainsi être exprimé
  • hors taxes et taxes incluses.
  • en euros, en dollars.
  • selon plusieurs unité de mesure.
  • Ce sont des faits différemment qualifiés,différemm
    ent représentés ou encore exprimés selon des
    métriques différents.
  • Ne spécifier comme faits que les indicateurs
    véritablement distincts.

65
Les indicateurs qualifiés
  • Implémentation
  • Le fait qualifié ( fondamental ) est présent une
    seule fois en tant que fait dans la table des
    faits.
  • Toutes ses qualifications possibles sont définies
    par des dimensions supplémentaires dun type
    particulier, pouvant se combiner avec les autres
    dimensions.
  • Ce sont des dimensions qualificatives.
  • Exemple avoir plusieurs indicateurs
    correspondants chacun à un certain découpage
    régional passé ou actuel.

66
Dimension douteuse
  • Dimension contenant
  • De nombreux doublons.
  • Des informations douteuses.
  • Exemple une dimension client dans laquelle la
    même personne peut apparaître de nombreuses fois,
    éventuellement avec des orthographes de nom
    légèrement différentes, et dautres attributs.
  • Liée à une qualité médiocre des informations en
    production.
  • Si dimension douteuse alors étudier la
    possibilité de nettoyer les données de
    production.
  • La qualité dun sid repose sur la qualité des
    données en production.
  •  Le sid ne doit pas masquer les problèmes de
    production. 

67
Dimension dégénérée
  • Une clé de dimension, tel quun numéro de
    facture, un numéro de ticket qui na pas d
    attribut, et donc na pas de table de dimension.
  • Exemple un modèle dimensionnel avec une table
    de fait contenant la clé date et sans table de
    dimension temps.

68
Dimension Causale
  • Dimension qui provoque le fait.
  • Ex Dans une analyse des ventes liée au suivi
    des promotions dun magasin, la dimension
    promotion est supposée avoir provoquée le fait.

69
Dimension temps
  • Commune à tout datamart. (sauf exception)
  • 2 choix dimplantation
  • Type sql date sans dimension temps.
  • Jour,mois,trimestre calculés à partir de la clé
    date de la table de fait.
  • Dimension temps.
  • Jours fériés, vacances, période fiscale.
  • Événement ( match de finale de coupe du monde)

70
Inégalité du temps
  • Forte inégalité du grain temporel invoqué par les
    utilisateurs.
  • Fréquemment, les utilisateurs analysent
  • Les données journalières du mois en cours.
  • Les données agrégées sur les mois de lannée en
    cours. (ou la photo des données à fin de mois)
  • Les données agrégées sur lannée des années
    précédentes. (ou la photo des données au 31/12).
  • Ces fortes différences temporelles danalyse
    seront à traiter dans l analyse des agrégats.

71
Les grandes dimensions
  • Les minidimensions
  • Objectifs
  • Améliorer les temps de réponse.
  • Dans une dimension
  • Bon nombre de champs ne sont presque jamais la
    source de contraintes.
  • Souvent, les champs source de contraintes sont
    parfaitement connus.
  • Exemple soit une dimension client
  • les champs fortement utilisés sont les champs
    démographiques, tels que lage, le sexe, le
    nombre denfants, le niveau de ressources, le
    niveau déducation et des mesures de comportement
    en matière dachat et de crédits.

72
Les grandes dimensions
  • Solution créer des minidimensions
  • En regroupant dans une minidimension des
    attributs choisis pour ne comporter quun nombre
    limité de combinaison de valeurs.
  • Les attributs type age seront des fourchettes de
    valeurs.
  • Soit directement liée à la table de fait, soit
    liée à la table de dimension  mère  .
  • A noter possible d intégrer la clé primaire de
    la minidimension dans la table mère.
  • ?Conseil moins de 100 000 combinaisons
    distinctes des attributs choisis.

73
Les entités hétérogènes
  • Dans un contexte danalyse ou les attributs des
    dimensions et des faits sont hétérogènes
  • Il est recommandé de
  • Créer une table de faits réduite et une table de
    dimension réduite permettant aux requêtes de
    naviguer dans les types disparates.
  • Créer une table de fait particularisée et une
    table de dimension particularisée pour faire des
    requêtes en profondeur sur chaque type
    particulier.
  • Exemple dans une banque
  • - table de faits et dimensions réduites
    de tous les comptes.
  • - table de faits et dimension
    particularisée des comptes de chèques
  • - table de faits et diemension
    particularisée des comptes épargne
  • - ect

74
Table de faits réduites et particularisées.
  • Application avec des produits hétérogènes
  • Des attributs et faits commun.
  • De nombreux Attributs et faits valables pour un
    seul produit.
  • Compte de chèque, compte d épargne, compte
    titre
  • Police et sinistre automobile, habitation
  • Objectifs
  • Permettre une analyse globale.
  • Permettre une analyse détaillée.
  • En veillant
  • Compréhension du datamart
  • Économie de place.

75
Table de faits réduites et particularisées.
  • Solution
  • Créer un datamart générique avec
  • Table de fait réduite
  • Table de dimension réduite.
  • Créer des datamarts spécialisés métiers
  • Table de fait particularisé.
  • Table de dimension particularisé.
  • A noter tous les faits du datamart générique
    sont présents dans la table de fait
    particularisée.

76
Table de faits sans fait
  • Table de faits composée uniquement de clés sur
    les dimensions.
  • Absence de faits mesurés.
  • Deux principales variétés de table de fait sans
    fait
  • Tables de suivi dévénement
  • Tables de couverture

77
Table de faits sans fait
  • Tables de suivi dévénement
  • Exemple Analyse de la fréquentation journalière
    dans une université.
  • Dimension
  • Cours , Étudiant, heure/date, professeur,
    salle de cours.
  • Table de fait
  • Clé cours,clé étudiant, clé heure/date, clé
    professeur, clé salle de cours.

78
Table de faits sans fait
  • Tables de couverture des tables dévénement qui
    nont pas eu lieu.
  • Exemple quels articles étaient en promotion et
    ne se sont pas vendus
  • Dimension
  • Temps, magasin, produit, promotion.
  • Table de couverture
  • indique quels produits étaient ou sont en
    promotion.

79
Les agrégats
  • Gestion des agrégats dans le système de collecte
    et dintégration.
  • Objectifs
  • Réduire le volume de lentrepôt et simplifier sa
    structure.
  • Comment
  • Éliminer les données opérationnelles détaillées
    et les remplacer par des données plus
    synthétiques.
  • Les valeurs détaillées ne sont pas enregistrées
    dans lentrepôt ( attention au reprise ! ).
  • Seules les valeurs synthétiques sont stockées
    dans lentrepôt.
  • Remarques
  • Nintroduit pas de dénormalisation.
  • A effectuer le plus en amont des traitements.

80
Les agrégats
  • Gestion des agrégats dans le système de diffusion
    et de présentation. ( au niveau datamart )
  • Objectifs
  • Améliorer de façon significative les temps de
    réponse.
  • Réduire le volume des données.
  • Comment
  • Créer des datamarts agrégés dans lesquels seront
    pré calculer les informations très utilisées par
    les utilisateurs à partir des données
    élémentaires.
  • Conserver les données élémentaires.
  • Remarques
  • Introduit de la redondance des données.
  • Les données élémentaires sont toujours
    disponibles.

81
Les agrégats
  • Gestion des agrégats dans le système de diffusion
    et de présentation. ( au niveau datamart )
  • Exemples
  • Cumul des ventes par mois et vendeur à partir des
    données journalières.
  • Cumul des ventes par année et vendeur à partir
    des données journalières.
  • Les données ventes journalières sont disponibles
    sur trois mois glissants.
  • Détention contrat dun foyer à partir des
    détentions contrats des membres du foyer.

82
olap
  • Objectifs
  • Permettre à lutilisateur une navigation main
    libre dans les données.
  • Manipulation libres et intuitives.
  • Pas de nécessité d écrire ou de lancer une
    requête pour continuer lanalyse.
  • Temps de réponse très courts.
  • Les agrégats sont pré-calculés.
  • Sappuie sur un stockage des données sous forme
    dhypercube. ( structure matricielle ).

83
olap
  • Contraintes
  • Temps de construction du cube.
  • Temps de calcul des combinaisons dimensionnelles.
  • Base de stockage est  souvent  propriétaire.
  • La pré agrégation génère des volumes de données
    totales importantes.
  • Ajout daxes peut savérer difficile.
  • Temps de chargement prohibitifs.
  • Maintenance peut savérer difficile.
  • Le périmètre danalyse est figé.

84
olap
  • Quand utiliser l olap
  • Intéressant lorsque les angles danalyse sont
    parfaitement connus.
  • Généralement, correspond à des applications mises
    à disposition dutilisateur presse bouton devant
    naviguer facilement et rapidement dans un
    ensemble de données importants
  • Navigation main libre
  • Drill down zoom sur les données
  • Slice and dice changement daxe
    danalyse

85
olap les architectures
  • Deux architectures se distinguent sur le mode
    de stockage des données.
  • Molap Multidimensionnel Olap
  • Logiciel de manipulation des données adossé à une
    base de donnée matricielle de type propriétaire.
  • Hypercube local ou partagé.
  • Coût élevé des licences en général.
  • Rolap Relationnel Olap
  • Logiciel de manipulation des données adossé à une
    base de données relationnelles
  • Présentation multidimensionnelle.(hypercube
    virtuelle).
  • Peut autoriser lutilisateur à passer  à travers
      lhypercube pour exécuter des requêtes
    directes.

86
Chapitre 5
  • La démarche

87
La démarche
  • Comment procéder deux étapes fondamentales.
  • 1ére étape
  • Définition des objectifs stratégiques du sid.
  • Priorisation des objectifs stratégiques.
  • Choix de larchitecture technique globale.

88
La démarche
  • 2éme étape Pour chaque projet
  • Létude préalable.
  • Réalisation entrepôt
  • Alimentation de lentrepôt.
  • Dictionnaire des données.
  • Recette données entrepôt.
  • Réalisation datamart
  • Création des datamarts.
  • Dictionnaire des données.
  • Recette données datamart.
  • Mise en œuvre outil de restitution.
  • Dictionnaire utilisateur.
  • Recette utilisateurs finaux.
  • Déploiement.
  • Formation.

89
Définition des objectifs stratégiques du sid.
  • Identifier la stratégie globale du sid
  • Synergie entre les objectifs du datawarehouse et
    la stratégie de lentreprise.
  • Projet dentreprise validé par la direction
    générale, construit par itération.
  • Identifier le sponsor
  • Fonctionnel, surtout pas technique.
  • Mandaté par le management.
  • Connaissance de lentreprise.
  • Chargé de mettre en place une équipe
    motivée,écoutée et connaissant le métier à
    modéliser
  • Gestionnaire du projet globale.
  • Définir les objectifs fondamentaux.
  • Estimer Budget et calendrier de réalisation.

90
Priorisation des objectifs
  • La démarche de mise en œuvre est
  • Itérative
  • Incrémentale
  •  Fonctionner par lot  
  • Un data warehouse réussi nest jamais terminé.
  • Il faut prioriser les objectifs.

91
Choix de larchitecture technique globale
  • Objectifs
  • Avant le démarrage du premier pr
Write a Comment
User Comments (0)
About PowerShow.com