Cours Administration de bases de donn - PowerPoint PPT Presentation

About This Presentation
Title:

Cours Administration de bases de donn

Description:

... Client-serveur ? volution des besoins de l'entreprise ... secondaire amovible. Notion de ... les r gions libres de dimensions 2**0, ... – PowerPoint PPT presentation

Number of Views:152
Avg rating:3.0/5.0
Slides: 65
Provided by: tua78
Category:

less

Transcript and Presenter's Notes

Title: Cours Administration de bases de donn


1
Cours Administration de bases de données
  • Tuan-Loc NGUYEN
  • Université Paris 6 -Paris 12

2
Dictionnaire
  • Cours proposper
  • Administration de bases de données
  • Administration
  • Bases
  • Données
  • Université
  • Tuan-Loc NGUYEN (dico viet-franco)
  • Tuan beau, intelligent
  • Loc bonheur
  • Nguyen nom de la famille royale
  • -gt Tuan-Loc NGUYEN
  • un homme beau,intelligent,bonheur dans la
    famille royale

3
Contenu du cours 1
  • Définition de bases de données
  • Définition de SGBD
  • SGBD
  • Caractéristiques
  • Pourquoi
  • Modèles de modélisation des données
  • Objectif du SGBD
  • Architecture
  • deux niveaux
  • trois niveaux
  • répartie
  • Gestion daccès
  • Concepts de base
  • Organisations par hachage
  • Organisations indexées
  • Organisations multi-attributs

4
Résumé
  • Bases de données, définition
  • Collection de fichiers reliés par des pointeurs
    multiples, bien organisés, répondre efficacement
    des demandes variées
  • Collection dinformations via la modélisation du
    monde réel

5
SGBD - Quest-ce cest ?
  • SGBD (DBMS) Databases Management System
  • Système de Gestion de Bases de Données
  • Définition de SGBD
  • Logiciel
  • données persistantes
  • accès efficace
  • (Ullman)
  • Ensemble de logiciels systèmes permettant de
    stocker et dinterroger un ensemble de fichiers
    indépendants. Il est aussi un outil permettant de
    modéliser et de gérer des données (G.Gardarin)

6
SGBD Caractéristiques
  • Manager des données persistées
  • Accéder aux larges données avec efficacité
  • Supporter modèles de données
  • Transaction
  • Permettre de définir des données(structure,
    accès, manipuler)
  • Recouverte de données
  • Control daccès

7
Objectif du SGBD
  • Assurer lindépendance des programmes aux données
    (architecture 2-tiers)
  • What non How
  • Indépendance
  • Physique des programmes aux données
  • Logique des programmes aux données
  • Administration facile
  • Permettre de manipuler par langages query (SQL)

8
1. Objectifs des SGBD (1)
  • INDÉPENDANCE PROGRAMMES/DONNÉES
  • Indépendance physique
  • Indépendance logique
  • ACCÉS PAR DES LANGAGES ASSERTIONNELS
  • Recherche (le quoi et non le comment)
  • Insertion (en groupes, calculées)
  • Mise à jour (basée sur la recherche)
  • EFFICACITÉ DES ACCÈS
  • Temps de réponse

9
SGBD
logique
données
physique
10
Objectifs des SGBD (2)
  • SUPPORT DE TRANSACTIONS
  • Atomique (tout ou rien)
  • Cohérente (respect de l'intégrité)
  • PARTAGEABILITÉ ET SÉCURITE DES DONNÉES
  • Simultanéité lecture/écriture maximum
  • Accès transactionnels décisionnels
  • Confidentialité (authentification, droits
    d'accès, cryptage)
  • Restauration après pannes (journaux, sauvegardes)

Introduction
11
Objectifs des SGBD (3)
  • CONCEPTION FACILITÉE DES APPLICATIONS
  • Conception visuelle des BD (diagrammes E/R,
    objets)
  • Conception des traitements (diagrammes de flux
    entre modules)
  • Dictionnaire de données (objets BD, graphiques,
    applicatifs)
  • ADMINISTRATION SYSTÈME FACILITÉE
  • Visualisation des plans d accès
  • Élaboration de statistiques

Introduction
12
Niveaux de schémas
  • Conceptuel
  • description des entités et associations du monde
    réel
  • Interne
  • implémentation physique des entités et
    associations dans les fichiers
  • Externe (vues)
  • description des entités et associations vues par
    un utilisateur (ou un groupe dutilisateurs)

Introduction
13
Architectures Client-Serveur
  • Définition
  • modèle d'architecture applicative où les
    programmes sont répartis entre processus clients
    et serveurs communiquant par des requêtes avec
    réponses.
  • Une répartition hiérarchique des fonctions
  • données sur le serveur partagées entre N clients
  • interfaces graphiques sur la station de travail
    personnelle
  • communication par des protocoles standardisés
  • distribution des programmes applicatifs afin de
    minimiser les coûts

Architecture Client-Serveur
14
Pourquoi le Client-serveur ?
  • Évolution des besoins de l'entreprise
  • Augmentation de productivité, de réactivité
  • Utilisation des micros assurant flexibilité et
    faibles coûts
  • Besoin de décisionnel et transactionnel sur gros
    volumes
  • Évolution des technologies
  • Systèmes ouverts permettant l'usage de standards
  • Environnements de développement graphiques
  • Explosion de la puissance des micros et des
    serveurs
  • Solutions techniques séduisantes
  • Les données partagées enfin accessibles
    simplement
  • Mise en commun des services (règles de gestion,
    procédures)
  • Gestion de transactions et fiabilité au niveau du
    serveur

15
Architecture 1e génération
SGBD
règles
NT, UNIX, NOVELL
SERVEUR
Données
GCOS, VMS, MVS
REQUETE
RESULTAT
Windows
NT
UNIX
CLIENTS
APPLICATIONS
APPLICATIONS
APPLICATION
Architecture Client-Serveur
16
Le C/S de 2e génération
Application
Outil Applicatif
Client
  • Procédure stockée
  • Procédure accomplissant une fonction de service
    sur les données
  • Exemple Entrée ou sortie de stock
  • Architecture orientée services plutôt que
    requêtes
  • Distribution des traitements
  • Peut être automatisée
  • Évolution et passage à l'échelle
  • Possibilité de serveurs multiples, avec
    redondances
  • Possibilité de données privées sur les clients

Outil de connectabilité
Protocole Réseau
Requêtes de services
Résultats
Protocole Réseau
Outil de connectabilité
Serveur
Procédures Stockées
Serveur BD
base de données
17
Intérêt du C/S de 2e génération
  • Réduction des transferts réseaux
  • non nécessité de monter les données dans le
    client pour les modifier
  • appel de services plus compact
  • Distribution automatique des applications
  • développement sur le poste de travail
  • partitionnement par tirer-déposer (drag drop)
  • Simplification des outils de développement
  • principe de la fenêtre unique
  • modélisation uniforme des objets applicatifs
  • invisibilité du modèle de données à l'extérieur
    du serveur

18
Vers le 3e génération
  • Intégration du Web et du client-serveur
  • navigateur à présentation standard pour le client
  • possibilité de petites applications (contrôles)
    sur le client
  • très grande portabilité (Intranet, Internet)
  • Architecture à 3 strates (3-tiered)
  • Base de données avec procédures stockées
  • Services applicatifs partagés et objets métiers
    (EJB, ActiveX)
  • Présentation hypertexte multimédia avec contrôles
  • Support de l'hypermédia
  • types de données variées et extensibles (texte,
    image,vidéo)
  • hypertexte et navigation entre documents et
    applications

19
Méthode dAccès
  • 1. Concepts de base
  • 2. Organisations par hachage
  • 3. Organisations indexées
  • 4. Organisations multi-attributs

20
1. Concepts de Base
  • Le gestionnaire de fichiers est la couche interne
    d'un SGBD, souvent intégrée au système
    opératoire.

Gestionnaire de fichiers
21
Structures des Disques
  • Notion 1 Volume (Disk Pack)
  • Unité de mémoire secondaire amovible.

22
Notion de fichier
  • Notion 2 Fichier (File)
  • Récipient d'information caractérisé par un nom,
    constituant une mémoire secondaire idéale,
    permettant d'écrire des programmes d'application
    indépendants des mémoires secondaires.
  • Un fichier se caractérise plus particulièrement
    par
  • UN NOM
  • UN CREATEUR
  • UNE DATE DE CREATION
  • UN OU PLUSIEURS TYPES D'ARTICLE
  • UN EMPLACEMENT EN MS
  • UNE ORGANISATION

23
Quelques notions de base
  • Notion 3 Article (Record)
  • Elément composant d'un fichier correspondant à
    l'unité de traitement par les programmes
    d'application.
  • Notion 4 Organisation de fichier (File
    organization)
  • Nature des liaisons entre les articles contenus
    dans un fichier.
  • Notion 5 Méthode d'accès (Acces Method)
  • Méthode d'exploitation du fichier utilisée par
    les programmes d'application pour sélectionner
    des articles.
  • Notion 6 Clé d'article (Record Key)
  • Identifiant d'un article permettant de
    sélectionner un article unique dans un fichier.

24
Les fichiers sur les volumes
  • Notion 7 Label de volume (Label)
  • Premier secteur d'un volume permettant
    d'identifier ce volume et contenant en
    particulier son numéro.
  • Notion 8 Descripteur de fichier (Directory
    entry)
  • Ensemble des informations permettant de retrouver
    les caractéristiques d'un fichier, contenant en
    particulier le nom du fichier, sa localisation
    sur disque, etc
  • Notion 9 Catalogue (Directory)
  • Table (ou fichier) située sur un volume et
    contenant les descripteurs des fichiers du volume.

25
Organisation d'un volume
26
Catalogue Hiérarchisé
  • Notion 10 Catalogue hiérarchisé
  • Catalogue constitué d'une hiérarchie de fichiers,
    chaque fichier contenant les descripteurs des
    fichiers immédiatement inférieurs dans la
    hiérarchie.
  • gt PIERRE
  • gt PIERRE gt BASES-DE-DONNEES
  • gt PIERRE gt BASES-DE-DONNES gt MODELES

27
Exemple de catalogue hiéarchisé
28
Allocation de l'espace disque
  • Notion 11 Région (Allocation area)
  • Ensemble de zones de mémoires secondaires
    (pistes) adjacentes allouées en une seule fois à
    un fichier.
  • Notion 12 Granule d'allocation (Allocation
    granule)
  • Unité de mémoire secondaire allouable à un
    fichier.

29
Stratégie d'allocation
  • Objectifs d'une stratégie
  • (1) minimiser le nombre de régions à allouer à un
    fichier de sorte à réduire d'une part les
    déplacements des bras des disques lors des
    lectures en séquentiel et d'autre part le nombre
    de descripteurs de régions associés à un fichier
  • (2) minimiser la distance qui sépare les régions
    successives d'un fichier, de sorte à réduire les
    déplacements de bras en amplitude.

30
Stratégie par granule à région fixe
  • Ces stratégies confondent les notions de région
    et de granule. Elles sont simples et généralement
    implantées sur les petits systèmes.
  • La stratégie du premier trouvé
  • le granule correspondant à la tête de liste de
    la liste des granules libres, ou au premier bit à
    0 dans la table des granules libres, est choisi.
  • La stratégie du meilleur choix
  • le granule le plus proche (du point de vue
    déplacement de bras) du dernier granule alloué au
    fichier est retenu.

31
Stratégie à région variable
  • La stratégie du plus proche choix
  • Lors d'une demande d'allocation, la liste des
    régions libres est parcourue jusqu'à trouver une
    région de la taille demandée dans le cas où
    aucune région de la taille demandée n'est libre,
    la première région de taille supérieure est
    découpée.
  • La stratégie des frères siamois
  • Des listes séparées sont maintenues pour les
    régions libres de dimensions 20, 21, 2K
    granules. Lors d'une demande d'allocation, une
    région libre peut être extraite de la liste des
    régions libres de taille 2i1 pour constituer
    deux régions libres de taille 2i.

32
Adressage Relatif
  • Notion 13 Adresse relative (Relative address)
  • Numéro d'unité d'adressage dans un fichier
    (autrement dit déplacement par rapport au début
    du fichier).


offset adresse relative
33
Architecture d'un SGF
34
2. Organisations par Hachage
  • Notion 14 Fichier haché statique (Static hashed
    file)
  • Fichier de taille fixe dans lequel les articles
    sont placés dans des paquets dont l'adresse est
    calculée à l'aide d'une fonction de hachage fixe
    appliquée à la clé.

35
Structure interne d'un paquet
36
Vue d'un fichier haché statique
37
Fonction de Hachage
  • DIFFÉRENTS TYPES DE FONCTIONS
  • PLIAGE DE LA CLE
  • CONVERSION
  • MODULO P
  • FONCTION PSEUDO-ALEATOIRE MIXTE
  • BUT
  • Obtenir une distribution uniforme pour éviter de
    saturer un paquet
  • Mauvaise fonction de hachage gt Saturation
    locale et perte de place
  • SOLUTION AUTORISER LES DEBORDEMENTS

38
Techniques de débordement
  • l'adressage ouvert
  • place l'article qui devrait aller dans un paquet
    plein dans le premier paquet suivant ayant de la
    place libre il faut alors mémoriser tous les
    paquets dans lequel un paquet plein a débordé.
  • le chaînage
  • constitue un paquet logique par chaînage d'un
    paquet de débordement à un paquet plein.
  • le rehachage
  • applique une deuxième fonction de hachage
    lorsqu'un paquet est plein pour placer en
    débordement.

39
Problème du hachage statique
  • Nécessité de réorganisation
  • Un fichier ayant débordé ne garantie plus de bons
    temps d'accès (2 ? accès disque en écriture, 1
    en lecture)
  • Le nombre de paquets primaires est fixe, ce qui
    peuT entrainer un mauvais taux de remplissage
  • Solution idéale réorganisation progressive
  • Un fichier ayant débordé devrait rester analogue
    à un fichier n'ayant pas débordé.
  • Il serait souhaitable de changer la fonction
    d'adressage.

40
Techniques de hachage dynamique
  • Techniques permettant de faire grandir
    progressivement un fichier haché saturé en
    distribuant les articles dans de nouvelles
    régions allouées au fichier.
  • LES QUESTIONS CLÉS
  • (Q1) Quel est le critère retenu pour décider
    qu'un fichier haché est saturé ?
  • (Q2) Quelle partie du fichier faut-il doubler
    quand un fichier est saturé?
  • (Q3) Comment retrouver les parties d'un fichier
    qui ont été doublées et combien de fois ont elles
    été doublées?
  • (Q4) Faut-il conserver une méthode de débordement
    et si oui quelle méthode?

41
Hachage extensible
  • (Q1) Le fichier est étendu dès qu'un paquet est
    plein dans ce cas un nouveau paquet est ajouté
    au fichier.
  • (Q2) Seul le paquet saturé est doublé lors d'une
    extension
  • Il éclate selon le bit suivant du résultat de la
    fonction de hachage appliquée à la clé h(K). Les
    articles ayant ce bit à 0 restent dans le paquet
    saturé, alors que ceux ayant ce bit à 1 partent
    dans le nouveau paquet.
  • (Q3) Chaque entrée dun répertoire donne
    l'adresse d'un paquet.
  • Les 2(P-Q) adresses correspondant à un paquet
    qui a éclaté Q fois sont identiques et pointent
    sur ce paquet ainsi, par l'indirection du
    répertoire, le système retrouve les paquets.
  • (Q4) La gestion de débordement n'est pas
    nécessaire.

42
Fichier haché extensible
Paquets
Répertoire
43
Eclatement d'un paquet
  • L'entrée jumelle est forcée à l'adresse du
    nouveau paquet créé si elle pointe sur le paquet
    éclaté, sinon le répertoire est doublé.

44
Définition du hachage extensible
  • Notion 15 Hachage extensible (Extended hashing)
  • Méthode de hachage dynamique consistant à éclater
    un paquet plein et à mémoriser l'adresse des
    paquets dans un répertoire accédé directement par
    les (MP) premiers bits de la fonction de hachage
    où P est le nombre d'éclatements maximum subi par
    les paquets.

45
Hachage linéaire
  • (Q1) Le fichier est étendu par paquet dès qu'un
    paquet est plein.
  • (Q2) Le paquet doublé n'est pas celui qui est
    saturé, mais un paquet pointé par un pointeur
    courant qui parcours le fichier circulairement.
  • (Q3) Un niveau d'éclatement P du fichier est
    conservé dans le descripteur du fichier afin de
    préciser la fonction de hachage.
  • Pour un paquet situé avant le pointeur courant,
    (MP1) bits de la fonction de hachage doivent
    être utilisés alors que seulement (MP) sont à
    utiliser pour adresser un paquet situé après le
    pointeur courant.
  • (Q4) Une gestion de débordement est nécessaire
    puisqu'un paquet plein n'est en général pas
    éclaté.

46
Paquets d'un fichier haché linéaire
Xo H(k) Xi (xoi) mod M i 1,2,M-1
47
Définition du hachage linéaire
  • Notion 16 Hachage linéaire (Linear hashing)
  • Méthode de hachage dynamique nécessitant la
    gestion de débordement et consistant à
  • (1) éclater le paquet pointé par un pointeur
    courant quand un paquet est plein,
  • (2) mémoriser le niveau d'éclatement du fichier
    afin de déterminer le nombre de bits de la
    fonction de hachage à appliquer avant et après le
    pointeur courant.

48
Comparaison des hachages
  • Exercice Comparer entre les hachages ?

49
3. Organisations Indexées
  • OBJECTIFS
  • 1) Accès rapide a partir d'une clé
  • 2) Accès séquentiel trié ou non
  • MOYENS
  • Utilisation de tables permettant la recherche de
    l'adresse de l'article a partir de la CLE
  • Notion 23 Index (Index)
  • Table (ou plusieurs tables) permettant d'associer
    à une clé d'article l'adresse relative de cet
    article.

50
Exemple de fichier indexé
index
51
Différents Types d'Indexes
  • Un index contenant toutes les cles est dense
  • Notion 24 Densité d'un index (Index key
    selectivity)
  • Quotient du nombre de clés dans l'index sur le
    nombre d'articles du fichier.
  • Un index non dense est possible si le fichier est
    trie
  • Il contient alors la plus grande clé de chaque
    bloc avec l'adresse relative du bloc.
  • Il est possible de construire des indexes
    hiérarchisés
  • Chaque index possède alors un index qui permet
    d'accélérer la recherche.
  • Il est ainsi possible de gérer efficacement de
    gros fichiers.

52
Exemple d'index non dense
53
Exemple d'index hiérarchisé
  • Notion 25 Index hiérarchisé (Multilevel index)
  • Index à n niveaux, le niveau k étant un index
    trié divisé en paquets, possédant lui-même un
    index de niveau k1, la clé de chaque entrée de
    ce dernier étant la plus grande du paquet.

54
Variantes de méthodes indexées
55
Arbre-B
  • Les arbres-B fournissent des outils de base pour
    construire des indexes équilibrés.
  • Notion 26 Arbre-B (B-tree)
  • Un arbre-B d'ordre m est un arbre au sens de la
    théorie des graphes tel que
  • 1) Toutes les feuilles sont au même niveau
  • 2) Tout nœud non feuille à un nombre NF de fils
    tel que
  • m1 lt NF lt 2m1 sauf la racine qui a un nombre
    NFR de fils tel que 0 lt NFR lt 2m1.

56
Arbre-B d'ordre 2
i
r
c
f
o
l
u
x
v,w
y,z
g,h
m,n
p,q
s,t
d,e
j,k
a, b
57
Structure d'un nœud d'un arbre-B
  • Pi Pointeur interne permettant de représenter
    l'arbre les feuilles ne contiennent pas de
    pointeurs Pi
  • ai Pointeur externe sur une page de données
  • xi valeur de clé.
  • (1) (x1, x2xK) est une suite croissante de clés
  • (2) Toute clé y de K(P0) est inférieure à x1
  • (3) Toute clé y de K(P1) est comprise entre xi et
    xi1
  • (4) Toute clé y de K(PK) est supérieure à xk.

58
Exemple d'index en arbre-B
59
Insertion de la clé 25
60
Hauteur d'un Arbre-B
  • Le nombre de niveaux d'un arbre-B est déterminée
    par son degré et le nombre de clés contenues.
  • Ainsi, dans le pire des cas, si l'arbre est
    rempli au minimum, il existe
  • une clé à la racine,
  • deux branches en partent avec m clés,
  • (m1) branches en partent avec m clés.
  • Pour un arbre de niveaux h, le nombre de clés est
    donc
  • N 1 2 m (1 (m1) (m1)2 (m1)h-2)
  • soit, par réduction du développement limité
  • N 1 2 ((m1)h-1-1)
  • D'où l'on déduit que pour stocker N clés, il
    faut
  • h 1 logm1 ((N1)/2) niveaux.

61
Arbre-B
  • Notion 27 Arbre B (B tree)
  • Arbre-B dans lequel on répète les clés des nœuds
  • ascendants dans chaque nœud et on chaîne les
    nœuds
  • feuilles pour permettre un accès rapide en
    séquentiel trié.
  • Les arbres-b sont utilises pour gérer des index
    hiérarchisés
  • 1) en mettant toutes les clés des articles dans
    un arbre B et en pointant sur ces articles par
    des adresses relatives gt INDEX NON PLACANT
  • 2) en rangeant les articles au plus bas niveau de
    l'arbre B gt INDEX PLACANT

62
Exemple d'index en arbre-B
63
Avantages et Inconvénients
  • Avantages des organisations indexées par arbre-b
    (b)
  • Régularité pas de réorganisation du fichier
    nécessaires après de multiples mises à jour.
  • Lecture séquentielle rapide possibilité de
    séquentiel physique et logique (trié)
  • Accès rapide en 3 E/S au plus pour des fichiers
    de 1 M d'articles
  • Inconvénients
  • Les suppressions génèrent des trous difficiles à
    récupérer
  • Dans le cas d'index non plaçant, la localité est
    mauvaise pour des accès séquentiels ou sur clés
    secondaires, ce qui conduit à de nombreux
    déplacement de bras.
  • Taille de l'index pouvant être importante.

64
Exercice
  • Discuter de la possibilité de mettre plusieurs
    indexes à un fichier
  • plaçant
  • non plaçant
  • Avantages et inconvénient
  • coût de mise à jour
  • coût dinterrogation
Write a Comment
User Comments (0)
About PowerShow.com