Cours Administration de bases de donn

About This Presentation

Title:

Cours Administration de bases de donn

Description:

... Client-serveur ? volution des besoins de l'entreprise ... secondaire amovible. Notion de ... les r gions libres de dimensions 2**0, ... – PowerPoint PPT presentation

Number of Views:144

Avg rating:3.0/5.0

Slides: 65

Provided by: tua78

Category:

more less

Transcript and Presenter's Notes

Title: Cours Administration de bases de donn

1
Cours Administration de bases de données

Tuan-Loc NGUYEN
Université Paris 6 -Paris 12

2
Dictionnaire

Cours proposper
Administration de bases de données
Administration
Bases
Données
Université
Tuan-Loc NGUYEN (dico viet-franco)
Tuan beau, intelligent
Loc bonheur
Nguyen nom de la famille royale
-gt Tuan-Loc NGUYEN
un homme beau,intelligent,bonheur dans la
famille royale

3
Contenu du cours 1

Définition de bases de données
Définition de SGBD
SGBD
Caractéristiques
Pourquoi
Modèles de modélisation des données
Objectif du SGBD
Architecture
deux niveaux
trois niveaux
répartie
Gestion daccès
Concepts de base
Organisations par hachage
Organisations indexées
Organisations multi-attributs

4
Résumé

Bases de données, définition
Collection de fichiers reliés par des pointeurs
multiples, bien organisés, répondre efficacement
des demandes variées
Collection dinformations via la modélisation du
monde réel

5
SGBD - Quest-ce cest ?

SGBD (DBMS) Databases Management System
Système de Gestion de Bases de Données
Définition de SGBD
Logiciel
données persistantes
accès efficace
(Ullman)
Ensemble de logiciels systèmes permettant de
stocker et dinterroger un ensemble de fichiers
indépendants. Il est aussi un outil permettant de
modéliser et de gérer des données (G.Gardarin)

6
SGBD Caractéristiques

Manager des données persistées
Accéder aux larges données avec efficacité
Supporter modèles de données
Transaction
Permettre de définir des données(structure,
accès, manipuler)
Recouverte de données
Control daccès

7
Objectif du SGBD

Assurer lindépendance des programmes aux données
(architecture 2-tiers)
What non How
Indépendance
Physique des programmes aux données
Logique des programmes aux données
Administration facile
Permettre de manipuler par langages query (SQL)

8
1. Objectifs des SGBD (1)

INDÉPENDANCE PROGRAMMES/DONNÉES
Indépendance physique
Indépendance logique
ACCÉS PAR DES LANGAGES ASSERTIONNELS
Recherche (le quoi et non le comment)
Insertion (en groupes, calculées)
Mise à jour (basée sur la recherche)
EFFICACITÉ DES ACCÈS
Temps de réponse

9
SGBD
logique
données
physique
10
Objectifs des SGBD (2)

SUPPORT DE TRANSACTIONS
Atomique (tout ou rien)
Cohérente (respect de l'intégrité)
PARTAGEABILITÉ ET SÉCURITE DES DONNÉES
Simultanéité lecture/écriture maximum
Accès transactionnels décisionnels
Confidentialité (authentification, droits
d'accès, cryptage)
Restauration après pannes (journaux, sauvegardes)

Introduction
11
Objectifs des SGBD (3)

CONCEPTION FACILITÉE DES APPLICATIONS
Conception visuelle des BD (diagrammes E/R,
objets)
Conception des traitements (diagrammes de flux
entre modules)
Dictionnaire de données (objets BD, graphiques,
applicatifs)
ADMINISTRATION SYSTÈME FACILITÉE
Visualisation des plans d accès
Élaboration de statistiques

Introduction
12
Niveaux de schémas

Conceptuel
description des entités et associations du monde
réel
Interne
implémentation physique des entités et
associations dans les fichiers
Externe (vues)
description des entités et associations vues par
un utilisateur (ou un groupe dutilisateurs)

Introduction
13
Architectures Client-Serveur

Définition
modèle d'architecture applicative où les
programmes sont répartis entre processus clients
et serveurs communiquant par des requêtes avec
réponses.
Une répartition hiérarchique des fonctions
données sur le serveur partagées entre N clients
interfaces graphiques sur la station de travail
personnelle
communication par des protocoles standardisés
distribution des programmes applicatifs afin de
minimiser les coûts

Architecture Client-Serveur
14
Pourquoi le Client-serveur ?

Évolution des besoins de l'entreprise
Augmentation de productivité, de réactivité
Utilisation des micros assurant flexibilité et
faibles coûts
Besoin de décisionnel et transactionnel sur gros
volumes
Évolution des technologies
Systèmes ouverts permettant l'usage de standards
Environnements de développement graphiques
Explosion de la puissance des micros et des
serveurs
Solutions techniques séduisantes
Les données partagées enfin accessibles
simplement
Mise en commun des services (règles de gestion,
procédures)
Gestion de transactions et fiabilité au niveau du
serveur

15
Architecture 1e génération
SGBD
règles
NT, UNIX, NOVELL
SERVEUR
Données
GCOS, VMS, MVS
REQUETE
RESULTAT
Windows
NT
UNIX
CLIENTS
APPLICATIONS
APPLICATIONS
APPLICATION
Architecture Client-Serveur
16
Le C/S de 2e génération
Application
Outil Applicatif
Client

Procédure stockée
Procédure accomplissant une fonction de service
sur les données
Exemple Entrée ou sortie de stock
Architecture orientée services plutôt que
requêtes
Distribution des traitements
Peut être automatisée
Évolution et passage à l'échelle
Possibilité de serveurs multiples, avec
redondances
Possibilité de données privées sur les clients

Outil de connectabilité
Protocole Réseau
Requêtes de services
Résultats
Protocole Réseau
Outil de connectabilité
Serveur
Procédures Stockées
Serveur BD
base de données
17
Intérêt du C/S de 2e génération

Réduction des transferts réseaux
non nécessité de monter les données dans le
client pour les modifier
appel de services plus compact
Distribution automatique des applications
développement sur le poste de travail
partitionnement par tirer-déposer (drag drop)
Simplification des outils de développement
principe de la fenêtre unique
modélisation uniforme des objets applicatifs
invisibilité du modèle de données à l'extérieur
du serveur

18
Vers le 3e génération

Intégration du Web et du client-serveur
navigateur à présentation standard pour le client
possibilité de petites applications (contrôles)
sur le client
très grande portabilité (Intranet, Internet)
Architecture à 3 strates (3-tiered)
Base de données avec procédures stockées
Services applicatifs partagés et objets métiers
(EJB, ActiveX)
Présentation hypertexte multimédia avec contrôles
Support de l'hypermédia
types de données variées et extensibles (texte,
image,vidéo)
hypertexte et navigation entre documents et
applications

19
Méthode dAccès

1. Concepts de base
2. Organisations par hachage
3. Organisations indexées
4. Organisations multi-attributs

20
1. Concepts de Base

Le gestionnaire de fichiers est la couche interne
d'un SGBD, souvent intégrée au système
opératoire.

Gestionnaire de fichiers
21
Structures des Disques

Notion 1 Volume (Disk Pack)
Unité de mémoire secondaire amovible.

22
Notion de fichier

Notion 2 Fichier (File)
Récipient d'information caractérisé par un nom,
constituant une mémoire secondaire idéale,
permettant d'écrire des programmes d'application
indépendants des mémoires secondaires.
Un fichier se caractérise plus particulièrement
par
UN NOM
UN CREATEUR
UNE DATE DE CREATION
UN OU PLUSIEURS TYPES D'ARTICLE
UN EMPLACEMENT EN MS
UNE ORGANISATION

23
Quelques notions de base

Notion 3 Article (Record)
Elément composant d'un fichier correspondant à
l'unité de traitement par les programmes
d'application.
Notion 4 Organisation de fichier (File
organization)
Nature des liaisons entre les articles contenus
dans un fichier.
Notion 5 Méthode d'accès (Acces Method)
Méthode d'exploitation du fichier utilisée par
les programmes d'application pour sélectionner
des articles.
Notion 6 Clé d'article (Record Key)
Identifiant d'un article permettant de
sélectionner un article unique dans un fichier.

24
Les fichiers sur les volumes

Notion 7 Label de volume (Label)
Premier secteur d'un volume permettant
d'identifier ce volume et contenant en
particulier son numéro.
Notion 8 Descripteur de fichier (Directory
entry)
Ensemble des informations permettant de retrouver
les caractéristiques d'un fichier, contenant en
particulier le nom du fichier, sa localisation
sur disque, etc
Notion 9 Catalogue (Directory)
Table (ou fichier) située sur un volume et
contenant les descripteurs des fichiers du volume.

25
Organisation d'un volume
26
Catalogue Hiérarchisé

Notion 10 Catalogue hiérarchisé
Catalogue constitué d'une hiérarchie de fichiers,
chaque fichier contenant les descripteurs des
fichiers immédiatement inférieurs dans la
hiérarchie.
gt PIERRE
gt PIERRE gt BASES-DE-DONNEES
gt PIERRE gt BASES-DE-DONNES gt MODELES

27
Exemple de catalogue hiéarchisé
28
Allocation de l'espace disque

Notion 11 Région (Allocation area)
Ensemble de zones de mémoires secondaires
(pistes) adjacentes allouées en une seule fois à
un fichier.
Notion 12 Granule d'allocation (Allocation
granule)
Unité de mémoire secondaire allouable à un
fichier.

29
Stratégie d'allocation

Objectifs d'une stratégie
(1) minimiser le nombre de régions à allouer à un
fichier de sorte à réduire d'une part les
déplacements des bras des disques lors des
lectures en séquentiel et d'autre part le nombre
de descripteurs de régions associés à un fichier
(2) minimiser la distance qui sépare les régions
successives d'un fichier, de sorte à réduire les
déplacements de bras en amplitude.

30
Stratégie par granule à région fixe

Ces stratégies confondent les notions de région
et de granule. Elles sont simples et généralement
implantées sur les petits systèmes.
La stratégie du premier trouvé
le granule correspondant à la tête de liste de
la liste des granules libres, ou au premier bit à
0 dans la table des granules libres, est choisi.
La stratégie du meilleur choix
le granule le plus proche (du point de vue
déplacement de bras) du dernier granule alloué au
fichier est retenu.

31
Stratégie à région variable

La stratégie du plus proche choix
Lors d'une demande d'allocation, la liste des
régions libres est parcourue jusqu'à trouver une
région de la taille demandée dans le cas où
aucune région de la taille demandée n'est libre,
la première région de taille supérieure est
découpée.
La stratégie des frères siamois
Des listes séparées sont maintenues pour les
régions libres de dimensions 20, 21, 2K
granules. Lors d'une demande d'allocation, une
région libre peut être extraite de la liste des
régions libres de taille 2i1 pour constituer
deux régions libres de taille 2i.

32
Adressage Relatif

Notion 13 Adresse relative (Relative address)
Numéro d'unité d'adressage dans un fichier
(autrement dit déplacement par rapport au début
du fichier).

offset adresse relative
33
Architecture d'un SGF
34
2. Organisations par Hachage

Notion 14 Fichier haché statique (Static hashed
file)
Fichier de taille fixe dans lequel les articles
sont placés dans des paquets dont l'adresse est
calculée à l'aide d'une fonction de hachage fixe
appliquée à la clé.

35
Structure interne d'un paquet
36
Vue d'un fichier haché statique
37
Fonction de Hachage

DIFFÉRENTS TYPES DE FONCTIONS
PLIAGE DE LA CLE
CONVERSION
MODULO P
FONCTION PSEUDO-ALEATOIRE MIXTE
BUT
Obtenir une distribution uniforme pour éviter de
saturer un paquet
Mauvaise fonction de hachage gt Saturation
locale et perte de place
SOLUTION AUTORISER LES DEBORDEMENTS

38
Techniques de débordement

l'adressage ouvert
place l'article qui devrait aller dans un paquet
plein dans le premier paquet suivant ayant de la
place libre il faut alors mémoriser tous les
paquets dans lequel un paquet plein a débordé.
le chaînage
constitue un paquet logique par chaînage d'un
paquet de débordement à un paquet plein.
le rehachage
applique une deuxième fonction de hachage
lorsqu'un paquet est plein pour placer en
débordement.

39
Problème du hachage statique

Nécessité de réorganisation
Un fichier ayant débordé ne garantie plus de bons
temps d'accès (2 ? accès disque en écriture, 1
en lecture)
Le nombre de paquets primaires est fixe, ce qui
peuT entrainer un mauvais taux de remplissage
Solution idéale réorganisation progressive
Un fichier ayant débordé devrait rester analogue
à un fichier n'ayant pas débordé.
Il serait souhaitable de changer la fonction
d'adressage.

40
Techniques de hachage dynamique

Techniques permettant de faire grandir
progressivement un fichier haché saturé en
distribuant les articles dans de nouvelles
régions allouées au fichier.
LES QUESTIONS CLÉS
(Q1) Quel est le critère retenu pour décider
qu'un fichier haché est saturé ?
(Q2) Quelle partie du fichier faut-il doubler
quand un fichier est saturé?
(Q3) Comment retrouver les parties d'un fichier
qui ont été doublées et combien de fois ont elles
été doublées?
(Q4) Faut-il conserver une méthode de débordement
et si oui quelle méthode?

41
Hachage extensible

(Q1) Le fichier est étendu dès qu'un paquet est
plein dans ce cas un nouveau paquet est ajouté
au fichier.
(Q2) Seul le paquet saturé est doublé lors d'une
extension
Il éclate selon le bit suivant du résultat de la
fonction de hachage appliquée à la clé h(K). Les
articles ayant ce bit à 0 restent dans le paquet
saturé, alors que ceux ayant ce bit à 1 partent
dans le nouveau paquet.
(Q3) Chaque entrée dun répertoire donne
l'adresse d'un paquet.
Les 2(P-Q) adresses correspondant à un paquet
qui a éclaté Q fois sont identiques et pointent
sur ce paquet ainsi, par l'indirection du
répertoire, le système retrouve les paquets.
(Q4) La gestion de débordement n'est pas
nécessaire.

42
Fichier haché extensible
Paquets
Répertoire
43
Eclatement d'un paquet

L'entrée jumelle est forcée à l'adresse du
nouveau paquet créé si elle pointe sur le paquet
éclaté, sinon le répertoire est doublé.

44
Définition du hachage extensible

Notion 15 Hachage extensible (Extended hashing)
Méthode de hachage dynamique consistant à éclater
un paquet plein et à mémoriser l'adresse des
paquets dans un répertoire accédé directement par
les (MP) premiers bits de la fonction de hachage
où P est le nombre d'éclatements maximum subi par
les paquets.

45
Hachage linéaire

(Q1) Le fichier est étendu par paquet dès qu'un
paquet est plein.
(Q2) Le paquet doublé n'est pas celui qui est
saturé, mais un paquet pointé par un pointeur
courant qui parcours le fichier circulairement.
(Q3) Un niveau d'éclatement P du fichier est
conservé dans le descripteur du fichier afin de
préciser la fonction de hachage.
Pour un paquet situé avant le pointeur courant,
(MP1) bits de la fonction de hachage doivent
être utilisés alors que seulement (MP) sont à
utiliser pour adresser un paquet situé après le
pointeur courant.
(Q4) Une gestion de débordement est nécessaire
puisqu'un paquet plein n'est en général pas
éclaté.

46
Paquets d'un fichier haché linéaire
Xo H(k) Xi (xoi) mod M i 1,2,M-1
47
Définition du hachage linéaire

Notion 16 Hachage linéaire (Linear hashing)
Méthode de hachage dynamique nécessitant la
gestion de débordement et consistant à
(1) éclater le paquet pointé par un pointeur
courant quand un paquet est plein,
(2) mémoriser le niveau d'éclatement du fichier
afin de déterminer le nombre de bits de la
fonction de hachage à appliquer avant et après le
pointeur courant.

48
Comparaison des hachages

Exercice Comparer entre les hachages ?

49
3. Organisations Indexées

OBJECTIFS
1) Accès rapide a partir d'une clé
2) Accès séquentiel trié ou non
MOYENS
Utilisation de tables permettant la recherche de
l'adresse de l'article a partir de la CLE
Notion 23 Index (Index)
Table (ou plusieurs tables) permettant d'associer
à une clé d'article l'adresse relative de cet
article.

50
Exemple de fichier indexé
index
51
Différents Types d'Indexes

Un index contenant toutes les cles est dense
Notion 24 Densité d'un index (Index key
selectivity)
Quotient du nombre de clés dans l'index sur le
nombre d'articles du fichier.
Un index non dense est possible si le fichier est
trie
Il contient alors la plus grande clé de chaque
bloc avec l'adresse relative du bloc.
Il est possible de construire des indexes
hiérarchisés
Chaque index possède alors un index qui permet
d'accélérer la recherche.
Il est ainsi possible de gérer efficacement de
gros fichiers.

52
Exemple d'index non dense
53
Exemple d'index hiérarchisé

Notion 25 Index hiérarchisé (Multilevel index)
Index à n niveaux, le niveau k étant un index
trié divisé en paquets, possédant lui-même un
index de niveau k1, la clé de chaque entrée de
ce dernier étant la plus grande du paquet.

54
Variantes de méthodes indexées
55
Arbre-B

Les arbres-B fournissent des outils de base pour
construire des indexes équilibrés.
Notion 26 Arbre-B (B-tree)
Un arbre-B d'ordre m est un arbre au sens de la
théorie des graphes tel que
1) Toutes les feuilles sont au même niveau
2) Tout nœud non feuille à un nombre NF de fils
tel que
m1 lt NF lt 2m1 sauf la racine qui a un nombre
NFR de fils tel que 0 lt NFR lt 2m1.

56
Arbre-B d'ordre 2
i
r
c
f
o
l
u
x
v,w
y,z
g,h
m,n
p,q
s,t
d,e
j,k
a, b
57
Structure d'un nœud d'un arbre-B

Pi Pointeur interne permettant de représenter
l'arbre les feuilles ne contiennent pas de
pointeurs Pi
ai Pointeur externe sur une page de données
xi valeur de clé.
(1) (x1, x2xK) est une suite croissante de clés
(2) Toute clé y de K(P0) est inférieure à x1
(3) Toute clé y de K(P1) est comprise entre xi et
xi1
(4) Toute clé y de K(PK) est supérieure à xk.

58
Exemple d'index en arbre-B
59
Insertion de la clé 25
60
Hauteur d'un Arbre-B

Le nombre de niveaux d'un arbre-B est déterminée
par son degré et le nombre de clés contenues.
Ainsi, dans le pire des cas, si l'arbre est
rempli au minimum, il existe
une clé à la racine,
deux branches en partent avec m clés,
(m1) branches en partent avec m clés.
Pour un arbre de niveaux h, le nombre de clés est
donc
N 1 2 m (1 (m1) (m1)2 (m1)h-2)
soit, par réduction du développement limité
N 1 2 ((m1)h-1-1)
D'où l'on déduit que pour stocker N clés, il
faut
h 1 logm1 ((N1)/2) niveaux.

61
Arbre-B

Notion 27 Arbre B (B tree)
Arbre-B dans lequel on répète les clés des nœuds
ascendants dans chaque nœud et on chaîne les
nœuds
feuilles pour permettre un accès rapide en
séquentiel trié.
Les arbres-b sont utilises pour gérer des index
hiérarchisés
1) en mettant toutes les clés des articles dans
un arbre B et en pointant sur ces articles par
des adresses relatives gt INDEX NON PLACANT
2) en rangeant les articles au plus bas niveau de
l'arbre B gt INDEX PLACANT

62
Exemple d'index en arbre-B
63
Avantages et Inconvénients

Avantages des organisations indexées par arbre-b
(b)
Régularité pas de réorganisation du fichier
nécessaires après de multiples mises à jour.
Lecture séquentielle rapide possibilité de
séquentiel physique et logique (trié)
Accès rapide en 3 E/S au plus pour des fichiers
de 1 M d'articles
Inconvénients
Les suppressions génèrent des trous difficiles à
récupérer
Dans le cas d'index non plaçant, la localité est
mauvaise pour des accès séquentiels ou sur clés
secondaires, ce qui conduit à de nombreux
déplacement de bras.
Taille de l'index pouvant être importante.