PPT – ARPO PowerPoint presentation | free to download

About This Presentation

Title:

ARPO

Description:

Title: Cours ARPO Author: Irisa Last modified by: michaud Created Date: 9/23/1999 8:25:51 AM Document presentation format: Affichage l' cran Company – PowerPoint PPT presentation

Number of Views:59

Avg rating:3.0/5.0

Slides: 177

Provided by: Iri144

Category:

more less

Transcript and Presenter's Notes

Title: ARPO

1
ARPO

Architectures des processeurs superscalaires,
VLIW et optimisations

2
Linterface logiciel / matériel
langage
logiciel
compilateur
jeu dinstructions (ISA)
micro-architecture
matériel
transistor
3
Différents contextes

Processeurs à usage général
serveurs, ordinateurs de bureau, ordinateurs de
poche ...
exécute tous types dapplications
Processeurs enfouis
téléphone, télévision, voiture ...
application spécifique
processeur spécialisé ou dérivé dun processeur à
usage général

4
Besoins en performances

Performance
améliorer le temps de réponse gt interactivité
applications scientifiques
bases de données
traitement du signal
multimédia
...

5
Comment améliorer la performance ?
écrire un meilleur algorithme
langage
optimisations du compilateur
compilateur
jeu dinstructions (ISA)
améliorer lISA
micro-architecture
meilleure micro-architecture
transistor
nouvelle technologie
6
Où doit porter leffort ?
compilateur
ISA
micro-architecture
processeur usage général

processeur enfoui

Processeur usage général
en général, on hérite dun ISA existant (exemple
Intel x86)
compatibilité binaire la nouvelle génération de
processeur doit pouvoir exécuter les codes
exécutables sur les anciennes générations
Processeur enfoui
attention au coût du processeur
compromis performance / consommation électrique

7
Plan du cours

Performances
Architecture des processeurs
jeu dinstructions (ISA Instruction Set
Architecture)
micro-architecture
Compilateur
optimisations de code

8
Améliorer la performance ?

Ca dépend du point de vue
Débit dexécution faire plus de travail utile
pendant un temps donné
serveurs
environnement multiprogrammé
Temps dexécution faire un travail donné dans
un temps plus court
point de vue de lutilisateur
Rem diminuer le temps dexécution augmente le
débit

9
Accélération
Exemple Un programme compilé avec le
compilateur A sexécute en 10 ms Avec le
compilateur B, sexécute en 5 ms
10
accélération B/A
2
5
Le compilateur B est 2 fois plus performant
que le compilateur A
10
Accélération locale / globale
Exemple supposons quun programme passe 50 du
temps dexécution dans du calcul en virgule
flottante, et supposons quon multiplie par 2 les
performances du calcul en virgule flottante.
Quelle est laccélération globale ?
11
Loi dAmdahl
12
Exemple
Exemple supposons que 50 du temps dexécution
provienne du CPU, les 50 restant des
entrées/sorties. On multiplie par 5 les
performances du CPU. Quelle est laccélération
globale ?
Il faut optimiser dabord le cas le plus fréquent
13
temps CPU / temps réel
temps CPU temps utilisateur système
temps dexécution
temps réel (E/S, temps partagé )
Exemple processeur fixé, on travaille sur le
compilateur
On peut utiliser le temps CPU utilisateur pour
mesurer la performance
14
Fréquence / cycle / IPC
Fréquence CPU f fréquence de lhorloge interne
du processeur dépend (entre autres) de léchelle
de gravure des transistors
Cycle CPU T 1 / f
Exemple f 500 MHz T 2 ns
Nombre moyen dinstructions exécutées par cycle
15
MIPS / megaflops
MIPS
nombre moyen de millions dinstructions exécutées
par seconde
Exemple ISA et compilateur fixés , on travaille
sur la micro-architecture utiliser les
MIPS pour mesurer la performance
Si on travaille a fréquence CPU fixée, on peut
utiliser lIPC
nombre moyen de millions dopérations virgule
flottante par seconde
megaflops
Utilisé pour le calcul numérique intensif
16
Comparer des machines différentes
Les MIPS nont aucune signification ici car les
ISA sont différents
Solution 1 temps CPU
Solution 2 utiliser une machine de référence
Exemple VAX MIPS
17
Programmes de test

Programmes standards (benchmarks)
exemple 1 SPEC CPU2000
SPEC int compression de données, compilateur,
interpréteur, synthèse dimage, analyseur
grammatical, jeu déchec, conception de circuits
...
SPEC fp physique, maths, chimie, météo ...
Exemple 2 TPC (Transaction Processing
Performance)
base de données multi-utilisateurs
sollicite les entrées-sorties
Programmes spécifiques

Il faut choisir les programmes de test appropriés
au cas étudié ...
18
Évaluer / analyser les performances

Mesures de temps dexécution
Instrumentation
exemple quelle partie du code contribue le plus
au temps dexécution ?
code instrumenté code original code
supplémentaire permettant de récupérer de
linformation à lexécution (exemple adresses
mémoire)
exemples doutils Prof, Pixie, Salto, EEL, Atom,
Utilisation des compteurs matériels du processeur
compte certains évènements (exemple nombre
dinstructions exécutées)
quand un compteur atteint sa valeur maximum,
génère une interruption
Simulation
on simule lexécution au lieu dexécuter
réellement
lISA simulé peut ne pas être celui de la machine
sur laquelle on simule
Exemples de simulateurs Simplescalar, Shade,
SimOS, Impact ...

19
Jeu dinstructions (ISA)

Cest linterface matériel / logiciel
Exemples
Intel x86 (1979)
MIPS , SPARC (milieu années 80)
Alpha (début années 90)
Les ISA évoluent lentement, par ajouts successifs
il faut avoir de bonnes raisons pour lancer un
nouveau jeu dinstructions
plus de raisons pour les processeurs enfouis
applications spécifiques, densité du code,
consommation électrique, ...

20
Types dISA

CISC (Complex Instruction Set Computer)
ex. Intel x86, VAX, IBM 360, ...
taille dinstruction variable
plusieurs modes dadressage (absolu, basé,
indexé, indirect)
instructions registres-mémoire
instructions itératives
RISC (Reduced Instruction Set Computer)
ex. Alpha, Sparc, MIPS, PowerPC ...
taille dinstruction constante (en général 32
bits)
architecture load / store
modes dadressage simples (basé, indexé)
instructions simples registre-registre
VLIW (Very Long Instruction Word)
1 instruction VLIW plusieurs opérations
indépendantes

21
CISC exemple
add r4, 10 (r5, r6)
r4 r4 memr5r610
3 additions
add r7, r5, r6 load r7, 10 (r7) add r4, r4, r7
r7 r5 r6 r7 memr710 r4 r4 r7
Équivalent RISC
22
RISC contre CISC

CISC
code plus dense, prend moins de place en mémoire
RISC
décodage plus rapide
processeur plus simple
le compilateur peut optimiser le code

CISC
décode
Remarque lIntel P6 traduit à la volée les
instructions x86 en micro-opérations RISC
RISC
cœur RISC
23
Jeu dinstructions RISC typique

instructions sur 32 bits
32 registres entiers
32 registres flottants

load / store (basé)
rt rs op imm
branchement
saut registre

6
5
5
16
op
rs
rt
immédiat
Format I
6
5
5
5
11

rd rs fonc rt
load / store (indexé)

op
rs
rd
fonc
Format R
rt

saut

Format J
24
RISC remarques

Architecture 32 ou 64 bits ?
cest la taille des adresses virtuelles (
adresses logiques)
Intel x86 architecture 32 bits
Alpha, Sparc, MIPS architectures 64 bits
en général, correspond à la taille des registres
entiers
Virgule flottante
add, mul, div, sqrt, mult-add
banc de registres flottants séparé des registres
entiers
registres 64 bits (double précision)
Accès mémoires
plusieurs grains daccès octet, demi-mot (2
octets), mot (4 octets), double-mot (8 octets)
accès alignés quand on accède un groupe de N
octets, les log2(N) bits de poids faible de
ladresse sont nuls

25
Étapes dexécution (RISC)

Générer ladresse de linstruction
incrémenter le compteur de programme PC PC
4
Lire linstruction en mémoire
Décoder linstruction
type dinstruction (ALU, flottant, load, store,
branchement, ?)
préciser (add, mul, shift, and, or, adressage
basé, indexé, ?)
registres sources, registre destination
Lire les registres sources
Exécuter lopération
Écrire le résultat dans le registre destination
rem pour un saut ou un branchement pris, le
registre destination implicite est le compteur de
programme

26
Quelques données technologiques

Le temps de traversée dune porte logique nest
pas nul
Positionner une tension sur une connexion, ca
prend du temps
Temps de cycle des processeurs rapides (2000)
1 ns
Durée dune addition entière 64 bits 1 cycle
Durée dune addition / multiplication flottante
3-4 cycles
Lecture / écriture registres 1 cycle (dépend du
nombre de registres et du nombre de ports)
Accès mémoire de lt 1 cycle à plusieurs centaines
de cycles suivant le type et la taille de la
mémoire

Il faut plusieurs cycles pour exécuter
complètement une instruction
27
La technique du pipeline

Découper le traitement dune instruction en
plusieurs étages
mise à jour PC, chargement instruction, décodage
et lecture registres, exécution, écriture
registre
A un instant donné, chaque étage travaille sur
une instruction différente
en début de cycle, chaque étage envoie son
instruction à létage suivant

cycle N
cycle N1
cycle N2
PC PC4
Inst 5
Inst 6
Inst 7
chargement
Inst 4
Inst 5
Inst 6
décodage / lecture registres
Inst 3
Inst 4
Inst 5
exécution
Inst 2
Inst 3
Inst 4
écriture registre
Inst 1
Inst 2
Inst 3
28
Pipeline remarques

Le pipeline ne réduit pas le temps dexécution
d une instruction
en fait, ça lallonge même un peu à cause des
verrous quon rajoute entre les étages
Permet un débit dune instruction par cycle
en théorie, pas en pratique (cf. transparents
suivants)
Banc de registres à 3 ports 2 ports de lecture
et 1 port décriture
Rem si lISA autorise ladressage indexé (Sparc,
PowerPC), il faut un troisième port de lecture
pour les stores

29
Aléas structurels

supposons quau cycle N, une instruction load se
trouve à létage dexécution et essaie daccéder
à la mémoire
au même instant, une autre instruction se trouve
à l étage de chargement dinstructions on doit
également accéder à la mémoire
problème sil ny a quun seul port daccès à la
mémoire, conflit de ressource
1ère solution donner la priorité au load, et
différer dun cycle linstruction à létage de
chargement cest un aléa structurel
2ème solution 2 ports daccès à la mémoire

30
Dépendances de données

Soit 2 instructions I1 et I2 (I2 après I1)
3 types de dépendances de données
dépendance RAW (Read After Write)
le résultat de I1 est utilisé par I2
aussi appelée dépendance vraie
dépendance WAR (Write After Read)
I2 écrit dans un registre lu par I1
aussi appelée anti-dépendance
dépendance WAW (Write After Write)
I2 écrit dans le même registre que I1
aussi appelé dépendance de sortie

I1 r1 r11 I2 load r2, 0(r1)
I1 load r2, 0(r1) I2 r1 r11
I1 load r2, 0(r1) jump I3 if r50 I2 load
r2, 0(r3)
31
Aléas de données

Pour respecter les dépendances RAW, WAR et WAW,
on peut être amené à introduire des bulles
dans le pipeline
bulle la partie amont du pipeline est gelée ,
seule la partie aval du pipeline progresse
Aléas de données
RAW
WAW pas de problème si les instructions passent
par létage décriture dans lordre du programme
WAR pas de problème si on lit les registres
dans lordre du programme et toujours au même
étage du pipeline
Les aléas de données, comme les aléas
structurels, diminuent les performances

32
Aléa RAW
Cycle N
Cycle N1
Cycle N2
Cycle N3
PC PC4
chargement
décodage / lecture registres
I2 r1r11
I2
I2
I1 r1r2r3
bulle
bulle
I2
exécution
écriture registre
I1
bulle
bulle
Dépendance RAW entre I1 et I2 au moment ou I2
essaie de lire r1, I1 na pas encore écrit dedans
I2 doit attendre ...
On attend 2 cycles avant de lancer I2
2 cycles perdus
33
Mécanisme de bypass
Banc de registres
Enlève laléa RAW entre I1 et I2
PC PC4
MUX
MUX
chargement
décodage / lecture registres
exécution
écriture registre
34
Plus daléas de données ? presque ...

Plus daléas RAW entre instructions
registre-registre
A priori, il ny a pas daléas WAR ou WAW
Mais
certaines instructions nécessitent plusieurs
cycles d exécution
load / store
division et multiplication entière
opérations virgule flottante

35
Cas des load / store

On supposera pour linstant que laccès à la
mémoire se fait en 1 cycle
Pour exécuter un load / store
1 cycle pour calculer ladresse daccès
(addition)
1 cycle pour accéder à la mémoire
total 2 cycles à l étage dexécution
Solution diviser en 2 étages
étage dexécution utiliser lALU pour calculer
ladresse
étage daccès mémoire

36
Nombre détages variable ?
Pour les load / store, pipeline à 6 étages Pour
les autres instructions, pipeline à 5 étages
PC PC4
chargement
décodage / lecture registres
exécution
I2 r3r4r5
accès mémoire
I1 load r1,0(r2)
Aléa structurel au cycle suivant, I1 et I2 vont
essayer décrire en même temps dans le banc de
registre, or il ny a quun seul port décriture.
écriture registre
37
Nombre détages fixe
Pipeline à 6 étages pour toutes les
instructions Si linstruction nest pas un load /
store, létage accès mémoire ne fait rien
PC PC4
chargement
décodage / lecture registres
exécution
I2 r3r4r5
accès mémoire
I1 load r1,0(r2)
écriture registre
I1 et I2 écriront dans les registres à des cycles
différents plus daléa structurel
Grâce au bypass, pas de problème
38
Il reste des aléas RAW load-use
Cycle N
Cycle N1
Cycle N2
PC PC4
chargement
décodage / lecture registres
I2 r1r11
I2
exécution
I1 load r1,0(r2)
bulle
I2
accès mémoire
bulle
I1
écriture registre
I1
Un cycle de pénalité load-use Le compilateur
doit essayer dordonner les instructions de
manière à insérer une instruction entre I1 et I2
qui nutilise pas le résultat de I1
39
Exercice
load r2, 0(r1) a add r2, r2, 1 store r2,
0(r1) load r2, 4(r1) b add r2, r2, 1 store
r2, 4(r1)
aa1 bb1
PC PC4
chargement
décodage / lecture registres
exécution
accès mémoire

Combien de bulles sont générées sur cette
séquence ?
Transformer le code de manière à éliminer ces
bulles

écriture registre
40
Exercice

Hypothèse
1 instruction sur 5 est un load

PC PC4
chargement

1) Quel est lIPC moyen si la probabilité quune
instruction dépende de linstruction précédente
vaut 1/2 ?
2) On suppose quen ordonnant les instructions,
le compilateur est capable de placer une
instruction indépendante derrière 75 des load.
Quel est lIPC moyen ?

décodage / lecture registres
exécution
accès mémoire
écriture registre
41
Exercice
On modifie le pipeline on insère un étage calcul
dadresse spécifique avant létage dexécution.
Les accès mémoire se font à létage dexécution.
(létage calcul dadresse ne fait rien pour les
instructions qui ne sont pas des load / store)
PC PC4
chargement
décodage / lecture registres

Combien de bulles sur une dépendance load-use ?
Cette structure de pipeline a-telle le même coût
matériel que la structure précédente ?
Que doit faire le compilateur pour tirer partie
de cette structure de pipeline ?

calcul adresse
exécution / mem
écriture registre
42
Instructions longues

Instructions longues sur lAlpha 21264 (1998)
multiplication entière 7 cycles, complètement
pipelinée
division flottante 12 cycles SP, 15 cycles DP,
non pipelinée
racine carrée 18 cycles SP, 33 cycles DP, non
pipelinée
Les opérations non pipelinées génèrent des aléas
structurels
Attention aux aléas WAW
Problème des interruptions précises
si une interruption se produit entre I1 et I2, il
faut maintenir un état cohérent des registres
il ne faut pas que I2 écrivent dans les registres
avant dêtre sûr que I1 ne génèrera pas
dexception

43
Dépendances WAW
cycle de lancement
cycle décriture
Exemple de pipeline virgule flottante
I1 fmul f1,f1,f1 I2 fadd f1,f2,f3
N N5 N1 N4
PC
charg.
problème ...
déc/lect.

Solutions possibles
retarder le lancement de I2 (bulles)
masquer lécriture de I1
rajouter 2 étages vides après ladditionneur
flottant
...

fadd 3 cycles
fmul 5 cycles
écriture
44
Interruptions précises

Nécessaire lorsquon veut redémarrer un programme
interrompu par une exception
par exemple, on peut émuler par logiciel
certaines instructions
Faire les écritures registre dans lordre du
programme
Pipeline de même longueur pour (presque) toutes
les instructions
Problème augmente le nombre de niveaux de bypass
Solution utiliser 2 copies du banc de registres
banc de travail les écritures peuvent être
faites dans le désordre
banc architectural mis à jour dans lordre du
programme au commit (dernier étage du pipeline)
en cas dinterruption, on recopie le contenu du
banc architectural dans le banc de travail

45
Cas des sauts aléas de contrôle
PC adresse de saut
Cycle N
Cycle N1
Cycle N2
PC
I35
I36
chargement
I3
I35
I36
décodage / lecture registres
I2
bulle
I35
exécution
I1 jump _at_I35
bulle
bulle
accès mémoire
bulle
I1
écriture registre
I1
Les instructions I2 et I3 sont annulées 2 cycles
de pénalité de saut
46
Impact des aléas de contrôle

La pénalité de saut sera dautant plus grande que
les sauts et branchements seront exécutés tard
dans le pipeline
En moyenne, 1 saut exécuté pour 7 instructions

PC PC4

Exercice
on suppose pas daléas de donnée ou structurels
quel est limpact des aléas de contrôle sur les
performances ?

chargement
décodage / lecture registres
exécution
accès mémoire
écriture registre
47
Quelles solutions ?

Branchement différé (MIPS, Sparc )
le saut ne se fait pas tout de suite, mais avec
un délai
exemple le programme exécute I1, puis I2, puis
I5
permet denlever une bulle sur un saut
le compilateur doit trouver une instruction utile
à mettre dans le délai du branchement (à défaut,
mettre un NOP)
années 80, exécution des branchements au 3ème
étage, aucune pénalité de saut grâce à cette
technique
Prédiction de branchement
solution utilisée dans les processeurs dusage
général des années 90
cf. plus loin dans le cours

I1 jump _at_I5 I2 add r1,r1,1 I3 I4 I5
48
Exemple lUltrasparc-3 (2000)
pred.PC
charg. 1
charg. 2
decod. 1
decod. 2
dispatch
Les loads 4/8 octets sont terminés à load 1, les
loads 1/2 octets sont terminés à load 2.
Pipeline entier
exec.
load 2
load 1

commit
lit int
écriture registre ou mémoire
lit fp

exec. 1
exec. 2
exec. 3
exec. 4
Pipeline flottant
49
Exercice

Sur lUltrasparc-3
donner le nombre de bulles lorsque
une instruction de calcul entier dépend dun load
4 ou 2 octets
2 instructions de calcul flottant sont
dépendantes
une instruction de calcul flottant dépend dun
load
létage vide en début du pipeline flottant vous
paraît-il plutôt utile ou plutôt pénalisant ?
quel type de mécanisme peut-on imaginer pour
résoudre le cas dun load dépendant dun store
récent ?

50
Remarques

Optimiser le cas fréquent
les opérations très longues (ex. division) sont
traitées à coté du pipeline, en dehors du
chemin critique dexécution
Certains processeurs découplent les pipelines
entier et flottant
exemple MIPS R8000 (1994)
les opérations de calcul flottant sont insérées
dans une file dattente et traitées séparément
avantage les dépendances entres instructions de
calcul flottant nintroduisent pas de bulles
inconvénient pas dinterruption précise sur les
instructions de calcul flottant
Les processeurs enfouis ont généralement un
pipeline court (5-6 étages) alors que le pipeline
dun processeur à usage général peut faire entre
10 et 20 étages
pipeline long haute fréquence et haute
consommation électrique

51
La mémoire

Plus une mémoire est grande, plus son temps
daccès est long
3 types de mémoire
banc de registres
peu dentrées, temps daccès court (lt 1 cycle),
plusieurs ports
mémoire dynamique (DRAM)
mémorisation dune charge sur une capacité, 1
transistor par bit
grande densité dintégration (16-64 Mbits)
temps daccès long 50-100 ns
utilisé comme mémoire principale
mémoire statique (SRAM)
mémorisation par bouclage de 2 portes 1-4 Mbits
cher
temps daccès court 5-10 ns

52
Latence mémoire

La latence mémoire nest pas seulement constituée
par le temps daccès DRAM
translation dadresse
traverser les broches du processeur et le bus
externe
multiplexage si plusieurs bancs mémoires
Latence mémoire principale 100-200 ns
à 1 GHz, ça fait 100 à 200 cycles CPU
problème !!

53
Les caches

utiliser de la SRAM pour maintenir des copies des
instructions et des données utilisées souvent
si possible, intégrer cette mémoire cache sur le
processeur
latence moindre
les données et instructions stockées dans le
cache sont étiquetées avec leur adresse afin de
pouvoir les identifier sans ambiguïté
quand on veut charger une instruction ou une
donnée, on regarde si elle se trouve dans le
cache ou pas
si oui (hit), latence mémoire latence cache 1
à 10 cycles
si non, cest un défaut de cache (miss), on va
chercher la donnée en mémoire principale, et on
la recopie dans le cache
le cache est transparent à lutilisateur, tout
est automatique
actuellement, cache de données et cache
dinstructions distincts
permet de lire dans le même cycle une donnée et
une instruction

54
Les caches pourquoi ca marche

Localité temporelle
des données ou des instructions déjà accédées
dans le passé sont souvent réutilisées dans un
futur proche
Localité spatiale
des données ou des instructions qui sont à des
adresses proches ont tendance à être accédées
dans des temps rapprochés
sur un défaut de cache, on ne chargera pas une
seule donnée ou une seule instruction, mais un
bloc de plusieurs instructions ou données
bloc ligne de cache
taille dune ligne de cache 16-64 octets

55
Exercice
On suppose que le chargement dinstructions se
fait en 1 cycle (pas de défauts de cache
dinstructions) , quil ny a pas daléas de
contrôle, structurels, WAW ou load-use On suppose
que lorsque la donnée se trouve dans le cache de
données, un load / store passe un seul cycle dans
létage daccès mémoire Sur un défaut de cache,
le pipeline est gelé en amont de létage daccès
mémoire en attendant que la donnée arrive
PC PC4
chargement
décodage / lecture registres
exécution
accès mémoire

Environ 40 des instructions sont des load/store
Quel est le débit en IPC du pipeline si un défaut
de cache prend 50 cycles à se résoudre et si cela
se produit sur 10 des load/store ?
Quelle est la latence moyenne dun load/store ?

écriture registre
56
Caches remarques

Même un faible pourcentage de défauts de cache
est pénalisant
Gros travail doptimisation à faire sur les
caches
La hiérarchie mémoire est constituée de plusieurs
niveaux de cache sur les processeurs actuels
caches primaires (L1)
cache dinstructions et cache de données
8 à 64 Ko
temps daccès 1-2 cycles
cache secondaire (L2)
unifié (instructions et données)
si externe, 512 ko à 4 Mo
de plus en plus, intégré sur le processeur (256
Ko on-chip)
latence 5-10 cycles
(cache tertiaire externe)

57
Caches remarques

Sur un défaut de cache primaire, on va chercher
la ligne manquante dans le cache secondaire
Si défaut de cache secondaire, on va chercher la
ligne manquante en mémoire principale (ou dans le
cache tertiaire sil y en a un)
La plus grande partie du budget en transistors
des processeurs actuels est utilisée dans les
caches
Exemple le PA-8500 dHP (1999)
130 millions de transistors, 1.5 Mo de cache
on-chip

58
Cache principe de mise en œuvre
étiquette (tag) identificateur de ligne
Espace mémoire
lignes de cache
Load A
Si ladresse de la ligne contenant A se trouve
dans la table des étiquettes, la donnée est dans
le cache
A
59
Différents types de cache

Compromis entre la complexité du cache et sa
capacité à retenir un maximum de lignes
Cache à correspondance directe (direct-mapped)
une ligne na quun seul emplacement possible
dans le cache
conflits entre différentes lignes
Cache complètement associatif (fully-associative)
une ligne peut être à nimporte quel emplacement
dans le cache
lespace du cache est mieux utilisé
Associatif par ensembles de N lignes (N-way
set-associative)
intermédiaire entre direct-mapped et
fully-associative

60
Cache direct-mapped
Exemple cache de 4 Ko, lignes de 16 octets,
adresses 32 bits
4 bits
8 bits
20 bits
adresse daccès
étiquette (tag)
index cache
offset ligne
8
256 lignes de cache de 16 octets
256 tags de 20 bits
4
20
20
ligne
?
Si tags égaux, la donnée est dans le cache.
Sinon, défaut de cache.
61
Exercice
On considère une architecture 64 bits (adresses
sur 64 bits). Soit un cache direct-mapped pouvant
contenir 64 Ko de données, la taille de ligne
étant de 32 octets.

Combien de lignes contient le cache ?
Quelle est la taille dune étiquette en nombre de
bits ?
Si on compte la table des étiquettes, quelle est
la quantité de mémoire réellement occupée par le
cache ?
Montrer que, lorsque deux adresses sont séparées
par une distance inférieure à 64 Ko, elles ne
sont pas en conflit dans le cache. La réciproque
est-elle vraie ?

62
Exercice
Cache direct-mapped 4 Ko, ligne 16 octets
Programme A
Programme B
define _8k 8192 char a_8k register int i,x
0 for (i0ilt_8ki) ai ai1 for
(i_8k-1igt0i--) xxai
define _8k 8192 int a_8k register int i,x
0 for (i0ilt_8ki) ai ai1 for
(i_8k-1igt0i--) xxai

Combien de défauts de cache sont générés sur la
deuxième boucle du programme A ?
Même question sur le programme B

63
Exercice
Soit un cache direct-mapped de N octets avec des
lignes de L octets

Quelle est la probabilité (fonction de N et L)
pour que deux adresses aléatoires soient en
conflit dans le cache ?
Quelle conclusion en tirez-vous ?
Soit deux tableaux de K octets chacun, commençant
aux adresses respectives A et B (les données dun
tableau sont rangées à des adresses contiguës en
mémoire). On suppose que les adresses A et B sont
alignées sur des frontières de ligne et que
chaque tableau fait un nombre entier de lignes.
Quelle est la probabilité pour que ces deux
tableaux soient en conflit dans le cache ?

64
Cache N-way set-associatif
Exemple cache 2-way SA de 4 Ko, lignes de 16
octets, adresses 32 bits
4 bits
7 bits
21 bits
étiquette (tag)
index cache
offset ligne
banc 0
banc 1
banc 0
banc 1
128 lignes de 16 octets
128 tags 21 bits
128 lignes de 16 octets
128 tags 21 bits
?
?
Sélectionner la bonne ligne
La ligne est-elle présente ?
ou
65
Cache N-way SA

Chaque ensemble est composé de N lignes réparties
sur N bancs et ayant le même index de cache
Temps daccès plus élevé quun cache
direct-mapped
pour accéder à la donnée, on doit avoir lu les
tags et effectué la comparaison
Si le nombre de bancs dun cache SA est égal au
nombre total de lignes dans le cache, on obtient
un cache FA
Politique de remplacement en cas de défaut de
cache, on a le choix entre N emplacements pour
stocker la nouvelle ligne
random
remplacer une ligne au hasard parmi les N
LRU (least recently used)
remplacer la ligne la moins récemment utilisée
meilleur que random

66
LRU exemple
Cache 4-way set-associatif Supposons que les
lignes A,B,C,D,E aient le même index cache
Cache avant
Hit / miss ?
Ligne évincée
Cache après
Ligne accédée
A DBCA hit
ADBC
B ADBC hit
BADC
C BADC hit
CBAD
D CBAD hit
DCBA
E DCBA miss A
EDCB
A EDCB miss B
AEDC
E AEDC hit
EADC
B EADC miss C
BEAD
67
Mise en œuvre matérielle du LRU

Cache 2-way SA
associer un bit B à chaque ensemble
ce bit contient le numéro du dernier banc accédé
(0 ou 1) dans lensemble considéré
quand on doit évincer une ligne, choisir le banc
NON(B)
Cache N-way SA
associer une matrice de bits Ai,j à chaque
ensemble du cache
Ai,j1 signifie que le banc i a été accédé plus
récemment que le banc j dans lensemble considéré
comme Ai,j NON(Aj,i), prendre la partie
triangulaire sans la diagonale
N(N-1)/2 bits
lorsque le banc k est accédé, mettre la ligne k à
1 et la colonne k à 0
le banc le moins récemment accédé est celui dont
la ligne ne contient que des 0 et la colonne que
des 1
bonne approximation du LRU utiliser une
structure en arbre
exemple 4-way 3 bits (1 pour chaque paire de
bancs 1 global)

68
Distance de réutilisation définition

Dun point de vue algorithmique, on peut
maintenir lordre LRU par une liste chaînée
chaque ligne accédée est placée en tête de liste
la ligne en queue de liste est la moins récemment
utilisée
plusieurs listes chaînées
les lignes qui ont le même index cache sont dans
la même liste
si cache FA, une seule liste globale
Distance de réutilisation D dune ligne
distance par rapport à la tête de liste
D0 pour la ligne en tête de liste
D peut être globale (une seule liste) ou locale
(plusieurs listes)
Sur un cache N-way SA LRU, si D lt N cest un hit,
sinon cest un miss

69
Distance de réutilisation utilité

La distance de réutilisation globale dune ligne
donne une idée de sa localité temporelle
Sur un cache FA LRU comportant N lignes
si D lt N cest un hit, sinon cest un miss
Sur un cache direct-mapped comportant N lignes
soit une ligne A et soit D sa distance de
réutilisation globale
D lignes distinctes ont été accédées depuis la
dernière utilisation
si on néglige la localité spatiale, la
probabilité que ces D
lignes aient toutes un index différent de A vaut
la probabilité davoir un miss sur A vaut
La probabilité de miss augmente avec la distance
de réutilisation

70
Exercice multiplication de matrices
register int i, j, k for (i 0 i lt N i)
for (j 0 j lt N j) for (k 0 k lt
N k) Cij Aik Bkj

for (jj 0 jj lt N jjjjN/2) for (i 0 i lt
N i) for (j jj j lt jjN/2 j)
for (k 0 k lt N k)
Cij Aik Bkj
1
3

Combien de fois utilise-t-on un même élément de
A, B et C ?
On suppose 1 ligne 1 donnée. Quelle est la
distance de réutilisation globale dun élément de
A, B et C sur chacun des 3 programmes ?
Conclusion ?
On suppose 1 ligne plusieurs données. Entre les
programmes 1 et 2, lequel des deux est à votre
avis le plus performant ?
on supposera (Xij) X i N j

for (i 0 i lt N i) for (k 0 k lt N
k) for (j 0 j lt N j)
Cij Aik Bkj
2
71
Direct-mapped / set-associatif

Direct-mapped
accès rapide
on na pas besoin dattendre la lecture des tags
et la comparaison pour savoir ou se trouve la
donnée
Set-associatif
en général, 2-way ou 4-way
le temps daccès augmente avec lassociativité
moins de cache miss
règle empirique un cache 2-way SA de taille N a
grosso-modo le même taux de miss quun cache DM
de taille 2N

72
La bande passante

Bande passante débit maximum de transit des
données sur le bus entre deux niveaux de cache ou
vers la mémoire
Bande passante limitée par la fréquence et la
largeur du bus
exemple bus 128 bits 500 MHz, bande passante
maximale 8 Giga-octets par seconde
Une bande passante trop petite augmente la
latence apparente des accès mémoire
La localité spatiale permet de bien utiliser la
bande passante disponible

73
Exemple
Soit un tableau de N entiers accédé pour la
première fois. On suppose que les accès se font
dans lordre 1,2,3,4,5, ... Les lignes font 64
octets et la bande passante du bus est de 8
octets par cycle. La latence mémoire est de 10
cycles.
Fréquence des miss 1 miss pour 16 accès Latence
moyenne dun load (151 110)/16 1.56
cycles ? FAUX !
Un miss ne met pas 10 cycles à se résoudre, mais
9 64/8 17 cycles Latence moyenne dun load
(151117)/16 2 cycles
Et si on prend des lignes plus petites, par ex.
16 octets ? Fréquence des miss 1 miss pour 4
accès. Temps de résolution dun miss 9 16/8
11 cycles Latence moyenne dun load
(31111)/4 3.5 cycles
74
Quelle taille de ligne ?

Petites lignes ?
on ne charge sur le bus et dans le cache que des
données utiles
la place occupée par les tags augmente
Grandes lignes ?
bonne localité spatiale ?
effet de préchargement bénéfique
on peut avoir un bus plus large
localité spatiale médiocre ?
espace du cache mal utilisé (beaucoup de
trous dans les lignes)
risque de conflits entre lignes
bande passante gaspillée
Compromis
taille de ligne typique 64 octets

75
Les écritures dans le cache

Les écritures posent moins un problème de latence
que de bande passante
le problème de latence est résolu avec un tampon
décritures en attente
les écritures peuvent se faire lorsque la bande
passante nest pas utilisée par les lectures ou
lorsque le tampon est plein
Cache write-through
lorsquune donnée est écrite dans le cache, elle
est écrite en même temps dans le niveau de cache
suivant ou en mémoire principale
si le niveau de cache suivant est write-through,
on propage lécriture de la même façon
en cas de miss sur écriture, on se contente
généralement de ne faire lécriture quen
mémoire, on ne va pas chercher la ligne manquante
facilite le maintient de la cohérence mémoire sur
machine multi-processeur
Cache write-back
les écritures se font uniquement dans le cache.
Lorsquune ligne est évincée du cache et quelle
a été modifiée, elle est recopiée automatiquement
en mémoire
write-allocate en cas de miss sur écriture, on
va chercher la ligne manquante
meilleur utilisation de la bande passante et
débit décriture moindre

76
Mémoire virtuelle

Les adresses logiques (ou virtuelles, c.a.d
celles vues par le logiciel) ne sont pas
forcément celles qui sont utilisées par le
matériel pour adresser la DRAM (adresses
physiques)
avantage permet de voir un espace
dadressage plus grand que celui offert par la
quantité de DRAM disponible (et le nombre de
broches)
On utilise un mécanisme de translation dadresse
pour convertir les adresses logiques en adresses
physiques
en général, combinaison de techniques matérielles
et logicielles
lunité de mémoire sur laquelle on travaille
page mémoire
mécanisme de pagination
les pages quon ne peut pas stocker en DRAM sont
stockées sur disque
on utilise une table des pages pour faire la
translation page logique / physique
pour accéder à une page qui se trouve sur disque,
on la recopie en DRAM et on met à jour la table
des pages

77
Pagination

Taille de page typique 4 Ko
Table des page indexée avec le numéro de page
logique, fournit un numéro de page physique
La table des pages est stockée en DRAM, dans une
zone ne nécessitant pas de translation
exemple espace logique sur 32 bits, pages 4 Ko
(12 bits doffset), soit 220 pages logiques
Si on devait consulter la table des pages pour
chaque accès mémoire, le temps de translation
serait beaucoup trop long
On utilise un TLB (translation look-aside buffer)
TLB cache de translation dadresse intégré sur
le processeur
contient un sous-ensemble de la table des pages
typique 64/128 entrées, full-associative

78
TLB
Exemple adresses logiques 32 bits, pages de 4
Ko, TLB 64 entrées
12 bits
20 bits
adresse logique
numéro de page logique
offset page
64 tags numéros de page logique
TLB
64 numéros de pages physiques qq bits de statut
12 bits
adresse physique
numéro de page physique
offset page
79
Défauts de TLB

Sur un défaut de TLB, une exception est générée
le système consulte la table des pages en DRAM
si la page est présente en DRAM, le système met
le TLB à jour puis rend la main au programme
latence quelques dizaines à quelques centaines
de cycles
si la page nest pas présente cest un défaut de
page
latence centaines de milliers de cycles (accès
disque)

80
Mémoire virtuelle et caches

Stocke-t-on dans le cache des adresses logiques
ou physiques ?
Adresse logique
problème des synonymes sur les pages accessibles
en écriture
des pages logiques distinctes projetées sur la
même page physique
plusieurs copies de la même données dans le cache
Adresse physique
il faut accéder au TLB avant daccéder au cache,
ça augmente le temps daccès
En général
cache L1 données index logique/tag physique
cache L1 instructions adresses logiques ou index
logique/tag physique
cache L2 adresses physiques

81
Index logique / tags physiques

Si la somme du nombre de bits dindex cache et du
nombre de bits doffset ligne ne dépasse pas le
nombre de bits doffset page, lindex de
ladresse physique est égal à lindex de
ladresse logique
on peut commencer à indexer le cache avec
ladresse logique, sans attendre que laccès TLB
soit terminé
laccès TLB se fait en parallèle avec lindexage
du cache, il ne coûte rien
la comparaison sur les tags seffectue avec
ladresse physique
Si les pages sont trop petites, on peut
augmenter lassociativité du cache pour réduire
le nombre de bits dindex
imposer au système de ne pas altérer les bits
qui dépassent lors de la translation
dadresse

82
En résumé ...

Les caches permettent de masquer la latence
daccès à la mémoire principale
lorsque la localité des références est bonne, la
majorité des load et des store sexécutent en 1
ou 2 cycles
Un cache permet de filtrer les requêtes vers les
niveaux de cache suivant on économise de la
bande passante
si on a un bus mémoire avec une faible bande
passante, on a intérêt à avoir un gros cache
Technique complémentaire le préchargement
préchargement matériel
exemple sur un cache miss, charger la ligne
manquante dans le cache et charger les lignes
suivantes dans un tampon de préchargement daccès
rapide
fonctionne bien pour les instructions et les
accès aux tableaux
préchargement logiciel instructions fetch
(plupart des ISA RISC)
il faut de la bande passante !

83
Que peut faire le compilateur ?

Améliorer la localité temporelle
réarranger les boucles
exemple multiplication de matrice
Améliorer la localité spatiale bien utiliser les
lignes de cache
lire les tableaux 2D dans le bon sens
éviter de faire des accès par pas supérieur à 1
Utiliser les registres chaque fois que cest
possible
Préchargement logiciel

84
Le problème des sauts
En moyenne, un saut se produit toutes les 7
instructions Pipeline de plus en plus long
actuellement gt 10 étages (Intel P6, Ultrasparc 3,
AMD Athlon ), bientôt 20 étages (Intel Pentium
4)
N étage auquel les sauts sont exécutés
inst / cycle
IPC
85
La prédiction de branchements
Années 80
Années 90
PC PC4
prédiction PC
chargement
chargement
correction si mal prédit
décodage
décodage
saut
exécution
exécution
accès cache
accès cache
écriture registre
écriture registre
Branchements prédits non pris
On essaie de prédire les sauts
86
Prédiction de branchement principes

Il faut minimiser le nombre de mauvaises
prédictions
sur un branchement mal prédit, on retrouve le
problème des aléas de contrôle (bulles)
Utiliser le comportement passé des branchements
la majorité du temps dexécution est passé dans
des boucles lorsquon rencontre un branchement,
on a de bonnes chances de lavoir déjà rencontré
dans le passé
le comportement des branchements nest pas
aléatoire, il est biaisé on peut prédire le
comportement futur du branchement en regardant
son comportement passé
Stocker linformation sur le comportement passé
de chaque branchement dans une table de
prédictions
table daccès rapide indexé avec le PC du
branchement
premier étage du pipeline

87
Types de branchements

Branchement inconditionnel
le saut est systématique
saut relatif
adresse de saut statique, connue à la compilation
exemple PC du branchement offset immédiat
saut indirect
adresse de saut dynamique, lue dans un registre
retours de fonction, appels de fonctions, switch
case, pointeurs de fonctions
Branchement conditionnel
dépend de lévaluation dune condition le
branchement peut être pris (on saute) ou non pris
(on passe à linstruction suivante)
comparaison entre 2 registres ou comparaison dun
registre avec 0
en général, adresse de saut statique
boucles, ifthenelse, switch case, ...

88
Quelques statistiques ...

En moyenne 1 instruction sur 5 est un branchement
(conditionnel ou inconditionnel)
les blocs de base sont petits (certains font 1 ou
2 instructions)
il est souhaitable de pouvoir prédire un
branchement par cycle
75 des branchements sont conditionnels
il est important de bien prédire les branchements
conditionnels
40 des branchements conditionnels sont non pris
prédire toujours non pris 60 de
mauvaises prédictions
10 des branchements sont des retours de
fonction
0 à 10 des branchements sont des appels de
fonction indirects
plus nombreux dans les codes orientés objet
Restant branchements inconditionnels relatifs

89
Les branchements dans le pipeline
Branchement identifié
prédiction
Adresse de saut relatif
chargement
décodage
Branchement conditionnel exécuté Saut indirect
exécuté
exécution
accès cache
écriture registre
90
Les étapes de la prédiction

Prédire quà ladresse indiquée par le compteur
de programme se trouve une instruction de
branchement
Identifier le branchement
branchement conditionnel ou inconditionnel ?
appel de fonction ?
retour de fonction ?
Prédire ladresse de saut
Pour les branchements conditionnels, prédire si
le branchement est pris (1) ou non pris (0)
En cas de mauvaise prédiction, profiter du temps
de réparation du pipeline pour corriger la table
de prédiction

91
Table de prédictions
Est-ce un branchement ? Si oui info table
(type, 0/1,adresse saut) PC lt F (PC, info
table) Si non PC lt PC 4
PC suivant
prédiction
PC courant
chargement
décodage
Mise à jour si mauvaise prédiction
exécution
accès cache
écriture registre
92
Cache de branchements
ou BTB (Branch Target Buffer)
étiquettes
cibles
PC
?
Un branchement est détecté, il est prédit pris
adresse de saut
93
Utilisation du BTB

On stocke dans le BTB les sauts inconditionnels
et les branchements pris
La présence dune entrée dans le BTB entraîne un
saut à ladresse indiquée par le BTB
En labsence dune entrée BTB, on suppose que
linstruction nest pas un branchement ou est un
branchement non pris
En cas de mauvaise prédiction, corriger le BTB
si on a manqué un saut, rajouter lentrée
manquante
si on a prédit un branchement pris alors quen
réalité il est non pris, enlever lentrée du BTB
si on a sauté à une mauvaise adresse, corriger
ladresse de saut dans le BTB

94
BTB remarques

Aussi appelé BTAC (branch target address cache)
Utilisé sur les processeurs Intel P6, AMD Athlon,
IBM Power3, HP PA-8500 ...
Taille 32-2048 entrées
Associativité 2/4
Prédiction comme la dernière fois ( on prédit
le même comportement que la dernière fois)
fonctionne bien pour les inconditionnels relatifs
le comportement est toujours le même
pas optimal pour les branchements conditionnels
et les retours de fonction
le comportement nest pas toujours le même
20 de mauvaises prédictions sur les
conditionnels

95
Prédiction comme la dernière fois
direction effective
prédiction
1
for (i0ilt1000i) for (j0jlt4j)
corps de la boucle
1
1
1
1
mal prédit
0
1
mal prédit
1
0
1
1
1
1
mal prédit
0
1
mal prédit
1
0
Branchement mal prédit à la première et à la
dernière itération
96
Exercice

On considère un branchement conditionnel ayant
une probabilité p dêtre pris.
En prédisant comme la dernière fois, quel taux de
mauvaises prédictions obtient-on sur ce
branchement ?
Quel taux de mauvaises prédictions obtiendrait-on
si on prédisait ce branchement toujours pris ?
Est-ce mieux que comme la dernière fois ?

97
Le compteur 2 bits
prédit 0
prédit 1
1
1
1
1
0
1
2
3
0
0
0
0

4 états 2 bits
la prédiction est obtenue en lisant le bit de
poids fort du compteur
il faut 2 mauvaises prédictions consécutives pour
changer la prédiction en partant dun état
fort (0 ou 3)

98
Efficacité du compteur 2 bits
for (i0ilt1000i) for (j0jlt4j)
corps de la boucle
Branchement mal prédit à la dernière itération
seulement

Le compteur 2 bits divise par 2 le nombre de
mauvaises prédictions sur les branchements
conditionnels
10 de mauvaises prédictions sur les
conditionnels

99
Compteur 2 bits mise en œuvre

Première possibilité rajouter un compteur 2
bits dans chaque entrée du BTB
on bénéficie de lassociativité du BTB
si un branchement est prédit pris mais quen
réalité il est non pris, on décrémente le
compteur et on laisse lentrée dans le BTB
Deuxième possibilité stocker les compteurs 2
bits dans une table spécifique, la BHT (branch
history table)
MIPS R10000, IBM Power3, PowerPC, AMD Athlon, HP
PA-8500
pas de tags, juste 2 bits dans chaque entrée
la BHT peut comporter plus dentrées que le BTB
taille 256 à 2k entrées
quand le compteur passe de létat 2 à létat 1,
lentrée dans le BTB nest plus nécessaire

100
BHT
PC du branchement conditionnel
poids forts
poids faibles
n bits
BHT 2n compteurs 2 bits
Rem comme il ny a pas de tags, on ne peut pas
avoir dassociativité.
Interférences entre branchements. Problème
analogue aux conflits dans un cache direct mapped.
Le bit de poids fort du compteur donne la
prédiction
101
Prédire les retours de fonction

Utiliser une pile dadresses de retour
pour chaque call exécuté, on empile ladresse de
retour
pour prédire un retour, au lieu dutiliser
ladresse fournie par le BTB, dépiler ladresse
au sommet de la pile et sauter à cette adresse
Peut être utilisé aussi pour prédire les retours
dinterruptions et dexceptions
Si pile suffisamment profonde, 100 de bonnes
prédictions
UltraSparc-3 (8 entrées), AMD Athlon (12 entr.),
Alpha 21264 (32 entr.)
ne pas abuser de la récursivité
Principale difficulté identifier les appels
et les retours
utiliser le code-op (ex. appel saut avec lien)
le compilateur peut aider le processeur
exemple hint (Alpha), jr 31 (MIPS) ...

102
BTB / BHT

Processeurs ayant à la fois un BTB et une BHT
le BTB permet didentifier les branchements avant
décodage (conditionnel/inconditionnel/appel/retour
) et fournit ladresse de saut (sauf pour les
retours)
la BHT prédit la direction des conditionnels
Processeurs ayant une BHT mais pas de BTB
la prédiction se fait à létage de décodage
si prédit non pris, pas de pénalité
exemple

Write a Comment

User Comments (0)

About PowerShow.com

ARPO - PowerPoint PPT Presentation

ARPO

Title: Cours ARPO Author: Irisa Last modified by: michaud Created Date: 9/23/1999 8:25:51 AM Document presentation format: Affichage l' cran Company – PowerPoint PPT presentation