Title: Evolution des microprocesseurs
1- Evolution des microprocesseurs
CUBE Abbaye de Fontevraud 22 23 Janvier 2002
Claude Camozzi Stratégie Plateforme
2Agenda
- Critères de jugement
- Les moteurs technologiques et économiques
- Performances et architecture
- Parallélisme dinstructions
- Parallélisme de flots dexécution
- Temps daccès et hiérarchie mémoire
- Intégrité et disponibilité
- Discussion et conclusions
3Microprocesseurs la mesure du succès
- Richesse de lenvironnement applicatif
- Cest sur la disponibilité de solutions que sont
prises les décisions dachat - Cercle vertueux volume ? vitesse de développement
- Performances et prix/performances
- La partie la plus visible et la plus
spectaculaire de la guerre entre fabricants - Le point central dinnovation
- Disponibilité et intégrité
- Jadis négligées, ces qualités rapprochent les
microprocesseurs modernes des mainframes - Consommation et dissipation thermique
- Importance croissante bien au delà du secteur des
ordinateurs portables
4Agenda
- Critères de jugement
- Les moteurs technologiques et économiques
- Performances et architecture
- Parallélisme dinstructions
- Parallélisme de flots dexécution
- Temps daccès et hiérarchie mémoire
- Intégrité et disponibilité
- Discussion et conclusions
5Le moteur de lévolution la loi de Moore
- Doublement de la densité des circuits tous les 18
mois - Validité escomptée au moins jusquen 2010
6Evolution de la finesse du trait
- Augmentation du nombre de transistors O(n2)
- Augmentation de la fréquence O(n)
7Résultats constatés
- La différence des évolutions est principalement
liée aux avancées architecturales - Rôle essentiel du cycle vertueux
- grande diffusion ? revenus ? moyens RD
8Considérations économiques
- Coûts généralement constatés
- Évolution technologique ( shrink , augmentation
fréquence, taille des caches) O(10M) - Nouvelle micro-architecture O(100M)
- Nouvelle architecture O(1000M)
- Coût de fabrication en volume 10-100
- Conséquences
- Nécessité de produire en grandes quantités pour
amortir les frais de RD - Les ordinateurs de (relativement) faible
diffusion restent essentiellement cantonnés à des
évolutions mineures - Concentration de lindustrie
9Agenda
- Critères de jugement
- Les moteurs technologiques et économiques
- Performances et architecture
- Parallélisme dinstructions
- Parallélisme de flots dexécution
- Temps daccès et hiérarchie mémoire
- Intégrité et disponibilité
- Discussion et conclusions
10Performances dun processeur (selon Hennessy)
- Équation de base de la performance d'un
processeur - Facteurs contribuant aux termes de cette équation
- Nombre d'instructions par tâche
- algorithme, compilateur optimisant, répartition
des fonctions entre programme d'application et
système d'exploitation, - adéquation de l'architecture au problème à
traiter - Nombre de cycles par instruction
- compilateur optimisant, définition de
l'architecture, implémentation de l'architecture
(pipeline, superscalaire, super-pipeline,....) - Temps de cycle
- définition de l'architecture, technologie,
implémentation de l'architecture
11La clé des gains de performances le parallélisme
- Historiquement connu et développé au niveau
système, visible par le programmeur - SMP, multiprocesseurs à mémoire partagée
- Clusters, ordinateurs coopérants par échange de
messages par réseau rapide - Deux techniques complémentaires au niveau du
processeur unitaire - Parallélisme dinstructions ILP (Instruction
Level Parallelism) vise lexécution parallèle
dun flot dinstructions (invisible au
programmeur) - Exécution simultanée de flots dexécutions
(threads) multiples - SMT (Simultaneous Multithreading) gérant
plusieurs contextes qui se partagent les
ressources du processeur (PowerPC G3, P4
hyperthreading ) - CMP (Chip Multiprocessing) en fait , SMP sur un
chip (Power 4)
12Instruction Level Parallelism
- Parallélisme au niveau des instructions
- Recouvrement des opérations (pipelining)
- Parallélisme de données (SIMD) via jeux
dinstructions vectorielles - Parallélisme dexécution plusieurs opérations
réalisées simultanément (superscalaires) - Complexité croissante induite
- Exécution dans le désordre
- Renommage des registres
- Exécution spéculative
- Prédiction de branchement
-
Ex la logique de contrôle de lexécution dans le
désordre de PA 8000 occupe autant de transistors
que la totalité du processeur de la génération
précédente (PA7200)
13Instruction Level Parallelism (2)
- VLIW (Very Large Instruction Word), nouvelle
tendance pour une meilleure utilisation du
budget de transistors - Concept datant des années 80
- EPIC (Explicitly Parallel Instruction Computing),
variante VLIW dIntel/HP développé pour
larchitecture 64 bits Itanium - Crusoe de Transmeta, autre exemple récent
dimplémentation - Principe de base identification du parallélisme
possible à la compilation - Vue globale de la structure du programme
- Élimination de la complexité du contrôle
dexécution dans le désordre - Utilisation du budget transistors pour doter le
processeur de ressources massives (mémoire cache,
registres, unités fonctionnelles, dispositifs
dintégrité)
14Evolution des architectures (analogie simpliste)
- Un travail (le programme) consiste à ranger (le
plus rapidement possible) un lensemble dobjets
dans un container - Les objets sont matérialisés par une suite de
paquets (les instructions) par la préparation de
programmes ( software factory ) - Ces paquets sont délivrés dans lordre à lusine
dassemblage (le processeur) qui est chargé de
les loger dans le conteneur - Les paquets ne sont pas banalisés,il existe des
règles qui doivent être respectées pour que le
résultat de ce travail soit correct
15Evolution des architectures (2)
- CISC (complex instruction set) paquets de
tailles différentes qui rendent la manipulation
plus lente - RISC (reduced instruction set) paquets de taille
fixe qui simplifient et accélèrent les opérations
de manutention. A noter architectures CISC à cur
RISC (pour compatibilité) - Superscalaires OOO (out of order) lusine
dassemblage sorganise en chaînes parallèles
pour accélérer le remplissage. La synchronisation
de ces chaînes est complexe et les procédures de
reprise en cas de conflit très coûteuses - EPIC/VLIW la software factory fabrique des
paquets pré-assemblés dont on sest déjà assuré
quils respectent les contraintes imposées
16Temps daccès à la mémoire
Lécart grandissant entre les performances des
processeurs et des mémoires devient le problème
prioritaire
17Solutions hiérarchie de mémoire
- Lutilisation de multiples niveaux de cache donne
un temps daccès apparent faible pour les
applications bénéficiant de localité spatiale et
temporelle - Lintégration de plus en plus poussée permet de
loger plusieurs niveaux de cache sur le chip ou
sur module externe (MCM) - Exemple Itanium
- Registres nombreux (128 GR et 128 FP, 64
prédicats,)
18Solutions préchargement et spéculation
- Alimentation des caches, automatique
( prefetch ou load spéculative ) dirigée
par le compilateur - Aides à la gestion des caches ( hints générés
par le compilateur) - Recouvrement des temps daccès par commutation de
thread dans processeurs SMT (attention aux
conflits de working set!) - Caches partagés pour CMP
- Prédiction de branchements
19Agenda
- Critères de jugement
- Les moteurs technologiques et économiques
- Performances et architecture
- Parallélisme dinstructions
- Parallélisme de flots dexécution
- Temps daccès et hiérarchie mémoire
- Intégrité et disponibilité
- Discussion et conclusions
20Intégrité et disponibilité
- Exemple de fonctions intégrées à larchitecture
Itanium - Contrôle de parité sur cache L1
- Contrôle ECC sur cache L2 L3, bus L3 et bus
mémoire - Balayage et correction erreurs simples en mémoire
( scrubbing ) - Logging détaillé des erreurs
- Marquage de données corrompue pour traitement
ultérieur ( data poisoning )
21Agenda
- Critères de jugement
- Les moteurs technologiques et économiques
- Performances et architecture
- Parallélisme dinstructions
- Parallélisme de flots dexécution
- Temps daccès et hiérarchie mémoire
- Intégrité et disponibilité
- Discussion et conclusions
22Discussion
- La technique EPIC/VLIW représente un saut
qualitatif essentiel - Elle permet denvisager un parallélisme
dinstructions supérieur aux techniques
superscalaires - Elle nécessitera un temps de démarrage important
dû à la rupture de compatibilité - Remplacera à terme la technologie OOO qui arrive
en butée de son évolution - Les techniques de parallélisation de flots
dexécution sont complémentaires - Plus faciles à envisager, car préservent la
compatibilité des jeux dinstructions - Nécessitent néanmoins un travail important de
programmation pour être efficaces sur une tâche - Nécessitent un travail de mise au point pour
éviter les conflits de working set
23 Itanium aujourdhui des performances
remarquables
Les serveurs basés sur Itanium processor family
offrent desperformances supérieures comparées
aux serveurs RISC
Performance tests and ratings are measured using
specific computer systems and/or components and
reflect the approximate performance of Intel
products as measured by those tests. Any
difference in system hardware or software design
or configuration may affect actual performance.
Buyers should consult other sources of
information to evaluate the performance of
systems or components they are considering
purchasing. For more information on performance
tests and on the performance of Intel products,
reference www.intel.com/procs/perf/limits.htm or
call (U.S.) 1-800-628-8686 or 1-916-356-3104.
Performance data shown include a combination of
published sources, such as found at
http//www.cs.virginia.edu/stream/ and
www.netlib.org as well as Intel measurements and
estimates.
24Les processeurs Intel des lignes de produits en
évolution permanante
. .
Optimized for call control/back office apps
requiring large addressability
Madison
Deerfield
McKinley
3U
Intel Itanium Processor
Performance, high availability
. . .
Future Xeon Processors
Xeon Processor Pentium IV Processor
2U
Optimal performance/ density for Infrastructure
Applications
Pentium III Processor
1U
02
03
01
Other names and brands are the property of their
respective owners.
25Les processeurs Bull et létat de lart
Olympus 1
Olympus 2
Artemis
- Doublement de la densité des circuits tous les 18
mois - linnovation de larchitecture des processeurs de
grande diffusion apportent des avantages de
puissance qui permettent le support efficace de
GCOS
26Le choix de Bull pour le futur de GCOS l
architecture Intel
Déjà réalisé pour GCOS 7 (Diane/V7000)En
préparation pour GCOS 8 (Hélios/V9000)