Title: Architectures de grappes de PC
1Architectures de grappes de PC
2Grappe BEOWULF
- Une grappe (cluster) est une collection de
machines interconnectées, utilisée comme une
ressource de calcul unifiée - Une grappe Beowulf se définit par les
propriétés suivantes - composants à grande diffusion
- composants réseau à faible coût
- système d exploitation open source
- hardware non propriétaire
- logiciel open source
3Applications
- projet du CEA calcul haute performance
intégration de machines performantes et d'un
réseau commuté performant - perspective de
changement d'échelle - projet GRID parallélisme faiblement couplé, du
débit de calcul sur 6 mois plutôt que sur 24
heures. - serveur WEB faible charge CPU, importance de la
mémoire - HP mélanger les usages
4Medium size (240,000 cells) Fluent CFD
computation.
5Des grappes de référence le Top500
- Sandia 592 procs alphas, myrinet, linux, 44
- NCSA 256 pentiums, myrinet, NT, 68
- Cornell 256 pentiums, giganet, NT, 198
- Los Alamos 140 alphas, Ether100/1000, linux, 265
- Paderborn 192 pentiums, SCI, solaris, 351
- Bonn 144 pentiums, myrinet, linux, 454
- Chiba, Los Lobos, CEA, FSL, en 2000
6Technologies
? IA64
7Machines/OS
Une majorité de SMP
8PIII / Alpha
- Performances P III Xeon 500 Mhz
- adressage 32 bits
- STREAM Copy 188 MB/sec
- SpecFP95 15.1
- Peak MFLOPS 500
- Coût Dual CPU
- 6K (512K L2)
- Logiciels Linux beaucoup
- Performances Alpha 21264 677 Mhz
- adressage 64 bits
- STREAM Copy 1087 MB/sec
- SpecFP95 48.4
- Peak MFLOPS 1354
- Coût Dual CPU
- 15K (4M L2)
- Logiciels Linux quelques uns
9Architecture d un PC Intel
Pentium III Xeon 500 Mhz cache L1
...
...
lt2 Mo
Cache L2
Bus système100 Mhz/800 Mo/s
Mémoire lt8Go
Contrôleur mémoire et pont E/S
100 Mhz 800 Mo/s
266 Mo/s
Bus E/S
PCI 64 BITS
ou 2 bus PCI 32 BITS
10SMP
- Pour
- diminue la taille de l interconnexion
- forme plus compacte
- rapport prix/performance plus intéressant
- Contre
- accès sur le bus système/mémoire stressé
- composants plus chers
- Peut ajouter à la complexité logicielle
11Souhaité et facultatif
- La meilleure offre en
- vitesse des processeurs
- hiérarchie mémoire (vitesse, cache, )
- bus PCI (64 bits, vitesse, nombre,..)
12Prix
Estimations par poste Myrinet 1,5
k ServerNet/Giganet/SCI 1.5 k Gigabit
Ethernet 1 k Pentium bi procs 6 k
13Linterconnexion réseau
Infiniband
SCI
HIPPI
VIA
ATM
Fibre Channel
WDM
Myrinet
PCI
...
FDDI
Ethernet
...
SCSI
...
SAN
LAN
WAN
MAN
14Interconnexion statistiques
15La technologie Myrinet
- Commutation de paquets
- Topologie très souple
- Carte réseau muni d un processeur RISC pilotant
plusieurs contrôleurs DMA
Local memory
PCI bus
PCI BRIDGE
DMA controller
RISC processor
Host interface
Packet Interface
network
16La technologie SCI
- réseau à capacité dadressage
- adressage des mémoires distantes
- lecture/écriture distante sans interrompre le
processeur distant - plus de nécessité de programmation par échanges
de messages - Topologie en grille
17La technologie VIA
Une interface logicielle dont lobjectif est de
limiter les accès au système et les copies de
buffers. Peut être implémentée en hardware
application
application
VI
données
contrôle
contrôle
Standard industriel proposé par Microsoft, Intel,
Compaq. Aujourdhui par Dell, Intel, Compaq
Système d exploitation
Système d exploitation
données
Contrôleur réseau
Contrôleur réseau VIA
Architecture VIA
Architecture TCP/IP
18Les autres candidats
- Memory channel
- espace d adressage mémoire unique
- bonne latence
- passage à l échelle par SMP donc limité
- SupperHIPPI, FibreChannel, Infiniband, ATM, WDM,
Quadrics, ... - offre cluster balbutiante ou de luxe
19D un coup dœil
20Évolutions ?
Topologie ?
21SCI pour/contre
- manque de maturité
- monopolise le CPU
- quelle fiabilité en cas de panne d un nœud
- espace d adressage mémoire unique
- latence/messages de petite taille
Myrinet pour/contre
- Plus grande maturité
- intégrateurs en France
- bande passante
- ? Autant de MPI/drivers/firmwareque de grappes
22Comparatifs SCI/Myrinet
SCI P II 450 Mhz carte scali 2D 32bits/33Mhz
PALLAS BENCHMARK
Myrinet P II 450 Mhz carte Lanai 4 32bits/33Mhz
23SCI/Myrinet (2)
P III 500 Mhz
IS benchmark de tri faisant parti des NAS
parallel benchmarks communications collectives de
petits paquets
FT benchmark opérant plusieurs transformées de
Fourrier communications collectives de gros
paquets (1 MO pour 8 processeurs)
24SCI/Myrinet (3)
BT benchmark de multiplication de matrices
spéciales - 80 de calcul communications non
bloquantes de paquets de taille 100 ko pour 8
processeurs
LU benchmark de factorisation de matrice - 80
de calcul communications bloquantes de petits
paquets de 3 ko pour 8 processeurs
25Les autres possibles
- ServerNet II
- VIA
- orienté haute disponibilité contrôle d erreurs
en hardware, redondance - support de Compaq
- Giganet
- VIA
- disponible sur NT/linux
- débit/messages de grande taille
Mais quelle maturité ? Quel avenir pour VIA ?
26Les autres possibles
- (Double) Fast Ethernet
- standard
- le moins cher
Mais latence importante et très forte utilisation
du CPU (en attendant VIA et des cartes avec
processeur)
- Gigabit Ethernet
- standard, plusieurs fournisseurs
- de moins en moins cher
- switches 64 ports
27Logiciels
- gestionnaire de batch/ressources
- compilateurs
- MPI
- pile TCP/IP
- outils de trace et de debug
- intégration et portabilité Linux-NT
- outils de déploiement et d administration
- systèmes de fichiers
- pile VIA
- image unique de système
28Besoins logiciels (1)
- un (ou plusieurs) MPI adapté aux applications
- thread aware (MPI/Pro, ScaMPI)
- faible latence (ScaMPI)
- bande passante élevée (BIP, MPI/PRO)
- très diffusé (MPICH, LAM)
- outils de déploiement
- pour stations Rembo, HP Toptools, Norton Ghost
- pour clusters scali, alinka, Compaq CMU
- outils propriétaires type IBM PSSP (?)
29Besoins logiciels (2)
- gestionnaire de batch/ressources
- PBS
- Condor
- LSF
- Codine
- ...
- outils de trace
- Totalview
- Vampir
- portabilité
- MPI/pro
- MPI sur Ethernet
- LSF
- Fast messages
30Besoins logiciels (3)
- systèmes de fichiers
- NFS
- système de fichiers IRIX, True64,
- réseau de stockage en amont
- image unique de système (autres thèmes)
- migration de processus
- mémoire partagée distribuée
- interface utilisateur unique
- administration centralisée
- espace d entrées/sorties partagé
- espace de processus unique
- pile VIA
- VIA hardware Giganet, Server Net
- Myrinet et certaines cartes Ethernet fast et
gigabit
31Lintégrateur/vendeur
- support scientifique
- support technique
- maintenance
- intégration hardware
- intégration software
32Des options coûteuses
- Racks
- contrôle souhaité (BIOS, wake on line, boot PXE,
lien série, ) - concentrateurs d alimentation électrique
- écrans, switchs d écran ?
- disques locaux
- des serveurs supplémentaires contrôle, login,
fichier, développement, scheduler
33Où en est on ? (1)
- Coopérations avec des constructeurs
- HP cluster du pauvre
- Microsoft portage sur NT et metacomputing
- Compaq
- IBM, BULL, SGI, DELL
- Myrinet, Dolphin
- Utilisation et benchmarks de grandes grappes et
des dernières générations de matériel
34Où en est on ? (2)
- Budget
- INRIA 2,5 MF
- Région ? MF
- MENRT (UJF 400 INPG 400)
- ENS-LYON 300
- CNRS ?
- Solution en deux phases Ethernet () puis SCI
et/ou Myrinet
35Evolution contexte grappe
3D SCI mesh
Administration simplifiée True64/IRIX/AIX --gt
LINUX
Grappe Linux 140 alphas 113 dans le TOP 500
Grappe Linux 144 pentiums 356
Réseaux de stockage
Grappe NT 256 pentiums 198
Switch Myrinet 128 ports
VIA sur Ethernet
Compilateurs Digital sur Linux
IA 64
InfiniBand
Linux SMP
1998
2001
2000
1999
36A venir
- Collaborations industrielles à conclure
- Benchmarks au niveau Athapascan
- Rédiger l appel d offre (pour septembre)
décrire les paramètres de l architecture de
machine - De nouvelles problématiques de recherche, ex.
autour de l image unique de système
37Contact/infos
- Philippe.Augerat_at_imag.fr
- http//grappe200.imag.fr