Title: Cray XD1
1Cray XD1
Cray XD1
2Innovations Cray
Interconnexion
Cray XD1
Performance et simplicité dexploitation
3Architecture du Cray XD1
- Calcul
- Noeuds SMP bi-processeurs
- 12 AMD processeurs Opteron 32/64 bit, x86 (par
chassis) - Jusquà 144 processeurs par rack
- Linux Hautes performances
- Interconnexion RapidArray
- 12 processeurs de communication
- switch intégré de 1 Tb/s
- Gestion, surveillance
- Processeur dédié
- Accélération des applications
- 6 co-processeurs optionnels
Les processeurs sont directement connectés par un
switch intégré
4Interconnexion du Cray XD1
- RapidArray
- Processeurs spécialisés
- Switch intégré
- Logiciel optimisé (MPI)
5Interconnexion équilibrée
GigaOctets
GFLOPS
GigaOctets par Seconde
Mémoire
Processeur
I/O
Interconnexion
1 Go/s PCI-X
0.25 Go/s GigE
Xeon Server
5.3 Go/s DDR 333
Cray XD1
6.4Go/s DDR 400
8 Go/s
Suppression du goulot détranglement
6Communications Optimisées
- Processeur de Communication RapidArray
- HT/RA tunnelling with bonding
- Routage incluant des routes redondantes
- Fiabilité du transport
- Optimisation de la latence pour les messages de
petite taille - Opérations DMA
- Synchronisation des clocks (System-wide)
- Bibliothèques de communication Cray
- MPI 1.2
- TCP/IP
- PVM
- Shmem
- Global Arrays
- Synchronisation des processus sur lensemble du
système
RapidArray Communications Processor
AMD Opteron 2XX Processor
2 Go/s
RA
3.2 Go/s
2 Go/s
Architecture DCP Direct Connected Processor
7Communications MPI
- MPI optimisé pour réseau RapidArray
- Latence MPI inférieure à 2 µs sur toutes les
configurations - Bande passante MPI mesurée supérieure à 60 de
la performance crête des canaux de communication - Bande passante élevée même avec des messages de
petite taille - Synchronisation des processus des applications
parallèles réduit le temps dexécution.
8Topologie à connexion directe
1 Chassis Cray XD1 12 Processeurs AMD Opteron 53
GFLOPS (2,2 GHz) 8 Go/s entre les SMPs Latence
1.6 µsec Interconnexion Intégrée
3 Chassis Cray XD1 36 Processeurs AMD Opteron 158
GFLOPS (2,2 GHz) 8 Go/s entre les SMPs Latence
1.8 µsec Interconnexion intégrée
24 Chassis Cray XD1, deux racks 300 Processeurs
AMD Opteron 1.3 TFLOPS 2 - 8 Go/s entre les
SMPs Latence 1.8 µsec Interconnexion intégrée
9Topologie Fat Tree
- 12 chassis Cray XD1
- 144 Processeurs AMD Opteron
- 633 GFLOPS
- 4/8 Go/s entre les SMPs
- Latence 1.9 msec
- Switching Fat tree, intégré au premier et
troisième niveau - 6/12 switchs RapidArray (24-ports)
10Topologie Tore 3D (sans switch)
27 chassis, 324 Processeurs 1.4 TFLOPS Tore 3D
3x3x3 Voisin Bande passante 4-8 Go/s par
SMP Latence 1.8 msec Cas défavorable 6 sauts,
2.8 msec
Parfaitement adapté aux échanges aux voisins
11Logiciel
- Système dexploitation
- Cray Linux
- Distribution SuSE Linux
- Environnement de développement
- Compilateurs PGI, et GNU
- Bibliothèques scientifiques
- Communication
- Bibliothèque MPI optimisée pour réseau
dinterconnexion - SHMEM
- Global Arrays
- Interface utilisateur classique et standard
- Portage facile des applications X86 et X86-64
- Gestion globale simplifiée par Active Manager
12Système Active Manager
- Facilité dutilisation
- Contrôle et commandes globaux.
- Gestion globale des partitions
- Surveillance
- Processeurs de gestion (surveillance) dédiés, OS
temps-réel indépendant et réseau dédié. - Diagnostics proactifs en tâche de fond, et
auto-surveillance/reconfiguration. - Interfaces
- WEB
- Command Line
Logiciel Active Management
Accès WEB et CLI
Gestion automatisée pour une robustesse et une
disponibilité très élevée.
13Auto-Surveillance
Parity Heartbeat Temperature Fan
speed Diagnostics Air Velocity Voltage Current
Température
Processeurs Mémoire
Disques
Ventilateurs
Alimentations
Active Manager
Interconnexion
PCI-X
Contrôleur de gestion, OS, réseaux dédiés
14Accélération des Applications
- Accélération des Applications
- Option
- Co-processeur Reconfigurable
- Fortement couplé à lOpteron
- FPGA agit comme un co-processeur reprogrammable
- Adapté pour
- Recherches, tri, traitement de signaux,
manipulation audio/video/image, encryption,
correction derreur, codage/décodge, traitement
de paquets. - Bibliothèque de développement
Accélérateur dApplication
RAP
RapidArray Switch
RAP
Gain très élevé pour certains types dapplications
15Solutions XD1
XD1 1 Chassis 12 Processeurs 58 GFLOPS JusquÃ
96 GB mémoire 8 Go/s, latence 1
microseconde switch 1 Tb/s Active management
Rack 12 Chassis 144 Processeurs 691
GFLOPS Jusquà 1.2 TB mémoire 8 Go/s, latence 1
microsecond switch 12 Tb/s Active management
Supercalculateur 1,000 Chassis 12,000
Processeurs 58 TFLOPS Jusquà 96 To mémoire 8
Go/s, latence 1 microsecond switch 1 Pb/s Active
management
16Le Cray XD1 en résumé
- Optimisation du prix/performance
- Bande passante/latence dInterconnexion
- Synchronization des process (System-wide)
- Co-procecsseur FPGAs
- Standards
- X86 32/64-bit, Linux, MPI
- Solution Robuste
- Auto-configuration, Auto-surveillance,
auto-adaptation - Commandes et contrôle globaux
- Intuitif, logiciel de gestion totalement intégré
- Véritable système de production
Cray XD1
Conçu et optimisé pour le calcul à hautes
performances