- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

Proceedings of International Conference on Computing in High Energy and Nuclear Physics, ... consiste ajuster ( manuellement / automatiquement ) la taille des tampons TCP. ... – PowerPoint PPT presentation

Number of Views:33
Avg rating:3.0/5.0
Slides: 19
Provided by: Irit7
Category:
Tags: ajuster

less

Transcript and Presenter's Notes

Title:


1
Applied techniques for high-bandwidth data
transfers across wide area networksJ. Lee, D.
Gunter, B. Tierney,Lawrence Berkeley National
Lab B. Allcock, J. Bester, J. Bresnahan, S.
TueckeArgonne National Laboratory
  • Proceedings of International Conference on
    Computing in High Energy and Nuclear Physics,
    Beijing, China, September 2001.
  • Romuald THION, DEA DISIC 2003/2004

2
Plan de la présentation
  • Introduction
  • Les techniques damélioration
  • Software
  • Hardware
  • Le découpage des fichiers
  • Les résultats
  • Conclusion

3
1. Le thème de larticle
  • Dans cet article
  • les auteurs prolongent leurs travaux sur DPSS
  • les auteurs implémentent leurs techniques sur un
    service déchange de données (GridFTP)
  • les résultats sont ceux de lexhibition
    Supercomputing 2000
  • il y a beaucoup de technique (haute
    performance)
  • les auteurs sattachent au débit, et peu aux
    problèmes de réplication, sécurité, disponibilité
    du réseau, ...

4
1. Les données sur la grille
  • Les données sont notamment caractérisables par 
  • La taille moyenne des fichiers (ex  64 ko, 2mo)
  • La taille totale du jeu de données (ex  1 go,
    1to)
  • Le taux de création/dajout de données
  • Le type daccès (séquentiel, random)
  • Le mode décriture (write once vs write many)
  • La façon dont sont gérées les données (Base de
    données, système de fichiers, )
  • Les données de type grille étant très
    volumineuse, souvent en lecture (les méta données
    en écriture)
  • Les auteurs vont présenter un service de
    transfert de fichier GridFTP
  • La philosophie étant  on dispose de WAN à haut
    débit, utilisons les au maximum 

5
1. Un service de transfert
  • GridFTP est un service (protocole et
    implémentation)
  • De transfert de fichier
  • Basé sur FTP
  • Le goulot détranglement étant lémission des
    données daprès les auteurs
  • Un service de transfert devrait être
  • Sûr la sécurité dans GridFTP nest pas trop
    abordée dans larticle (plus tard avec
    GSI/Kerberos)
  • Efficace cest la caractéristique prédominante
    dans larticle
  • Fiable pour la reprise de transfert. Ce sera un
    point fort pour GridFTP dans les travaux suivants

6
Plan de la présentation
  • Introduction
  • Les techniques damélioration
  • Software
  • Hardware
  • Le découpage des fichiers
  • Les résultats
  • Conclusion

7
2. Les techniques
  • Les auteurs utilisent diverses méthodes pour
    augmenter les débits du transfert de données, les
    grandes idées sont
  • Tout paralléliser (disques, contrôleurs,
    serveurs, cartes réseaux)
  • Découper (strip) les données
  • Lutiliser des buffers TCP tunés, adaptés au
    réseau WAN utilisé
  • Lutilisation de plusieurs connections TCP
    parallèles

8
2. Les techniques softs
  • Le Tuning de buffer TCP
  • est basé sur la loi de Little (Débit x délai
    taille de la fenêtre).
  • consiste à ajuster ( manuellement /
    automatiquement ) la taille des tampons TCP.
  • ne peut pas, a priori, être effectué sans droit
    root sur une machine.
  • peut produire des effets catastrophiques sil
    est mal utilisé.
  • concerne le serveur et le client (négociation)
  • est souvent limité par lOS (64ko)
  • Les flux TCP en parallèle
  • permettent de multiplier le débit
  • risquent de saturer le client
  • Utilisation de(s) bons drivers/OS
  • Linux Kernel 2.2 ? 2.4 320 Mb/s ? 500 Mb/s

9
2. Les techniques hard
  • Multiplication
  • des contrôleurs disques (SCSI, pour accéder à
    plusieurs morceaux de fichier simultanément)
  • des disques durs (RAID)(4 disques x 100 Go gt 1
    disque x 400 Go)
  • des interfaces réseaux
  • des serveurs de fichiers (cf. DPSS)
  • Utilisation de grosses cartes réseaux
  • Pour soulager le CPU qui gère les accès disques
  • Checksum hardware
  • MTU de grande taille (Jumbo Frames)
  • Interrupt coalescing

10
2. Le découpage des fichiers
  • Issu des précédents travaux sur DPSS
  •  A Network-Aware Distributed Storage Cache for
    Data Intensive Environments 
  • Découpage des fichiers (stripping) sur plusieurs
    serveurs
  • Le découpage permet dagréger les capacités de
    débit des hôtes
  • Les stripes doivent être judicieusement
    réparties, plusieurs copies de stripes sont
    utilisées (via RAID)
  • Avoir assez de débit disque pour pouvoir saturer
    le réseau (ce nest pas le facteur limitant
    daprès les auteurs)
  • Les auteurs comparent des débits sur des accès
    aux fichiers séquentiels/aléatoires

11
Plan de la présentation
  • Introduction
  • Les techniques damélioration
  • Software
  • Hardware
  • Le découpage des fichiers
  • Les résultats
  • Conclusion

12
3. Résultats de GridFTP
  • Les auteurs décrivent la plateforme du test,
    Supercomputing 2000
  • Donne les courbes de débit avec DPSS et GridFTP
  • 3400 kms entre ANL et LBNL

13
Plan de la présentation
  • Introduction
  • Les techniques damélioration
  • Software
  • Hardware
  • Le découpage des fichiers
  • Les résultats
  • Conclusion

14
4. GridFTP ensuite
  • GridFTP
  • Permet lutilisation dune couche de sécurité
    (GSI, Kerberos)
  • Permet de faire du transfert en parallèle
  • Permet de faire du stripping
  • Permet de reprendre les transferts (resuming)
  • Permet de commander les transferts depuis un
    tiers
  • Utilise des techniques de cache des données pour
    optimiser les transferts
  • Fait partie du Globus Toolkit
  • Les auteurs travaillent sur la sécurité de
    GridFTP pour GT3 (charte de sécurité)
  • Un draft a été soumis pour devenir RFC

15
4. Commentaires (1/2)
  • Remarques sur larticle
  • Larticle traite daspects très techniques
  • La comparaison DPSS/GridFTP peut être discutable
  • Pas de comparaison avec WebDAV, RIO,
  • Certains problèmes, comme la gestion des mises à
    jour sur des données dupliquées, ne sont
    quasiment pas abordées
  • On ne sait pas quelle est la technique
    doptimisation la plus intéressante (pas de
    comparaison)

16
4. Commentaires (2/2)
  • De lidée générale
  • Le but nest pas de proposer une abstraction au
    dessus du SGF (pour travailler sur des fichiers
    logiques), cest de faire une version améliorée
    de FTP
  • La technique   TCP buffer tuning  est assez
    générale, mais difficilement implémentable
    (négociation entre client et serveur)
  • La sécurité de FTP est toute relative. Les
    auteurs supporteront par la suite la RFC 2228.
  • Le choix même de TCP comme couche transport peut
    être discutable (cf. module DEA QoS/Sécurité)

17
4. Documents connexes
  • Tierney, B. J. Lee, B. Crowley, M. Holding, J.
    Hylton, F. Drake A Network-Aware Distributed
    Storage Cache for Data Intensive Environments 
  • Bill Allcock, Joe Bester, John Bresnahan, Ann L.
    Chervenak, Ian Foster, Carl Kesselman, Sam Meder,
    Veronika Nefedova, Darcy Quesnel, Steven Tuecke
    Data Management and Transfer in High-Performance
    Computational Grid Environments
  • Heinz Stockinger, Asad Samar, Bill Allcock, Ian
    Foster, Koen Holtman, Brian Tierney File and
    Object Replication in Data Grids
  • The Globus Project White Paper GridFTP,
    universal data transfer for the Grid
  • http//www-fp.mcs.anl.gov/dsl/GridFTP-Protocol-RFC
    -Draft.pdf
  • http//www.globus.org/gass/
  • W. Feng, P. Tinnakornsrisuphap (Supercomputing
    2000) The Failure of TCP in High-Performance
    Computational Grids
  • http//www-fp.globus.org/datagrid/deliverables/

18
Merci de votre attention
passons aux questions
Write a Comment
User Comments (0)
About PowerShow.com