Onthefly Recovery of Job Input Data in Supercomputers - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Onthefly Recovery of Job Input Data in Supercomputers

Description:

Problemas de carga de nodos e incompatibilidades en el software impiden afrontar ... RAID puede fallar a causa de fallos m ltiples dentro de un grupo de discos, ... – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 15
Provided by: Balt52
Category:

less

Transcript and Presenter's Notes

Title: Onthefly Recovery of Job Input Data in Supercomputers


1
On-the-fly Recovery of Job Input Data in
Supercomputers
  • Jesús Padilla Hidalgo

2
Situación actual
  • En la actualidad los grandes supercomputadores
    están conectados con miles de discos duros y
    dispositivos de E/S.
  • En estos casos, que se produzcan fallos es algo
    muy probable.

3
Situación actual
  • Problemas de carga de nodos e incompatibilidades
    en el software impiden afrontar los errores en
    los sistemas de ficheros.
  • La replicación de los datos es una alternativa
    tremendamente costosa en el caso de grandes
    supercomputadores.

4
Situación actual
  • RAID puede fallar a causa de fallos múltiples
    dentro de un grupo de discos, sectores erróneos
    latentes o fallos en el controlador.
  • Con la capacidad de los discos actuales se espera
    que la duración de las reconstrucciones de los
    discos se incremente un 10 cada año.
  • Teniendo en cuenta que los tiempos de
    reconstrucción actuales rondan las 12 horas, esto
    sugiere que la aparición de un segundo error no
    recuperable durante la reconstrucción es más que
    probable.

5
Motivación y objetivo
  • Las técnicas actuales como RAID solo protegen
    contra errores en discos enteros, no en sectores
    específicos.
  • Si una aplicación se encuentra un error la única
    opción es abortar el programa.
  • Sería deseable un sistema transparente que
    gestionase estos errores y se recuperase ante
    ellos de una forma eficiente.

6
Concepto
  • Mediante el uso de metadatos en los sistemas de
    ficheros y gracias a la naturaleza de los datos
    en supercomutadores (datos invariantes en el
    tiempo) se podría desarrollar un sistema para la
    recuperación de estos datos en el origen.

7
Concepto
Fig 1. Arquitectura de la recuperación de datos
al vuelo
8
Implementación
  • Fase 1 Detección del fallo.
  • Fase 2 captura del error e inicio de la
    reconstrucción.
  • Fase 3 Sincronización entre el supercomputador y
    los nodos de E/S.
  • Fase 4Reconstrucción de los datos.

9
Implementación
Fig 2. Esquema de la recuperación de datos al
vuelo
10
Pruebas
  • El equipo de pruebas consta de un cluster, un
    cliente NFS situado en la misma habitación y un
    cliente SSHFS situado en otra habitación del
    mismo campus.

11
Resultados
Fig 3. Tiempo de ejecución de una tarea
utilizando MPIblast
12
Simulación
  • Partiendo de los datos anteriores se ha realizado
    la simulación de un sistema de 512 nodos de doble
    núcleo.

13
Resultados de la Simulación
Fig 4. Tiempo medio de espera en función de la
distribución de los datos en n discos
14
Conclusiones
  • La aplicaciones no tienen que dar un error al
    encontrar un sector erróneo ya que la aplicación
    se recupera de forma transparente.
  • Resulta mucho más rápido volver a conseguir los
    datos dañados que intentar recuperar los datos
    corruptos. Todas las pruebas indican que mediante
    el sistema de recuperación el impacto de los E/S
    pasa a ser mínimo.
Write a Comment
User Comments (0)
About PowerShow.com