Accelerating LargeScale Data Exploration through Data Diffusion - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Accelerating LargeScale Data Exploration through Data Diffusion

Description:

Acelerar la exploraci n de grandes cantidades de datos a trav s del uso de ... Aunque los resultados puedan parecer sorprendentes, se utilizan muchos trucos ... – PowerPoint PPT presentation

Number of Views:40
Avg rating:3.0/5.0
Slides: 22
Provided by: samuelrodr
Category:

less

Transcript and Presenter's Notes

Title: Accelerating LargeScale Data Exploration through Data Diffusion


1
Accelerating Large-Scale Data Exploration through
Data Diffusion
  • Samuel Rodríguez Sevilla
  • Máster en Ciencia y Tecnología Informática

2
Contenidos
  • Objetivos y supuestos
  • Arquitectura
  • Implementación
  • Pruebas
  • Micro-pruebas
  • Uso con imágenes astronómicas
  • Conclusiones

3
Objetivos y supuestos
  • Acelerar la exploración de grandes cantidades de
    datos a través del uso de difusión de datos
  • Esta mejora supondrá un mejor uso del ancho de
    banda (desde el punto de vista del proceso).
  • Además, se supondrá que la información no se
    modifica a lo largo del tiempo.

4
Arquitectura
  • Falkon
  • Permite disponer de un almacén de recursos
    (unidades de computo) que se tomarán según se
    necesiten.
  • Dispone de planificadores para el reparto de las
    tareas entre los recursos del sistema.

5
Arquitectura
  • Difusión de datos en Falkon
  • Extensión para la arquitectura anterior que
    permite disponer de un mecanismo de difusión de
    datos para mejorar las lecturas.
  • Se implementa con caches en las unidades de
    trabajo y dos tipos de índices
  • Un índice central con la información de lo que
    cada unidad de trabajo tiene en caché
  • Un índice en cada unidad de trabajo de qué
    unidades de trabajo disponen de los elementos que
    necesita en caché

6
Arquitectura
7
Implementación
  • Los índices se han implementado haciendo uso de
    hasmaps
  • Ofrece muy buenos tiempos de acceso y
    modificación
  • Puede producir fallos por coincidencias si el
    sistema crece

8
Implementación
  • Se han añadido las siguientes políticas de
    distribución de las tareas
  • first-aviable
  • first-cache-aviable
  • max-cache-hit
  • max-compute-hit

9
Implementación
  • Se han utilizado los siguientes equipos para las
    pruebas

10
Pruebas
  • Se han diseñado dos conjuntos de pruebas
  • Un conjunto de micro-pruebas, que nos dan una
    idea del rendimiento del sistema con datos
    teóricos que no permite hacer una evaluación
    previa del rendimiento.
  • Pruebas con imágenes astronómicas de gran tamaño
    que nos permiten estimar el rendimiento en un
    sistema real.

11
PruebasMicro-pruebas
  • Se ha realizado pruebas con 1, 2, 4, 8, 16, 32 y
    64 nodos y con ficheros de 1B, 1KB, 10KB, 100KB,
    1MB, 10MB, 100MB y 1GB.
  • Las configuraciones han sido
  • Model (local disk)
  • Model (persistent storage)
  • Falkon (first-aviable)
  • Falkon (first-aviable) Wrapper
  • Falkon (first-cache-aviable 0 locality)
  • Falkon (first-cache-aviable 100 locality)
  • Falkon (max-compute-util 0 locality)
  • Falkon (max-compute-util 100 locality)

12
PruebasMicro-pruebas
  • Rendimiento de lectura

13
PruebasMicro-pruebas
  • Rendimiento de lectura-escritura

14
PruebasUso con imágenes astronómicas
  • Se utiliza base de datos inmensas de imágenes
    como SDSS DR5 (320M de objetos que ocupas 9TB).
  • Los ficheros en los que están los objetos podrán
    encontrarse comprimidos o no.

15
PruebasUso con imágenes astronómicas
  • Conjuntos de datos para las pruebas

16
PruebasUso con imágenes astronómicas
  • El código de las pruebas se divide en las
    siguientes partes
  • open
  • radec2xy
  • readHDUgetTilecurlconvertArray
  • CalibrationinterpolationdoStacking
  • writeStacking

17
PruebasUso con imágenes astronómicas
  • Rendimiento del algoritmo según el formato de
    fichero y de dónde se lee el fichero con una CPU

18
PruebasUso con imágenes astronómicas
  • Rendimiento de la aplicación con una densidad de
    1.38 y de 30.

19
PruebasUso con imágenes astronómicas
  • Rendimiento con 128 CPUs

20
PruebasUso con imágenes astronómicas
  • Trafico del sistema con 128 CPUs

21
Conclusiones
  • Tras los resultados vistos se puede comprobar que
    el uso de caché mejora sustancialmente el
    rendimiento general del sistema.
  • Aunque los resultados puedan parecer
    sorprendentes, se utilizan muchos trucos para
    mejorar los resultados.
Write a Comment
User Comments (0)
About PowerShow.com