Title: Transferencias masivas de
1Transferencias masivas de datos cientÃficos de
la colaboración CMS a través del Port
dInformació CientÃfica (PIC)
Josep Flix(), Gonzalo Merino, Gerard Bernabeu,
Diego Dávila
() CMS Tier-1 contact at PIC CIEMAT(jflix_at_pic.e
s)
Jornadas Técnicas RedIRIS 07 Oviedo 19-23
Noviembre 2007
2Large Hadron Collider Flujo de datos I
Colisiones protón-protón a 14 TeV cada 25 ns
Datos (lectura) por colisión a alto rate
LHC Inicio de operaciones en 2008
Filtrado de datos (300 MB/s/colisión) ? RAW
Datos RAW se envian al Tier-0 (10 Gbps-CERN)
Datos RAW se procesan en el Tier-0 (CERN)
3Large Hadron Collider Flujo de datos II
Datos RAW se graban en cinta en Tier-0 (CERN)
Datos RAW procesado ? centros Tier-1
Primer procesado de datos en Tier-0 (CERN)
11 centros Tier-1 para los 4 detectores del LHC
Tier-1 datos RAW ? cinta (copia custodial)
WLGC basado en estructura Tiers (0-1-2)
4Large Hadron Collider Flujo de datos III
Tier-1 ESD a disco distribución a Tier-2s
Reprocesados de datos en Tier-1s (2-3/año)
Re-distribución de datos re-procesados a Tier-2s
150 centros Tier-2s distribuidos world-wide
Tier-2s producen simulaciones ? Tier-1s
Tier-2s Universidades, fÃsicos ? Analistas
5Worldwide LHC Computing Grid WLCG
- Large Hadron Collider (LHC) ? Gran instalación
cientÃfica ? Decenas PBs de datos/año. - Miles de cientÃficos en todo el mundo accederán
a los datos para analizarlos. - Objetivo WLCG
- Estructura Tiered con gt 100 centros de
computación en gt 20 paÃses - WLCG depende de otros grandes proyectos de
despliegue y operación de infraestructuras - grid (EGEE en Europa, OSG en USA, NorduGrid en
los paÃses nórdicos...).
Desplegar y mantener una infraestructura robusta
de computación distribuida para el almacenamiento
y el análisis de los datos obtenidos por los 4
detectores del LHC por la comunidad de fÃsicos de
Altas EnergÃas.
1 Tier-0 (CERN) y 11 centros Tier-1 52
federaciones de centros Tier-2
Detectores ATLAS, CMS, LHCb, ALICE
Requisitos de los 4 experimentos LHC sobre los
centros Tier-1. Presentados a la C-RRB de
Octubre 2007
6Región SWE PIC(Tier-1)Tier-2s asociados
SWE region Tier-2s asociados al Tier-1 PIC
CERN
IFCA Santander
USC Santiago
IFAE Barcelona
PIC Barcelona
CIEMAT Madrid
LIP Coimbra
UB Barcelona
UAM Madrid
IFIC Valéncia
Port dInformació CientÃfica PIC Convenio
Generalitat, CIEMAT, UAB, IFAE
LIP Lisboa
- Tier-1 para ATLAS, CMS y LHCb. Ofrece servicios
para - otras disciplinas AstrofÃsica, imagen médica,
etc - Centro de soporte a la investigación cientÃfica
en - entornos colaborativos con gran cantidad de
datos. - Almacenamiento, gestión y proceso de datos
(TB-PB). - Servicios Grid ? colaboraciones
inter-institucionales, - trans-nacionales y multi-disciplinares.
CMS CIEMATIFCA LIP_LisbonLIP_Coimbra ATLAS
IFAEIFICUAM LIP_LisbonLIP_Coimbra LHCb
UBUSC
() Sala de máquinas de 150 m2 - UPS de 200 KVA -
Generador diesel de 500 KVA - 1000 u de racks -
300 KW de aire acondicionado - LibrerÃas
automatizadas de cintas STK-5500IBM-3584
7PIC Tier-1 Recursos experimentos LHC
Responsabilidades del PIC Tier-1
Almacenamiento permanente de gran cantidad de
datos Custodia de segunda copia de datos RAW
(LHC). Datos re-procesados en el PIC. Datos
reducidos producidos en el PIC (y en otros
centros). Datos simulados desde los centros
Tier-2 asociados.
Capacidad de computación para re-procesado/análisi
s Acesso a gran cantidad de datos de una forma
ordenada
Contribución del PIC a LHC 5 del total Tier-1s
Modelo Computación CMS (2008)
? PIC 130 MB/s PIC ? 50 MB/s
El modelo de computación CMS (? recursos/centro)
es un modelo vivo, en cte. discusión ? factores
x2,x3
8PIC Tier-1 LHC-OPN red I
- LHC-OPN (Optical Private Network) Arquitectura
de red de 10 Gbps para el LHC.
- Garantiza calidad/estabilidad para el tráfico
Tier-0? Tier-1. - Destinada también a llevar tráfico Tier-1 ?
Tier-1. - No soporte a transferencias Tier-1? Tier-2
(redes nacionales).
9PIC Tier-1 LHC-OPN red II
- Despliegue de la LHC-OPN _at_ PIC (2006-2007)
- Octubre 2006 10 Gbps lambda hasta el POP de
RedIRIS en Barcelona (CESCA). - Mayo 2007 Llegada de la conexión al PIC.
- Junio 2007 Certificación de la lÃnea. Tests de
carga máxima.
Vista CERN
Vista PIC
- Septiembre 2007 puesta en producción para datos
LHC.
Salida del PIC 1Gbps (limitación temporal que
desaparecerá al finalizar la migración a las
nuevas IPs)
Entrada al PIC 10Gbps (medidos tráficos
superiores a 2Gbps)
Config _at_ PIC 2 VLANs sobre 10 Gbps 2 Gbps (Best
Effort) Tráfico PIC?Tier-2 8?10 Gbps
LHC-OPN Tráfico Tier-0? PIC Tráfico PIC?Tier-1
10CMS Transferencias de Datos (PhEDEX) I
Necesidades de CMS (Transferencias de
datos) Alta disponibilidad del
servicio. Transferencias sostenidas (sin
interrupciones). Tasa de transferencias
alta. Sistema fácilmente escalable. Acceso fácil
de los datos por los fÃsicos de la colaboración.
PhEDEX (CMS Data Transfer System) WEBSITE
http//cmsdoc.cern.ch/cms/aprom/phedex
Throughput crÃtico CERN ? Tier-1 Transferencias
entre Tier-1s y Tier-2s. Disponibilidad 24/7
entre centros Tier de CMS.
- Interface web visualización, monitor, checks
consistencia - Interacciona con sistemas de storage local dif.
tecnologÃas. - Basado sobre grid middleware File Transfer
Service (FTS). - Uso de BBDD privada (TMDB) catálogolocalización
ficheros. - TMDB gestiona status de transferencias
ongoing. - TMDB centralizada _at_ CERN (DBI Oracle interface).
-
Actualmente la distribución network PhEDEX
comprende el centro Tier-0 (CERN) y 8 centros
Tier-1 regionales, que a su vez sirven a 40
centros Tier-2 locales y 10 centros pequeños
(Tier-3s).
11CMS Transferencias de Datos (PhEDEX) II
- PhEDEX Core consta de agentes escritos en
perl-object-oriented. - Cada Tier ejecuta agentes que se encargan de
interaccionar con el storage local ? CMS VOBOX /
centro. - Los agentes se comunican via TMBD CMS
blackboard mapas datasets-replicas,
localizaciones, - subscripciones datasets, replica metadata
(size, checksums,...), estados de transferencia,
etc - Agentes / centro 1 agente exportación varios
agentes de importación (download). - Cada agente de download está conectado a una
instancia de Phedex (Development,Debug,Production)
.
- PhEDEX está totalmente acoplado al midleware
grid, - como FTS (File Transfer service, EGEE glite
middleware). - Parámetros relevantes de configuración
- Servidor FTS donde glite-transfer-submit jobs.
- Número de jobs sumitidos por tiempo.
- Número de ficheros por job.
- Timeout asociado a cada transferencia/job.
- Aceptar/ignorar algunos centros por agente.
12Actividades pre-LHC CMS LT07 DDT
- Probando el sistema con Retos (como
demostraciones de éxito)
- Mediante retos de servicio generales WLCG
(Services Challenges). - EspecÃficos del experimento Software,
Computación/Análisis (CSA), Tests de carga, etc
- Reto CMS Probar modelo de computación enlaces
entre Tiers Sistemas almacenamiento.
Objetivo Estresar el sistema hasta los niveles
requeridos por LHC, o superior
Actividades de LoadTest 2007 Feb?Sept.2007
Certificación enlaces Tiers ? Julio 2007
- Programa para depurar/certificar enlaces
- entre Tiers. DDT
- Enlace ruta unidireccional entre 2 centros.
- Instancia de PhEDEX de Debug estructura LT07.
- Los enlaces están sujetos a diferentes métricas
- tasa de transferencia/volumen (300 GBs/dia).
- Sólo los enlaces certificados se activan en la
- instancia Production en PhEDEX.
- Enlaces certificados pueden de-certificarse si
no - mantienen las métricas.
- Infraestructura de generación de carga contÃnua
- 24/7 de tráfico CMS entre Tiers. LT07
- - Fuente 1 TB/Tier - ficheros fake de 2.6
GBs. - - Inyección centralizada de datos en PhEDEX TMDB
(simple). - Centros de destino subscriben a esas muestras ?
recepción. - Disponibilidad infinita (??LFNs apuntan al mismo
fichero fÃsico).
Tier-0?Tier-1 Tier-1?Tier1 (trans-oceánico)
Tier-1?Tier-2 regionales Tier-1?Tier-2 no
regionales
13LT07 DDT resultados globales I
Tasa de Transferencia LT07 Production instance
LoadTest07
LoadTest07 2 PBs/mes!
CSA06
1-Ene-2007 ? 15-Nov-2007
Tier-1s 25 PBs 15-Nov-2007 Tier-1s (2007) 28
PBs
Volumen transferencias LT07DDT ProductionDebug
instance
14LT07 DDT resultados globales II
Tasa de Transferencia DDT Debug instance
15-Nov-2007
DDT
2.5 PBs/mes!
15-Nov-2007
15-Nov-2007
15-Nov-2007
Tier-1 matriz certificación
273 enlaces certificados
Tier-2 stats
Enlaces Certificados
Enlace certificado. Enlace de-certificado Transfer
encias en progreso (ltmétrica)
15LT07 DDT resultados PIC Tier-1
1-Ene-2007 ? 15-Nov-2007
PIC estimado 2007 importexport 2 PBs
150 TBs/mes (contribución 6.5 CMS)
PIC Volumen transferencias LT07DDT
ProductionDebug instance
Tier-1 Calidad export
Tier-1 Calidad import
16LT07 DDT resultados SWE region
1-Ene-2007 ? 15-Nov-2007
15-Nov-2007
15 Enlaces certificados por CMS
17Uso eficiente del servicio FTS con PhEDEX I
- Transferencias CMS desde un punto de vista
Tier-1 - Tier-0 ? Tier-1 (crÃtico).
- Tier-1? Tier-1 (thoughput importante en CMS).
- Tier-1? Tier-2 regionales.
- Tier-1? Tier-2 no regionales.
Algunos enlaces pueden tener más tráfico que
otros, en función del Tier-1.
- PIC (p.e.)
- PIC 5 del total ? Importa más datos reducidos
de Tier-1s. - SWE Tier-2s deben tener más prioridad/flujo ?
que otros Tier-2s. -
La interacción PhEDEX con FTS debe reflejar
estas necesidades.
S o l u c I ó n a d o p t a d a
El conjunto de agentes debe de coincidir en lo
máximo posible con la configuración del FTS a
usar.
Uso de un conjunto de agentes PhEDEX que refleje
el modelo de computación de CMS.
PhEDEX _at_ PIC 1 agente Tier-0?PIC. 7 agentes,
uno por cada centro Tier-1-gtPIC. 2 agentes para
los Tier-2 españoles (IFCA,CIEMAT). 2 agentes
para los Tier-2 portugueses (LISBON,COIMBRA). 1
agente para Tier-2 no-regionales. Cada Tier-2
regional corre un agente download PIC único.
Configuración canales FTS _at_ PIC Canales
independientes T1s?PIC. Para cada Tier-2
regional PIC?T2reg, T2reg?PIC, ?T2reg. 1 canal
?PIC. 1 canal PIC?.
18Uso eficiente del servicio FTS con PhEDEX II
Transferencias ? PIC Debug instance
- Esta configuración FTS/PhEDEx permite obtener
mayor ocupación de los canales FTS y una - mayor tasa de transferencia.
- Modelo aceptado como configuración PhEDEX
standard por todos los Tiers de CMS. - En CMS estamos desarrollando una nueva interfaz
FTS/PhEDEX para optimizar aún más la - interacción entre ambos sistemas.
- Varias reuniones con los desarrolladores FTS.
Nuevas funcionalidades en el FTS requeridas.
19Medidas KB/s/Stream por Centro I
- La configuración del FTS fija modo
(urlcopy/srmcp), número de ficheros en paralelo y
Streams - por fichero, por canal.
- Si queremos mantener una tasa de transferencia
constante en un canal, el throughput por - Stream deberÃa ser constante
Throughput por Stream en las transferencias CMS
PIC?Tier-2s regionales entre 16-OCt y 15-Nov
- En general esto no sucede observamos
variaciones significativas temporales en algunos - centros. Una posible explicación puede estar
en la limitación a 1 Gbps de salida del PIC - saturación de salida la red si otra VO no
transfiere activamente ? throughput ?? cte - En general fijar N ficheros en paralelo
Streams en el FTS no garantiza thr. máximos ctes. - Monitorizar los valores de throughput ? cambiar
dinámicamente los parámetros FTS por - canal que garantizen throughputs de acuerdo con
el modelo de computación de CMS.
20Medidas KB/s/Stream por Centro II
- FTS no puede garantizar throughputs similares
- para diferentes centros comprendidos en
canales - tipo STAR-TIER o TIER-STAR.
- La monitorización no ayuda, ya que los cambios
- Nfiles/Nstreams afectan de forma global al
- canal STAR-TIER o TIER-STAR (y no a los
centros - involucrados).
- Caso concreto transferencias T1s-gtIFCA, donde
- la mayorÃa de transferencias son gestionadas
- por el canal STAR-IFCA (excepto PIC,
PIC-IFCA). - NOTA El centro con throughput más bajo acaba
bloqueando el canal STAR, - no gestiona otros canales ?
necesidad de share por centros. - Nuevo código de interacción PhEDEX/FTS
- ajustará estas diferencias (de forma
dinámica), - en lo posible...
RAL,FNAL
PIC
INP3
21Medidas KB/s/Stream por Centro III
Stats. entre 16-Oct/15-Nov
(AsimetrÃa en throughput) Transferencias ?
PIC 10 Gbps. Transferencias PIC ? 1 Gbps.
FTS introduce tiempos muertos
- Pre/Post transferencia 20-40
- Tasas transferencias GRIDFTP gt GSIFTP
- Tiempo muerto total
- gt50 en algunos enlaces
- (CIEMAT?PIC,LISBON?PIC, etc)
- A entender
22Cuellos de Botella red
- El modelo de computación de CMS todavÃa no
establece unos requisitos claros sobre el ancho - de banda en las transferencias Tier-1 ?
Tier-2s. - Transferencias Tier-1 ? Tier-2s a ráfagas,
(quizás) 1Gbps simultáneas hacia varios Tier-2s. - Es importante entender los enlaces entre el PIC
y los centros Tier-2s conectados a RedIRIS, y - minimizar los cuellos de botella ? Tests iperf
en marcha con los centros Tier-2 regionales. - Por ejemplo para la conexión PIC?IFCA parecen
existir dos posibles rutas. Observamos que - las transferencias están tomando el camino de
menos rendimiento (622Mbps, por Aragón).
- AsimetrÃa 10Gbps (entrada al PIC) - 1Gbps
(salida del PIC) eliminada el 19-Nov al migrar
los - servidores de disco al nuevo rango de IPs.
Transferencias PIC ? Debug instance
23Outlook Conclusiones
- Mostrado el contexto de transferencias de datos
del CERN al resto de Tiers. - En particular cual es el contexto en CMS y el
PIC como Tier-1 de la región SWE. - Implantación de la LHC-OPN de 10 Gbps en el PIC
finalizada esta semana. - ? Futura optimización a nivel de storage va a
incrementar el flujo in/out. - PhEDEX es una herramienta que ha permitido a CMS
mover datos a tasas más altas - que las demandados por LHC. (Objetivo Stress
Test cumplido!) - Programa CMS de certificación de enlaces DDT
entre Tiers es positivo para - mantener los centros activos en todo momento
(admins). - De estos tests de Stress se deducen
optimizaciones tanto a nivel de PhEDEX como - del servicio grid middleware FTS. Ambas en
desarrollo. - El papel del PIC como Tier-1 CMS ha sido muy
relevante en los tests - ? Demostrado capacidad de mantener gt5 de tasa
de transferencias (x5 2008!). - ? En gran parte gracias a la buena ocupación
de los canales FTS monitorización. - ? Colaboración PIC/CERN implementación de la
nueva interfaz FTS/PhEDEX. - Tests iperf con centros Tier-2 de la región SWE
Tier-1s planeados - ? Primera incidéncia Enlace PIC ? IFCA es de
622 Mbps ? Re-route a 2.5 Gbps?
24BACKUP
25Resumen ponencia
- Large Hadron Collider Flujo de datos.
- Worldwide LHC Computing Grid WLCG.
- Región SWE PIC(Tier-1)Tier-2s asociados.
- PIC Tier-1 Recursos experimentos LHC.
- PIC Tier-1 LHC-OPN I red.
- CMS Transferencias de Datos (PhEDEX).
- Actividades pre-LHC CMS LT07 DDT.
- LT07 DDT resultados globales.
- LT07 DDT resultados PIC Tier-1.
- LT07 DDT resultados SWE region.
- Uso eficiente del servicio FTS con PhEDEX.
- Medidas KB/s/Stream por Centro.
- Cuellos de Botella red.
- Summary.
26PIC Tier-1 LHC-OPN red III
_at_ PIC 2 VLANs sobre 10 Gbps 2 Gbps (Best
Effort) Tráfico PIC?Tier-2 8?10 Gbps
LHC-OPN Tráfico Tier-0? PIC Tráfico PIC?Tier-1
? Tier-2
2GE
E. Robles