introduction to hadoop - PowerPoint PPT Presentation

About This Presentation
Title:

introduction to hadoop

Description:

Hadoop is an Apache open source framework written in java that allows distributed processing of large datasets across clusters of computers using simple programming models. A Hadoop frame- worked application works in an environment that provides distributed storage and computation. – PowerPoint PPT presentation

Number of Views:61

less

Transcript and Presenter's Notes

Title: introduction to hadoop


1
HADOOP INTRODUCTION
By Professional guru
2
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
3
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
4
INTRODUCCIÓN
Actualmente el crecimiento exponencial de datos
como las nuevas las nuevas tecnologías de
almacenamiento de ellas, están cambiando la
arquitectura de los nuevos sistemas y el modo
con el cual se está acelerando el proceso de esta
información. Motivo a esto, es la aparición de
varias herramientas de código libre que permiten
manejar enormes cantidades de datos en sistemas
distribuidos.
http//professional-guru.com
5
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
6
HADOOP
Hadoop es un framework de software basado en Java
y está orientado a aplicaciones distribuidas con
un uso extensivo de datos y de alta
escalabilidad. Se presenta como una solución
para los programadores sin experiencia en el
desarrollo de aplicaciones para entornos
distribuidos, dado que oculta la implementación
de detalles propios de estos sistemas
paralelización de tareas, administración de
procesos, balanceo de carga y tolerancia a
fallos.
http//professional-guru.com
7
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
8
VISIÓN ACTUAL
Hoy en día, el análisis de estos enormes
volúmenes de datos de distintos formatos, se
están extendiendo paulatinamente en el mundo de
las Empresas, Redes Sociales y Weblogs. Este
fenómeno ha creado una nueva organización sin
fronteras a la que llamamos Big Mc Data
http//professional-guru.com
9
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
10
MAPREDUCE
Hadoop proporciona
un entorno
de ejecución orientado a
  • aplicaciones desarrolladas bajo el modelo de
    programación MapReduce. Bajo este modelo, la
    ejecución de una aplicación presenta dos etapas
  • Map donde se realiza la ingestión y la
    transformación de los datos de entrada, en la
    cual los registros de entrada pueden ser son
    procesados en paralelo.
  • Reduce fase de agregación o resumen, donde todos
    los registros asociados entre sí deben ser
    procesados juntos por una misma entidad.

http//professional-guru.com
11
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
12
HDFS
  • Hadoop Distributed File System (HDFS) es un
    sistema de archivos distribuido, escalable y
    portátil escrito en Java para el framework
    Hadoop, pensado para almacenar grandes cantidades
    de información, del orden Terabytes o Petabytes
    tolerante a fallos y diseñado para ser instalado
    en máquinas de bajo costo.

http//professional-guru.com
13
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
14
ARQUITECTURA
  • fundamentales
  • Sistema de Archivos Denominado HDFS.
  • Hadoop MapReduce Planificador de trabajos, así c
    omo una serie de nodos encargados para llevarlos
    a cabo.

La arquitectura
de Hadoop se sustenta sobre 3 pilares
  • Hadoop Common Conjunto de utilidades que
    posibiliten la integración de subproyectos de
    Hadoop.

http//professional-guru.com
15
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
16
FUNCIONAMIENTO
Sobre el sistema de archivos se ubica el motor de
MapReduce, que consiste en un planificador de
trabajos denominado JobTracker, a través del que
las aplicaciones cliente envían trabajos
MapReduce. Este planificador envía el flujo de
trabajo entrante a los nodos TaskTracker
disponibles en el clúster, que se ocuparán de
ejecutar las funciones map y reduce en cada nodo.
http//professional-guru.com
17
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
18
MODOS DE EJECUCIÓN
  • Hadoop se puede ejecutar de tres formas
    distintas
  • Modo Local / Standalone Por defecto,

Hadoop está
  • configurado para ejecutarse en este modo como un
    proceso de Java aislado. Esto es útil para
    depuración.
  • Modo Pseudo-distribuido Hadoop puede ejecutarse
    en este modo, en donde cada tarea se ejecuta en
    proceso Java diferente.
  • Modo Distribuido Esta es la forma de aprovechar
    toda la potencia de Hadoop, ya que se maximiza
    el paralelismo de procesos y se utilizan todos
    los recursos disponibles del clúster en el que
    se va a configurar Hadoop.

http//professional-guru.com
19
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
20
EJEMPLOS DE USO
  • Existe un gran número de aplicaciones y empresas
    que utilizan Hadoop en sus clústers. Entre los
    más relevantes podemos mencionar los siguientes
  • Facebook
  • Google
  • Twitter
  • Yahoo!

http//professional-guru.com
21
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
22
DESVENTAJAS
  • La curva de aprendizaje de Hadoop es Alta
  • Hadoop no permite hacer lookups
  • Hadoop reprocesa todo siempre
  • Latencia

http//professional-guru.com
23
  • Introducción
  • Hadoop
  • Visión Actual
  • MapReduce
  • HDFS
  • Arquitectura
  • Funcionamiento
  • Modos de Ejecución
  • Ejemplos de Uso
  • Desventajas
  • Alternativas

http//professional-guru.com
Write a Comment
User Comments (0)
About PowerShow.com