Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Hadoop - MapReduce

Hadoop Intro Big Data & MapReduce
by

Nabila Gudiño Ochoa

on 12 April 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Hadoop - MapReduce

Big Data MapReduce Arquitectura
MapReduce Componentes del
Clauster Hadoop Hadoop Arquitectura de Hadoop Hadoop para Operaciones
Críticas de Negocio Captura y maneja mucha información
Trabaja con muchos tipos de datos (desestructurados)
Explota esta masa de información y los nuevos tipos y estilos de aplicaciones Las antiguas tecnicas para trabajar con la información no se adaptaban al crecimiento de Big Data Map Es un framework open-source basado en los
papers de Google MapReduce y Google File System 1 nodo maestro Capa de Aplicación Alta Escalabilidad

Baja latencia

Predictibilidad

Alta Disponibilidad

Fácil Manejo

Tenencia Múltiple Nuevas fuentes de datos
Mayor cantidad de información
Nuevas categorias de datos
Hardware y Software de consumo masivo Manejando el crecimiento de Big Data Se basa en el concepto de "divide y reinarás" El trabajo en paralelo es un concepto antiguo (1960), pero en 2004, Google, gracias su conjunto propio de desafíos, decidió llevarlo a un nuevo nivel para digerir la enorme cantidad de datos que generaba diariamente. El resultado: un conjunto de tecnologías y filosofías de diseño arquitectónico conocidas como
MapReduce Maneja bien tanto datos estructurados como desestructurados Computadoras de uso masivo para el procesamiento y almacenamiento Google File System: potente sistema
de archivos distribuido pensado
para alojar grandes cantidades
de datos Google Map Reduce Google File System Hadoop Hadoop Distributed File System Está diseñado para abstraer la complejidad del procesamiento distribuído Apache Software Foundation se ha hecho cargo, junto con Yahoo! para hacer aportes. Genera pares del tipo [clave, valor]:
El componente clave identifica qué tipo de información estamos buscando
El componente valor es una instancia actual asociada a esa clave. Map() Los registros del origen de datos se introducen en la función de map() como pares
[clave, valor] y luego produce uno o más valores intermedios junto con una clave de salida de la entrada. Reduce Reduce() Después de la fase de Map() ha terminado,
todos los valores intermedios para una clave de salida dada se combinan juntos en una lista.

La función Reduce() combina los valores
intermedios en uno o más valores finales
para la misma clave. Algunas organizaciones
que usan Hadoop Varios nodos
trabajadores Master Node La mayoría de implementaciones Hadoop consisten en pocas instancias de Master Node comparadas con las instancias de Worker Node. Job Tracker Name Node Job Tracker Este proceso está diseñado
para interactuar con las aplicaciones cliente y también
es responsable de distribuir
las tareas de MapReduce a nodos particulares
del cluster. Name Node Estos procesos se encargan de
almacenar un árbol de directorios de
todos los archivos del HDFS y también realizan un seguimiento de dónde se mantienen los archivos de datos dentro
del cluster.
Las aplicaciones cliente se ponen en contacto con los NameNodes cuando
es necesario localizar, añadir,
copiar o eliminar un
archivo. Una implementación normal de Hadoop
puede tener docenas e incluso cientos de
Nodos Trabajadores lo cual es necesario para
proveer del suficiente poder de procesamiento
para analizar desde unos pocos cientos de
terabytes a un petabyte. Nodo Trabajador Capa de Gestión de Trabajo de MapReduce Capa de Datos Capa de Aplicación Última capa de acceso para el usuario Proporciona un framework para la aplicación del cómputo distribuido para conjuntos de datos de gran tamaño (Big Data).

Sirve como punto de contacto para las aplicaciones de interactuar con Hadoop. Capa de Gestión
de Trabajo de MapReduce Conocido como JobTracker.
Es la encargada de dividir las tareas de Map y Reduse y distribuirlas entre los recursos disponibles.
Proporciona un motor de código abierto que coordina todos los aspectos del entorno de Hadoop.
Es la capa más importante dado que garantiza el rendimiento de nivel empresarial de Hadoop y su fiabilidad. Capa de Datos Sistema Distribuido de Archivos
en Paralelo Es la responsable real del almacenamiento y acceso de la información de Hadoop. Una de las posibilidades es usar HDFS: Los archivos se almacenan en bloques: 128MB por defecto.
Confiabilidad por replicación: cada bloque en tres Nodos de Datos.
Existe un solo maestro NameNode que coordina el acceso a los metadatos: esto simplifica y centraliza la gestión.
No hay caché de datos: dado que son conjuntos
de datos grandes y los escaneos son
secuenciales. Este nodo guarda los datos en el
HDFS y es el responsable de replicar
los datos en el cluster.
Los Nodos de Datos interactúan con
las aplicaciones cliente cuando el NameNode ha proporcionado la
dirección de Nodo de Datos. Data Node Es el proceso del clauster
capaz de recibir las tareas
de Map, Reduce y Shuffle
del Job Tracker Task Tacker Analogía de Implementación de Hadoop Imaginar una oficina con varios trabajadores, cada uno de ellos tiene una pila de documentos. Entra el jefe y dice que tiene que buscar información sobre el empleado de apellido Perez. Como sabe que el trabajador del escritorio 3 tiene los registros que van desde la O a la R, entonces le pide puntualmente a él que busque información sobre él. El trabajador realiza su búsqueda y le devuelve a su jefe el resultado de la misma. Luego el jefe se va a presentarla a sus superiores.
En esta analogía, el trabajador es el task tracker, la pila de documentos en su escritorio es el data node y todo en su conjunto es el nodo trabajador. Por otro lado, el jefe es el job tracker, y gracias al Name Node sabe que el trabajador del escritorio 3 tiene los registros que necesita, todo esto lo
vuelve el Master Node. Finalmente, el jefe entrega
los resultados a sus superiores, que serían la
aplicación que solicitó la
busqueda en primer lugar. Map Reduce en Hadoop Map Reduce
Full transcript