Prezi

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in the manual

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Pentaho + Big Data

No description
by Pablo Albarrazín on 5 December 2012

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Pentaho + Big Data

¿Qué vamos a ver? El siguiente ejemplo muestra un caso de uso del plug-in de Big Data que permite integrar la herramienta Pentaho con Hadoop y toda su familia de productos para dar soluciones de Big Data de manera más sencilla.
Al ya conocer la herramienta, los pasos que se explican son los específicos a Big Data, pues el resto continúan comportándose de igual manera.

El ejemplo procesa 4 weblogs de un sitio web y muestra la cantidad de visitas, por mes y año.
Ejemplo de uso del plugin que
integra Pentaho + Hadoop Pentaho + Big Data Consideraciones Si bien el ejemplo no analiza exuberantes cantidades de datos, es muy intuitivo para comprender los conceptos de la herramienta y poder aplicar a mayor escala lo que aquí se muestra.

Resulta interesante tener algún conocimiento previo de Hadoop y su arquitectura. Como también en la herramienta Kettle de Pentaho(Spoon). Qué vamos a ver? Nos interesan los pasos específicos
de Big Data, en este ejemplo vamos a
analizar:
Hadoop Copy Files
Pentaho MapReduce Hadoop Copy FIles La principal tarea de este paso es obtener
un archivo de interés en un formato que
Hadoop pueda entender. Para esto, traslada
archivos de entrada al filesystem propio
de Hadoop (HDFS). El trabajo sigue luego,
utilizando estos archivos generados. Hadoop Copy FIles Pentaho MapReduce Este es el principal componente que
involucra el plugin para el manejo de
Big Data. Es el encargado de generar
los datos en forma de clave/valor y
también los analiza. Se compone de
un Mapper y un Reducer Una vez que hayamos creados tanto el mapper como el reducer podremos configurar la tarea MapReduce en el Job.
Aquí especificamos la ruta de la del archivo .ktr del Mapper y que nombres tienen las tareas de mapreduce Input/output de este. MapReduce Lo mismo con la configuración del Reducer. MapReduce MapReduce En el Job Setup podemos especificar los path de las carpetas en donde se encuentran los weblogs que copiamos antes en el HDFS (Input Path) y donde se guardaran los resultados (Output Path). Tambien el formato que estas van a tener, especificando claves Java de Hadoop que dan formato a la entrada y a la salida. MapReduce Aquí podemos especificar los puertos donde el HDFS y el job tracker de Hadoop dan servicio. Y también la cantidad de tareas en que podemos dividir el mapper y el reducer, para mejorar la performance. Mapper Reducer Mapper & Reducer En cada uno de estos pasos, se le debe indicar al framework qué se va a leer, y qué se debe devolver. Para esto existen los Step:
MapReduce Input: Cada transformación debe saber sobre qué tipo de clave/valor se va a trabajar
MapReduce Output: Cuando la transformación debe devolver un resultado al fwk, se debe especificar cuál es el campo de clave y cuál el de valor Manos a la obra: Ejecución Algunas conclusiones Pentaho Data Integration AKA Kettle nos permite manejar a Hadoop y muchas otras herramientas de una manera gráfica e intuitiva sin mayores complicaciones. Desarrolla una capa de abstracción que hace fácil el uso de transformaciones tan complicadas como las que analizan big data.

Pensemos las posibilidades que brinda un simple plugin, y cómo podemos escalar a grandes pasos combinando todo esto con las herramientas nativas de Pentaho (por ejemplo, el parser que se usa en este ejemplo) Pueden encontrar un ejemplo de estos weblogs aqui: http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000 Empecemos! Lo primero que tenemos que hacer es crear un job para hacer la copia de los weblog al HDFS y luego procesarla con MapReduce. El Job Creamos una carpeta para ubicar los archivos. En este caso weblogs/input La wilcard
se utiliza para especificar
las extensiones
de los archivos
mediante una expr. regular Una vez configurado todo lo necesario, podemos poner en marcha el Job de Pentaho.
Si todo sale bien, podremos encontrar los archivos part.* resultantes en el path de salida especificado, es este caso weblogs/output. La tarea RegEx nos permite dividir el log en columnas( expr. conocida)
La tarea de Calculator concatena el mes y el año en una nueva columna, que luego se utilizara en el MapRecuce Output como key. La tarea de Group By nos permite contar las ip´s de todos los weblogs agrupadas por la clave antes generada por el Mapper: Mes+Año.
Generando por ultimo, con el MapRecuce Output, la misma clave anterior(mes+año) y como valor el conteo de ip´s resultante.
See the full transcript