Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

BIG DATA

Presentación de Big Data para el curso de Almacenamiento y Acceso de la Información
by

Angel Muñoz

on 13 January 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of BIG DATA

BIG DATA
¿Que es Big Data?
Software para Big Data
https://developers.google.com/bigquery/
Definición
Tecnología utilizada para describir grandes cantidades de datos (estructurados, no estructurados y semi estructurados)

Toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales.

Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos.
¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data?
Estadísticas
¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas.

Dispositivos móviles, audio, video, imágenes, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos etc.
Tipos de datos Big Data
Big Data en el campo de la investigación
La información que recopila Facebook por medio de su botón “Me Gusta” mediante BigData
Características
¿Que es BigQuery?
Video
BigQuery de Google
1 quintillón = 10^30 = 1,000,000,000,000,000,000,000,000,000,000
Análisis de redes sociales:
Twitter son cerca de 12 Terabytes de tweets creados diariamente
Facebook almacena alrededor de 100 Petabytes de fotos y videos)

Se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo.
El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento en Italia: estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos.

Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase : para soportar las investigaciones relacionadas con el cáncer.

El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares.

La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá.

La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google.
Un servicio online para procesar grandes volúmenes de información que ya está disponible todo el mundo a través de una plataforma online.

Gracias a BigQuery las empresas pueden hacer sus primeros pasos en el procesamiento de grandes volúmenes de información.
- Velocidad: Análisis de miles de millones de registros en segundos.

- Escala: Capacidad para Terabytes de datos.

- Simplicidad: Consulta a través de un lenguaje de tipo SQL.

- Compartición: Sistema de permisos basado en Google Accounts.

- Seguridad: Acceso seguro a través de SSL.

- Múltiples métodos de acceso: Consola web de BigQuery, de herramientas por linea de comandos de Google, de un API REST o de Google Apps Script.
Aplicando Big Data da como resultado: datos relativos a la personalidad de los usuarios, sus circunstancias personales y sus circunstancias familiares.

Marcar un "me gusta" de Facebook se puede exprimir y procesar para ofrecer información de valor con la que, por ejemplo, modelar a los usuarios, segmentarlos y ofrecerles contenidos publicitarios mucho más dirigidos.
Demo
Software para Big Data
¿Que es Apache Hadoop ?
ARQUITECTURA PRINCIPAL DE HADOOP
CONCLUSIONES
Apache Hadoop
Framework que permite el procesamiento de grandes volúmenes de datos a través de clústeres, usando un modelo simple de programación.

Hadoop es un sistema distribuido usando una arquitectura Master-Slave, usando para almacenar su Hadoop Distributed File System (HDFS) y algoritmos de MapReduce para hacer cálculos.
La Big Data puede ofrecernos información que, aunque residía en los datos que manejábamos, no éramos capaces de ver y, por tanto, cómo podemos plantearnos preguntas cada vez más complejas a la hora de explotar la información.
HDFS
Es el sistema de almacenamiento, es un sistema de ficheros distribuido.
MapReduce
Es un proceso batch, creado para el proceso distribuido de los datos.
EL ECOSISTEMA DE HADDOP
Chukwa: es un sistema de captura de datos y framework de análisis que trabaja con Hadoop para procesar y analizar grandes volúmenes de logs.

Apache Flume: es un sistema distribuido para capturar de forma eficiente, agregar y mover grandes cantidades de datos log de diferentes orígenes (diferentes servidores) a un repositorio central

Hive: es un sistema de Data Warehouse para Hadoop que facilita el uso de la agregación de los datos, ad-hoc queries, y el análisis de grandes datasets almacenados en Hadoop.

HBase: se trata de la base de datos de Hadoop. No admite SQL.

UIMA: es un framework para analizar grandes volúmenes de datos no estructurados, como texto, vídeo, datos de audio, etc.
EL ECOSISTEMA DE HADDOP
Chukwa
UIMA
ESTRUCTURA
Full transcript