Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Big Data

No description
by

Liston Alvarado

on 30 November 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Big Data

una nueva forma de analizar al mundo
El 90% de los datos existentes a nivel mundial se generaron durante los últimos dos años.
Estamos en la era del Big Data.
Los datos crecen de manera explosiva.
Provienen de fuentes como sensores, redes sociales, imágenes médicas, y un sinfín de fuentes.
Al día se producen 15 peta-bytes de nueva información.
1
Característcas
Velocidad
Volumen
Veracidad
Variedad
Validez
Volatilidad
El volumen de los datos almacenados en los depósitos de las empresas ha pasado de ocupar megabytes y gigabytes a “petabytes”.

•Google procesa 20 petabytes al día.
• La Bolsa de Nueva York genera un terabyte de datos al día.
• En 2020 se espera que se generen 420.000 millones de pagos electrónicos.
Twitter, que genera 8 terabytes al día (o 80MB por segundo).
La velocidad del movimiento, proceso y captura de datos dentro y fuera de la empresa ha aumentado significativamente.
Los modelos basados en inteligencia de negocios generalmente suelen tardar días en procesar, frente a las necesidades analíticas “casi” en tiempo real de hoy en día debido al flujo de datos a alta velocidad.
Establecer la confianza en big data presenta un gran desafío a medida que la variedad y la cantidad de fuentes crecen.
Veracidad grande de datos se refiere a los sesgos, el ruido y la alteración de los datos. Son los datos que se almacena y extrae significativa al problema que se analiza.
Veracidad sensación Inderpal en el análisis de los datos es el mayor desafío cuando se compara con cosas como el volumen y la velocidad.

La variedad de datos ha explotado, pasando de ser datos almacenados y estructurados, guardados en bancos de datos empresariales, a ser desestructurados, semi estructurados.
Una creciente variedad de datos necesitan ser procesados y convertidos en información.

Al igual que la veracidad de datos tan grande es el problema del sentido de validez es la información correcta y precisa para el uso previsto.
¿Qué es Big Data?
FUENTES Y TIPOS DE DATOS
Caracterísitcas
Desventajas
Ventajas
Implementación de mejoras tecnológicas que posibilitan la adquisición de datos .
El análisis de los datos puede mejorar sustancialmente la toma de decisiones .
Big Data facilita que las compañías evalúen sus productos.
Segmentación de los clientes para personalizar acciones.
Mejora la accesibilidad y la fluidez de la información dentro de la propia empresa.

Arquitectura
Hadoop

Cuando las empresas dan el paso hacia objetivos mucho más ambiciosos, suelen minimizar el riesgo de lo que supone manejar un big data.
Suele conducir a aquellos que toman decisiones en una empresa a emplear una actitud pasiva en muchos aspectos.
Son muy pocas las compañías que tienen la capacidad y equipamiento para generar esta información.

Conclusiones
El manejo de grandes volúmenes de datos, se ha convertido en el gran salto tecnológico en la actualidad, permitiendo manejar datos masivos, tanto estructurados como no estructurados.
Sin una plataforma de Big Data se necesitaría que desarrollar adicionalmente código que permita administrar cada uno de esos componentes.
Los análisis más precisos pueden conducir a la toma de decisiones, mejores decisiones pueden significar una mayor eficiencia operativa, reducción de costes y el riesgo reducido.
Repositorios Big Data
NoSql DataBase
No relacional, distribuido, de código abierto y escalable horizontalmente.
Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL.
La gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas.
Analytic Database
Bases de datos diseñadas específicamente para ser utilizadas como motores de DataWarehouse..
Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas.
Bases de datos de procesamiento paralelo masivo (MPP) Almacenamiento en columnas en lugar de filas (registros).
Hadoop Distributed File System (HDFS)
Sistema de almacenamiento, es un sistema de ficheros distribuido. Fue creado a partir del Google File System
Se encuentra optimizado para grandes flujos y trabajar con ficheros grandes en sus lecturas y escrituras.
Hadoop MapReduce
MapReduce es el núcleo de Hadoop.
Simplifica el procesamiento en paralelo, abstrayéndonos de la complejidad que hay en los sistemas distribuidos.
HBase
Es la base de datos Hadoop , es una base de datos columnar (column-oriented database) que se ejecuta en HDFS.
No soporta SQL, de hecho, HBase no es una base de datos relacional.
HBase permite que muchos atributos sean agrupados llamándolos familias de columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto.
Es evidente que los datos válidos son la clave para tomar las decisiones correctas.
Gran volatilidad de datos se refiere a la duración de datos válidos y por cuánto tiempo debe almacenarse.
En este mundo de información en tiempo real que necesita para determinar en qué punto son los datos ya no son relevantes para el análisis actual.
Arquitectura Big Data
Integración con Big Data
Grandes volúmenes de información
Full transcript