Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Nagy adathalmazok kezelése Hadoop technológiákkal

Nyílt Forráskódú BI konferencia 2011
by

Zoltan Prekopcsak

on 10 September 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Nagy adathalmazok kezelése Hadoop technológiákkal

Nagy adathalmazok kezelése
Hadoop technológiákkal
Prekopcsák Zoltán, BME
Big Data
http://adatbanyaszat.blog.hu
prekopcsak@tmit.bme.hu

Elosztott rendszer
Jövőkép
Hadoop
"Big Data is when the size of the data itself becomes part of the problem" - Mike Loukides, O'Reilly Media
Hardver korlátok
Üzleti példák
32-64 GB
12-24 TB
2 TB merevlemez kiolvasása ~6 óra
"Failure is the defining difference between distributed and local programming" - Ken Arnold, CORBA designer
170 PB
30 PB
25 PB/nap
Kihívások
MapReduce
Open-source csomagok
"Hadoop is a core technology behind every click on Yahoo!" - Carol Bartz, CEO
Apache Hadoop
Céges bejelentések
"We believe that more than half of the world’s data will be stored in Apache Hadoop within five years."
Hortonworks (Yahoo! spinoff)
Lego felnőtteknek
Hadoop 0.20

2009 április
max 4000 gép
SPOF
MapReduce 1.0
single tenant
Hadoop 0.23

2012 eleje
max 10000 gép
noSPOF
MapReduce 2.0
multi-tenant
2011. szeptember
Startupok
Nagyvállalatok
40 millió $ befektetés
Hadoop HDFS, MR
Elosztott fájlrendszer
Replikált adatblokkok
Maximum 4000 gép
Feladatkiosztás
Adatlokalitás kihasználása
Flume
Logok elosztott gyűjtése és tárolása
Sqoop
SQL adatbázis kapcsolat
Import-export
Apache Hive
Elosztott adattárház
HiveQL lekérdező nyelv
Apache Pig
Adatelemző szkriptnyelv
Félig struktúrált adatok
Apache HBase
Real-time adatbázis
Véletlen adathozzáférés
Apache Mahout
Gépi tanulási algoritmusok
Prediktív analitika
Apache Zookeeper
Koordináció, konfiguráció
Kiegészítő csomagok
Plusz funkciók
Oktatás, support
Fizetős disztribúciók
Karmasphere
Hadoop fejlesztői környezet
Vizuális elemzések
Radoop
RapidMiner plugin
Vizuális adatelemzés
Elosztott programozási paradigma

Független feladatok - "Shared nothing"

Nincs explicit kommunikáció

Közel lineáris skálázhatóság
Full transcript