Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Big Data csak hype lenne?

No description
by

Zoltán Vigh

on 13 June 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Big Data csak hype lenne?



nehezen megfogható és definiálható trend ami sokak szerint gyökeresen megváltoztatja az informatikát
adatok fizikailag nem egy helyen vannak tárolva, hanem szétszórva különbözö gépeken
új adattárolási és lekérdezési módszerek
bármi tárolható (kép, hang, szöveg), azaz itt szó sincs hagyományos értelemben vett strukturált adatbázisról
3V
- Volume / Velocity / Variety ...


Flume - Logok elosztott gyűjtése és tárolása
Sqoop - SQL adatbázis kapcsolat
Hive - Elosztott adattárház (HiveQL lekérdező nyelv)
Pig - Adatellemző scriptnyelv (Félig struktúrált adatok)
HBase - Realtime adatbázis
Mahout - Gépi tanulási algoritmusok (Prediktiv analitika)
ZooKeeper - Kordináció, konfiguráció

Big Data
Kovács Ákos & Vigh Zoltán
Nextent Informatika Zrt.
Big Data csak hype lenne?
NoSQL
Hadoop
Szoftver keretrendszer (Java, OpenSource)
Mire jó a Hadoop?
Nagy fájlok / nagyon sok adat elosztott feldolgozása
Log analízis, gyűjtés
Képfeldolgozás
Adatbányászat
Piacelemzés
Indexelés (keresőmotorok)

Köszönjük a figyelmet!

+ Value (érték – feldolgozással értéknövekedés),
+ Veracity (megbízhatóság – változó adatminöség),
+ Variability (változékonyság – változó tartalom)
Alternatívák
Storm (free and open source distributed realtime computation system)
S4 (general-purpose, distributed, scalable, fault-tolerant, pluggable platform that allows programmers to easily develop applications for processing continuous unbounded streams of data)
kiforrott termékek?
Big data trendek
real time, streaming (adatfolyam) feldolgozás: hatalmas igény (storm, s4)
flash memória, SSD vs. hagyományos tároló-tömbök
in memory vs. batch processing vs. stream processing
statisztika + informatika + üzlet „data science”
NoSQL vs. NewSQL
Megjelenítés
12 hasznos eszköz Big Data fejlesztöknek - by Derrick Harris

1. BitDeli - Saját dashboardok és riportok fejlesztése Python scriptekkel
2. Continuuity - Big Data alkalmazások készítése egyszerüen
3. Flurry - mobil alkalmazások készítése, forgalmazása és mérése
4. Google Prediction API - Prediktív modellek építése a Google segítségével
5. InfoChimps - Könnyen használható Big Data keretrendszer
6. Keen IO - Analitikus API mobilfejlesztöknek
7. Kontagent - mobil és szociális alkalmazások mérése
8. Mortar Data - Hadoop könnyen és gyorsan
9. Placed Analytics - helyfüggö adatok elemzése
10. Precog - Analitikus platform fejlesztöknek
11. Spring for Apache Hadoop - A jól ismert Spring keretrendszer Hadoopra adaptálva
12. Statmix - Saját dashboardok könnyen és gyorsan
MENNYI?
- Google: 1PB rendezése 33 percben (2011.07.), 25 PB/nap
- Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.)
- Facebook: 30+ PB felhasználói adat (2012.06.)
- YAHOO!: 170PB
- IBM becslés: 2 500 000 000 000 000 000 bit/nap

pl. • szélerömü szenzor adatok:
- 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB adat / hó
- farm: 10-100 turbina, régió: 5-50 farm

Cél:
- kapcsolatok felismerése, minták elemzése
- modell-elörejelzések, piac alakulás
- ügyfél igények, szokások - szolgáltatások javítása, logisztika
- kockázat csökkentés, fraud menedzsment
pl. NAV - online pénztárgépek, idöjárás adatok, dugófigyelö
egészségügy

irányvonalak:
- alapok
• számítási és egyéb elméleti modellek, adatminöség, szabványok, …
- infrastruktúra
• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …
- adatkezelés
• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …
- keresés és adatbányászat
• közösségi hálók, mobilitás adat, big data keresés, …
- biztonság és adatvédelem
- alkalmazások
"size does matter"
Hardver korlátok:
- merevlemez: 12-24 TB
2 TB kilvasása ~6 óra
- memória: 32-64 GB


- BI megoldások
- BIG DATA: tárolás és kezelési KÖLTSÉG!
"2016-ig vállalatok 30%-a próbálja meg értékesíteni az információit" - Gartner

- tapasztalathiány -> információbrókerek, közvetítök, rendszerek
- adatok közvetlen és újraértékesítése
- BIG DATA piac 31,7 %-os növekedés/év -> 2016-ra 23,8 milliárd dollár bevétel

- adatok értékének felismerése -> stratégiai értékesítés?
- biztonság -> szabályozás, nyilvánosság
Volume (másodpercenkénti adattömeg),
Velocity (sebesség: gyorsan, valós idöben),
Variety (változatosság: sokféle forrás, összefüggés)
“big data is when the size of the data itself becomes part of the problem”
“big data is data that becomes large enough that it cannot be
processed using conventional methods”
ADAT - INFORMÁCIÓ - ÉRTÉK
Leggyakoribb adatforrások:

Egy felmérés szerint a vállalatok
- 74 % gyüjt aktuális adatokat.
- 55 % gyüjt múltbeli adatokat.
- 48 % gyüjt felügyeleti rendszerekböl és érzékelökböl származó adatokat.
- 40 % hasznosít olyan valós idejü adatokat, amelyeket használat után töröl.
- 32 % gyüjt nem strukturált adatokat, például videoanyagokat.
Full transcript