Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Adatbányászat a BigData világában

Adatbányászat a BigData világában - Gáspár-Papanek Csaba
by

Csaba Gáspár

on 26 October 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Adatbányászat a BigData világában

Adatbányászat a BigData világában Adatbányászati kihívások In-database
mining Analitikai szoftverek
párhuzamosított megoldásai Teljesítmény növekedik (sok job)
... de nem ugyanazok az adatbányászati eljárások kellenek
... de az adatok mozgatása magában kihívás Hadoop Greenplum HD RapidMiner Radoop Megoldás Felhő alapú
szolgáltatások Amazon EC2 költözés Hogyan tároljuk? Mi történt? Mi lesz? Új üzleti kérdések Mikroszegmentálás lehetősége
Csatornák használata
Egyéni targetálás
Ügyfelek közötti kapcsolatok hatásai
Szöveges tartalmak elemzése Mottó: Jó reporting - új feladatok Új elemzési eljárások Mottó: Skálázható célmegoldások Gyakran a klasszikus megoldások nem működnek
Egy entitás - hierarchikus struktúrák Szövegelemzés Esemény-logok elemzése Mintázatkeresés Lényegkiemelés Kapcsolati hálók Új technológiai megoldások Skálázhatóság
Egyedi feldolgozás lehetőségek
. - Best practice még kialakulóban
Elemzői folyamat támogatása Prediktív analitikai...
Adatelemzői.... Előadás fő hangsúlya High performance computing
SAS Grid Computing
. - Többgépes, menedzselt környezet
. - Jogok elosztott végrehajtása
SAS In-database
SAS In-Memory Analytics Apache Mahout
Ajánló rendszerek
Klaszterezés
Osztályozás, klasszifikáció Radoop architektúra Adatelőkészítés PIG (Yahoo) - Félstruktúrált adatokra is
Hive (Facebook) - SQLszerű lekérdezőnyelv
Casandra (Facebook) - noSQL alapok Modellezés EMC Greenplum HD Family Alap elemek
Mapreduce
Hive
HBase Kiegészítő támogatás
Klaszter menedzsment (Name Node and Task Tracker)
Greenplum Database integráció (Hadoop külső táblák) BI és analitikai támogatás
Informatica, Jaspersoft, Microstrategy, Pentaho, SAS, Talend, and VMware
Datameer, Karmasphere Analytics Lab Támogatás: Saját BigData analitikai metodika MAD Skills:
"Magnetic" - sok forrás összevonása
"Agile" - gyors és laza adatintegráció
"Deep" - mély elemzési lehetőségek DMLab történet Vezető open source adatbányászati környezet
Kutatási és projektfeladatok
Sajátosság: memória alapú feldolgozás
Nehézség: nagyobb adathalmazok feletti elemzések futtatása "tárolása / feldolgozása / elemzése során a legtöbb munkát az infrastruktúrák üzembentartása adja" x+1. BigData definíció: Egy rövidtávú és egy hosszútávú válasz Open source alapok kihasználása
Adatreprezentációk megértése (Java)
Memória alapú tárolás lecserélése: Hive adatbázis-táblákra Önálló technológia:

Hive elemzések grafikus összeállítása
30+ legfontosabb operátor (Rapid-I együttműködés)
Futtatási környezet
Adatbányászati integráció
Hozzáférés a RapidMiner képességeihez
Integrált Mahout megoldások adatbanyaszat.blog.hu 1,5 $/óra - 16GB RAM + Megfelelő tárhelyek
Munkatársak szemléletváltása
Valós tesztesetek - Partnernél tudtuk, hogy elég ekkora gép SnapLogic Platform felhő alapú megoldások összekapcsolásra
BigData kezelési lehetőség (MapReduce alapú megoldás) Klaszterek bérlése Amazon EC2 GPU
számítási kapacitás Mátrixműveletek gyorsítása
Matlab környezet Elv: legdrágább a hálózati továbbítás,
kódot küldjük, ne az adatot Oracle Data Mining SAS - Teradata Saját eljárások
Csak extrém módon skálázható algoritmusok
Új Oracle Data Miner 11g Release 2
Új grafikus interfész
Adatfolyamok összeállítása IBM SPSS Modeler SQL Pushback
In-database mining: Oracle, DB2, MSSQL Server Kevés adatmozgatás
Csak a hagyományos elemzési feladatok
Nem (félig) struktúrált adatok feldolgozásához hatékonyabb eszközök szükségesek Statikus leírók Tranzakciós adatok (cselekvés) Interakciók adatai (elemi lépések) Szenzoros / mozgási adatok (elemi lépés atomi összetevői) BigData mélységi
feldolgozása ... mint keretrendszer Elosztott fejlett implementációk
Megfelelő támogatás hiánya
Üzleti felhasználók számára túlságosan technológiai Cloudera Data flow felületek "Try and error"
metodika Teljes platformként értelmezhető
Támogatás, tréning, adatelemzési segítség, szemlélet
Jelentős partneri hálózat
Integrált prediktív analitika Jól skálázódik, jó kihasználtság
Könnyen kipróbálható megoldások, Visszalépés lehetősége (saját klaszter)
Adatbiztonság kulcskérdés - Szemléletváltást igényel (folyamatban) 1.) Technológia - Adatelőkészítés: Hadoop megoldások
Strukturálatlan adatok kulcsszerepben
- Modellezés: Hagyományos vagy Mahout 2.) Üzleti elemzés - BigData vs. üzleti felhasználók
Megfelelő szemlélet
Könnyen kezelhető felületek 3.) Adatbányászati kihívások - Céleljárások
- Elemzői gyakorlat kialakulása
- Modellek karbantartása, ütemezése Gáspár-Papanek Csaba





Budapesti Műszaki és Gazdaságtudományi Egyetem
DMLab Adatbányászati Műhely 2011. május 25. Adattárház Fórum 2011 gaspar@tmit.bme.hu
adatbanyaszat.blog.hu Adatbányászat a BigData világában Gáspár-Papanek Csaba Példa: Vásárló születési éve Példa: Megrendelt áruk és mennyiségük Példa: Kosár összeállításánál végzett kattintások sorozata, clickstream Példa: Két klikkelés közötti egérmozgás adatai BigData használatának három fő aspektusa Ritka mátrixok feldolgozása Kritikus kérdés:
- Egy előrejelzéshez mi a releváns
adatelem / attribútum / aggregátum?
Szakértői feltárás - gyors és intuitív feldolgozás és vizualizáció
Automatikus lényegkiemelő eljárások - aktív K+F terület MADLib könyvtár In-database analitika
Párhuzamosítás, SQL alapok
Jelentős modellezés képességek radoop.eu Kiaknázásban kulcsszerepe van
a prediktív analitikának gaspar@tmit.bme.hu
adatbanyaszat.blog.hu Adattárolás Jelentéskészítés Prediktív analitika Külső
adatforrás Külső
adatforrás Sok adat
Egyszerűbb
modell Mintavételezett
adat
Komplex
modell Adatbányászat ökölszabály
Full transcript