Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Big Data

No description
by

Salih Karakasli

on 17 June 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Big Data

Big Data
Büyük Veri
Bugünün büyük verisi, yarının küçük verisi olacak.
Çok büyük
miktarda veri
Depolama
Isleme
Analiz etme
Anlamlandırma
Görselleştirme
Büyük Verinin Teorik Tanımı
4V
Büyük Veri Neden Önemli ?
Dünya üzerinde çok ciddi miktarda veri üretiliyor.
Bu verilerin içerisinde anlaşılmayı bekleyen çok yararlı bilgiler gizli,
Büyük veri, özellikle şirketlerin rekabet güçlerini yükseltebilmeleri için eşsiz birer maden,
Insanların yaşamını kolaylaştıracak servislerin geliştirilmesine hız kazandıracak eşsiz imkanlar,
Bilim dünyasında şimdiye kadar düşünülememiş veya keşfedilememiş bir çok yeni bilginin keşfine tanınan imkanlar
Global Ekonomi - Kamu Yönetimi
BIG DATA ?
?
Flopy Disk
Yıl
Kapasite
1980-1995
1.4 Mb
Compact Disk (CD)
1985-2010
650-900 Mb
1995 - 2014
4.7 - 17.1 Gb
Digital Versatile Disc (DVD)
Blu-ray Disk (BD)
2003 - 2014
25 - 100 Gb
Sony Magnetic Tape
2014 - ?
185 Tb
Peki Bu Veriyi Kimler Üretiyor ?
Iş Dünyası ve Şirketler
Kişisel Bilgiler ve Sosyal Medya
Makineler, cihazlar ve sensörler
1. Volume :
2. Velocity :
3. Variety :
4. Value :
Yüksek hacimli veri
Hızlı veri akışı
Yüksek veri çeşitliliği
Değerli Bilgi
Bir veri kümesinin büyük veri olarak adlandırılabilmesi için, ilgili veri kümesinin güncel teknolojiler ile depolanması, işlenmesi ve analiz edilmesinin çok güç olması gerekmektedir.
Top 10 Strategic Technology Trends For 2013
Top 10 Critical Tech Trends For The Next Five Years
Bilimsel Araştırmalar - Ulusal Güvenlik
Kullanım Alanları
Ticaret ve Iş Dünyasında Büyük Veri
Üretilen bilgi 1.2 yılda 2 katına çıkıyor.
Walmart 6000 dükkanı ile günde 267 milyon satış gerçekleştiriyor.
Fiyat Stratejisi, reklam kampanyaları, verimlilik, karar alma süreçleri, stok yönetimi, tedarik zinciri, vb...
Kamu Yönetiminde Büyük Veri
Farklı özelliklerde ve ihtiyaçlarda insanlar,
Insanlar birbirleri ile bagımlı ya da bagımsız bilgi üretiyor.
Toplumun etkin ve verimli yönetilmesi, toplumsal hizmetlerin geliştirilmesi, kamu harcamalarında tasarruf saglanması
Bilimsel Araştırmalarda Büyük Veri
Astronomi, meteoroloji, biyinformatik vb. bilimler oldukça yogun veri ile yürütülür.
Large Synopic Survey Telescope (LSST) günde 30 trilyon byte görüntü bilgisi üretiyor.
Insan gen haritasının işlenmesi onlarca yıl sürebilecek büyüklükte.
Fırsatlar
Zorluklar
Paralel Programlama
Sosyal Medya
Dağıtık Hesaplama
Hadoop
Apache
Google
Dagıtık Dosya Sistemleri
Eğitim
Sağlık
Araştırma
Analiz
Bilgi
Zaman
Paylaşım
Teknoloji
Veri Tabanı
Boyut
Yönetim
Yazılım
Donanım

Sistem
Disk
Yetenek
Araç
Islem
Sensör
Makine
Akıllı Ulaşım
Karmaşık
Ilkeler
Terabyte
Petabyte
560 şirketin katıldıgı bir araştırma sonucu şu çıktılar elde ediliştir.
%51
Operasyonel verimliliği arttıracaktır.
%36
Karar alma süreçlerine katkı sağlayacaktır.
%27
Müşteri ilişkilerini iyileştirecektir.
%24
Ürün ve servislerin gelişimine katkı sağlayacaktır.
Zorluklar aşılmadığı sürece büyük veri ütopik bir kavram olarak kalacaktır.
Verinin Toplanması
Verinin Saklanması
Verinin Islenmesi
Verinin Islenmesi
Analiz Islemleri
Veri icinde arama yapmak
Veri Paylasımı
Yüksek Hızlı Işlemciler
Düşük Hızlı I/O Cihazları
1
Işlemci Hızı Artışı
Bilgi Üretim Hızı Artışı
2
Temel Sorunlar
Büyük Verinin Uygulama Aşamaları
Veri Kaydetme
Veri Ön Işleme
Veri Analizi
Görselleştirme
Dünyada hergün 2.5 kentilyon byte veri üretilmekte,
1980 yılından beri sahip olunan veri kapasitesi her 3 yılda iki katına çıkmakta,
SSD ve PCM teknolojileri ile daha iyi I/O performansları geliştirilmekte
DAS (Direct Attach Storage)
NAS (Network Attach Storage)
SAN (Storage Area Network)
Çözüme Daha Yakın Teknolojiler
Eksik Veri
Tutarsız Veri
Verinin Güncelliği
Veri Analizi Sonuçlarını etkileyen en önemli faktörler;
Veri kümesi farklı kaynaklardan beslenmektedir.
Heterojen bir yapıda oldugu için eksik ve yanlış veri ciddi bir sorundur.
Işlem performansını arttırmak ve veri kalitesini yükseltmek için veri temizleme, birleştirme, dönüştürme, azaltma teknikleri kullanılır.
Analiz teknikleri yetersiz kalmaktadır.
Gerçek zamanlı analizlerde sorun önemini daha da arttırmaktadır.
Analiz edilmesi gereken veri miktarı giderek artmaktadır.
Çözüm
Bulut Heasaplama
Dağıtık hesaplama ağı
Paralel Hesaplama
Analiz aşamasında veri gizliliği önemlidir. Firmaların finansal verileri, ticari sırları gibi bilgilerin korunması çok önemlidir. Ancak güvenlik önlemlerinin özellikle büyük hacimli veri kümelerinde ek iş yükü getirmeside ayrı bir sorundur.
Bilginin etkili bir şekilde temsil edilmesi amacıyla görselleştirme yapılır.
Bilginin çok yönlü olması,
Bilgi hacminin çok fazla olması
veri görselleştirme işlemini zorlaştırmaktadır.
Ölçeklenebilirlik
Işlem Süresi
bakımından mevcut araçlar kötü performas ile çalışmaktadır.
Bu nedenlerle yeni araçların geliştirilmesine ihtiyaç duyulmaktadır.
KARAR VERME
Araçlar
Disiplinler
Veri Madenciligi
Veri içerisinden bir anlam ve bilgi çıkarma amacıyla kullanılır.
Makine Ögrenmesi
Bilgisayarlara kendi başına doğru kararlar verdirtmek amacıyla çeşitli tekniklerin kullanılması ile uygulanır.
Görselleştirme Yaklaşımları
Geleneksel görselleştirme yaklaşımları
büyük veri
için uygun değil.
Sosyal Ag Analizi
Insanlar tarafından oldukça rağbet görülen sanal ortamlardır.
Optimizasyon Metotları
Bir sorunu veya durumu belirlenmiş kriterler doğrultusunda en verimli şekilde çözebilmeyi amaçlayan metodlardır.
Istatistik
Büyük veri kümelerinin toplanması, organize edilmesi ve yorumlanması aşamalrında kullanılmaktadır.
Veri Azaltma
Paralel Hesaplama
adımlarında optimizasyon yaklaşımlarından faydalanılır.
Farklı nesneler arasındaki ilişkilerin tespit edilmesi amacıyla kullanılmaktadır.

Büyük veriler için standart istatistik tekniklerinin kullanılması mümkün değildir. Yeni yaklaşımşar gerekmektedir.
Kümeleme
Sınıflandırma
gibi yaklaşımlardan faydalanır.
Veri madenciligi alanında kullanılan bir çok teknikten faydalanılarak veri analizi gerçekleştirmeye çalışılır.
Büyük veri için kullanıldığında ölçeklenme ve eğitim aşamalarında zorluklar yaşanmaktadır.
Map/Reduce
DrtadLINQ
IBM Parallel Machine Learning Toolbox
ölçeklenebilir makine öğrenmesi gerçekleştirebilen araçlardır.
SVM (Support Vector Machines)
Sınıflandırma ve tahmin amacıyla kullanılabilecek bir tekniktir. Dağıtık SVM çalışmaları devam etmektedir.
yapay sinir ağları
Insan sinir sisteminin çalışmasını taklit eden bir makne öğrenmesi tekniğidir. Karmaşık yapısı büyük verilerde eğitim aşamasını zaman ve bellek açısından sıkıntıya sokmaktadır. Bu durumda veri boyutunu azaltmak veya YSA'yı paralel ve dağıtık hale getirmek bir çözüm olabilir.
Özellik Çıkartma,
Geometrik Modelleme,
Boyut Indirgeme
tekniklerinden yararlanılmaktadır.
Dolaylı veya doğrudan kendleri ve çevreleri hakkında bilgiler paylaşılır.
Bu sanal ortamların incelenerek toplumsal ve bireysel bazda değerli bilgiler üretilmesi olasılığı oldukça yüksektir.
Büyük veri uygulamalarını temel olarak 3 farklı alana ayırmak mümkündür.
Yığın Veri işlem araçları
Canlı Veri işlem araçları
Etkileşimli analiz araçları
Apache Hadoop & Map/Reduce
Dryad
Apache Mahout
Jaspersoft BI Suite
Pentaho Business Analytics
Skytree Server
Tableau
Karmasphere Studio and Analytst
Talend Open Studio
Şimdiye kadar ortaya koyulan en önemli veri yoğun işlem platformlarından biridir.
hadoop kernel
HDFS
map/reduce
map / reduce parçala ve fethet mantığına dayanmaktadır. Problemi yinelemeli olarak alt parçalara böler her parçayı farklı işlem birimine gönderir ve dönen cevapları tekrar birleştirerek sonuca ulaşır.
APACHE HADOOP
Dryad
Paralel ve dağıtık programlar için popüler bir programlama platformudur.
Içerisinde hesaplama kümeleri düğümlerini içeren kümeler oluşturur. Programcılar bu hesaplama kümelerini kullanarak programlarını geliştirerler.
Herbiri bir kaç işlemci içeren binlerce bilgisayar kullanılarak programlar koşturulabilir.
Apache Mahout
Geniş ölçekli ve akıllı veri analiz programları için ölçeklenebilir ve ticari makine öğrenmesi tekniklerini sunmayı amaçlar.
Google
Amazon
Yahoo
IBM
Twitter
Facebook
Kümeleme, sınıflandırma, patern madenciliği, tahmin, boyut indirgeme algoritmalarına sahiptir.
Ticari amaçla kullanım için lisans alınması gerekmektedir.
Jaspersoft BI Suite
Açık kaynak kodludur.
VT kolonlarından rapor üretmeyi amaçlar
Mevcut iş zekası yazılımları içerisinde bulunur.
MongoDB, Cassandra, Redis, Riak ve CouchDB gibi noSQL veri tabanları ile uyumludur.
Hızlı bir şekilde sonuç elde edilmesini sağlar.
Veri depolarına doğrudan bağlanabilir.
Kullanıcı arayüzü ile kullanımı kolaydır.
Pentaho Business
Analytics
Büyük veri yazılım platformudur.
Yapısal veya yapısal olmayan büyük ölçekli verilerden raporlar oluşturmayı amaçar.
Birçok veri tabanı teknolojisi ile uyumludur.
Web üzerinden bir arayüze sunmaktadır.
Bilgiye hızlı ve kolay erişim sağlamaktadır.
Geniş veri setlerinin hızlı bir şekilde işlenmesi amacıyla tasarlanmıştır.
Genel amaçlı ilk makine öğrenmesi sistemidir.
Kolay kullanumu vardır.
Öneri sistemi, anamoli tespiti, kümeleme, benzerlik arama gibi kullanım alanları vardır.
Gerçek zamanlı analiz için tasarlanmıştır.
Skytree Server
Tableu
Büyük veri setlerini işlemek için
Tableu Desktop
TableuServer
Tableu Public
Tableu Desktop kullanıcı arayüzüne sahip bir araçtır.
Tableu Server iş zekası sistemidir.
Karmasphere Studio
hadoop tabanlı büyük veri platformudur
Verimli, hızlı ve dağıtık bir yöntemdir.
Eclipse IDE üzerinde eklentisi mevcuttur.

Teknik analiz, sql programcılığı ve veritabanı yöneticiliği için oldukça uygundur.
Talend Open Studio
Karmaşık kodlar yazmadan görsel bir arayüz yardımı ile büyük veri uygulamaları oluşturup analiz yapabilecek bir yazılımdır.
Açık kaynak kodludur.
Sürükle bırak yöntemi ile kolayca kullanılır.
Storm
S4
SQLstream s-Server
Splunk
Apache Kafka
SAP Hana
Storm
Hate toleransına sahip gerçek zamanlı dağıtık bir hesaplama platformudur.
Açık kaynak kodlu bir yazılımdır.
Gerçek zamanlı veri işlemek için tasarlanmıştır. Bu özelliği ile Hadoop'dan ayrılmaktadır.
Kurulumu ve kullanımı oldukça kolaydır.
S4
Yahoo tarafından 2010 yılında duyurulmuştur.
Hata toleransına sahiptir.
Dağıtık bir yapısı vardır.
Canlı veri akışlarını analiz etmek amacıyla geliştirilmiştir.
Java üzerinde yazılmıştır.
Modüler bir yapısı bulunmaktadır.
Geniş ölçekli canlı olarak akan verinin gerçek zamanlı olarak incelenmesini amaçlamaktadır.
Büyük miktarda yapısal olmayan log dosyaları, sensörler ve diğer makine verilerinin içerisinden örüntülerin tespit edilmesini amaçlamaktadır.
Veri diskte değil bellekte tutulur. Veri tabanı kullanılmadan çalışır.
SQL dili ilie uyumludur.
Hızlıdır.
SQLstream s-Server
Splunk
Makineler tarafından anlık olarak gerçek zamanlı üretilen bilgilerin incelenmesi amacıyla geliştirilmiştir.
Birçok uygulama ile kullanılabilmesi için esnek yapıda tasarlanmıştır.
Bulut teknolojilerinden faydalanmaktadır.
Verilerin indexlenmesi, gerçek zamanlı aranması, raporlanması ve kullanıcı arayüzü ile sunulmasına imkan tanır.
Apache Kafka
LinkedIn tarafından, canlı akan verilerin karar verme süreçlerine destek olması amacıyla geliştirilmiştir.
Web sitelerinde aktiviteler ve operasyonel bilgiler içerisinden bilgilerin çıkarılmasına çalışır.
Içerik Kopyalama
Tıklama Listesi
Arama Kelimeleri
Bellek içinde çalışan iş süreçlerini gerçek zamanlı anallizini yapabilmeyi amaçlayan bir platformdur.
Operasyonel raporlama, veri ambarı, tahmin, büyük veri üzerinde metin analizi gibi parçalardan oluşmaktadır.
Geniş bir uygulama yelpazesi ile çalışabilir. SAP kullanılması zorunlu değildir.
SAP HANA
Google's Dremel
Apache Drill
2010 yılında Google tarafından geliştirildi.
Trilyon satırlık sorguyu saniyeler içinde çalıştırabilecek bir kapasiteye sahiptir.
Sistem ile binlerce CPU ve Petabyte veri ile binlerce kullanıcı ölçeklenebilir.
Google's Dremel
Apache Drill
Diğer bir dağıtık interaktif büyük veri işleme platformudur.
Oldukça fazla esneklik ve farklı sorgulama dilleri desteği vardır.
Farklı veri türleri ve kaynaklarınıda destekler.
Dremel benzeri trilyonlarca satırlık sorgulamayı yapabilir.
iyi bir mimariye ve framework'e ihtiyaç vardır.
çeşitli analiz metotlarının desteğine ihtiyaç vardır.
tüm çözümleri kapsayacak tek bir büyüklük yoktur.
dağıtık hesaplamaların kullanılması gerekmektedir.
veriler bellek içinde dağıtık olarak saklanmalıdır.
veri birimleri ve işlemler arasında koordinasyon sağlanmalıdır.
TEŞEKÜRLER!
M. Salih Karakaşlı
Full transcript