Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Hadoop & Mapreduce

No description
by

Tue Ngo

on 8 March 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Hadoop & Mapreduce

Introduction to Hadoop & Mapreduce
Hadoop
Đối với các giám đốc điều hành: Hadoop là một dự án phần mềm nguồn mở của Apache để thu được giá trị từ khối lượng/ tốc độ/ tính đa dạng đáng kinh ngạc của dữ liệu về tổ chức của bạn. Hãy sử dụng dữ liệu thay vì vứt bỏ hầu hết dữ liệu đó đi.
Đối với các giám đốc kỹ thuật: Hadoop là một bộ phần mềm nguồn mở để khai phá Big Data có cấu trúc và không có cấu trúc về công ty của bạn. Nó tích hợp với hệ sinh thái Business Intelligence của bạn.
Hadoop Cont.
HDFS and MapReduce
Sumary
What is BIG DATA?
Lớn về số lượng
Nhanh về tốc độ
Có cấu trúc hoặc
không có cấu trúc
khó nắm bắt , khai phá và quản lý
BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Công nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn. Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh (Decision Support System -DSS)
Hadoop là một môi trường song song thực thi map-reduce dựa trên Java. Hãy nghĩ đến hàng trăm, hàng ngàn máy tính đang làm việc để giải quyết cùng một vấn đề, có khả năng khôi phục lỗi dựng sẵn. Hadoop cung cấp khả năng load (tải) dữ liệu, hỗ trợ ngôn ngữ cấp cao, triển khai trên đám mây tự động và các khả năng khác.
Machine /system logs
Vehicle GPS traces
Social data (Facebook ,Twitter, etc..)
Có quá nhiều dữ liệu !!!!
Số liệu thực tế
Google xử lý hơn 700PB/tháng
FaceBook chứa hơn 10 tỷ bức ảnh chiếm khoảng hơn 1PB để lưu trữ
Netflix chi 1 triệu đô để giải quyết vấn đề Big Data tháng 11 năm 2009
Lịch sử
Được sáng tạo bởi Doug Cutting, trong dự án Apache
2004: Google công bố GFS(Google Research Publication) paper
2005: Nutch (một wed tìm kiếm mã nguồn mở) sử dụng MapReduce
2009: Yahoo sử dụng Hadoop để sắp xếp 1 TB trong 62 giây
2013: Hadoop được hàng trăm công ty sử dụng
Thành phần
Hadoop
MapReduce
HDFS
Hadoop Streaming
Một tiện ích để tạo nên mã MapReduce bằng bất kỳ ngôn ngữ nào: C, Perl, Python, C++, Bash, v.v. Các ví dụ bao gồm một trình mapper Python và một trình reducer AWK
Hive và Hue
Nếu bạn thích SQL, bạn sẽ rất vui khi biết rằng bạn có thể viết SQL và yêu cầu Hive chuyển đổi nó thành một tác vụ MapReduce. Đúng là bạn chưa có một môi trường ANSI-SQL đầy đủ, nhưng bạn có 4000 ghi chép và khả năng mở rộng quy mô ra nhiều Petabyte. Hue cung cấp cho bạn một giao diện đồ họa dựa trên trình duyệt để làm công việc Hive của bạn.
Pig
Một môi trường lập trình mức cao hơn để viết mã MapReduce. Ngôn ngữ Pig được gọi là Pig Latin. Bạn có thể thấy các quy ước đặt tên hơi khác thường một chút, nhưng bạn sẽ có tỷ số giá-hiệu năng đáng kinh ngạc và tính sẵn sàng cao.
HBase
Một kho lưu trữ key-value có thể mở rộng quy mô rất lớn. Nó hoạt động rất giống như một hash-map để lưu trữ lâu bền (với những người hâm mộ python, hãy nghĩ đến một từ điển). Nó không phải là một cơ sở dữ liệu quan hệ, mặc dù có tên là HBase.
Whirr
Cung cấp Đám mây cho Hadoop. Bạn có thể khởi động một hệ thống chỉ trong vài phút với một tệp cấu hình rất ngắn.
Fuse
Làm cho hệ thống HDFS trông như một hệ thống tệp thông thường, do đó bạn có thể sử dụng lệnh ls, cd, rm và những lệnh khác với dữ liệu HDFS.
Mahout
Máy học dành cho Hadoop. Được sử dụng cho các phân tích dự báo và phân tích nâng cao khác.
Vấn đề
Tốc độ đọc /ghi đĩa chậm
Sử dụng nhiều đĩa khác nhau và đọc /ghi song song
Hardware failure
Giữ nhiều bản coppi của dữ liệu , dùng RAID hoặc HDFS
How do you merge data from different reads?
Distributed Processing hoặc Hadoop MapRed
Hadoop là gì và tại sao nó lại quan trọng ?
Lịch sử của Hadoop
Các thành phần chính của Hadoop
HDFS là gì
Kiến trúc HDFS
Cách đọc ghi dữ liệu trên HDFS
HDFS
Introduction
Working with HDFS
OverView
Dưạ trên google's GFS
cấu thành từ các phần cứng "rẻ "
data phân tán khắp các Node
HDFS Design
Chạy được trên các phần cứng "rẻ"
Làm việc tốt với một lượng lớn file có dữ liệu lớn
Được xây dựng dựa trên ý tưởng "write one -read many times"
Large streaming reads
High throughput qua trọng hơn low latency
HDFS ẢArchitecture
Block Placement
-Cấu trúc mặc định :
Một bản ở local node
2 bản khác được lưu ở 2 node khác xa hơn
Tất cả các node được chọn là ngẫu nhiên
-Client luôn đọc thông tin từ node gần họ nhất

Read
Write
Map reduce
Full transcript