Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

대용량 데이터 처리 기술

No description
by

JongWoon Bae

on 3 May 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of 대용량 데이터 처리 기술

0.2초 수백억 데이터 검색시간 세계 인터넷 사용자 16억 명 그 중 70%인
10억명이 사용 1일 Page View 50억 2000 TB 1일 데이터 처리량 전세계 트래픽의 7% 분산 처리 분산 파일 시스템 비정형 데이터베이스 NoSQL 캐 시 분산 클러스터 관리 변화된 요구사항 탄력적인 확장성 고가용성 자동 리소스 관리 장애시 자동 복구 GFS, HDFS 데이터를 분산 저장
저가의 H/W에서 대용량 데이터를 처리 기존환경의 단점
확장시 고비용 발생
장애 발생시 치명적 분산 파일 시스템 단점
운영 체제에 직접 Mount 불가능
Write 시 3개씩 Write 하므로 Write 시간이 오래걸림
3배의 데이터 저장공간 필요 분산 데이터 분석 프로세싱을 블록 단위로 쪼개어 작업 후
결과를 취합하는 방식 (MapReduce) Web Log 분석
ETL
아이온 사용자 패턴 분석
미투데이 친구추천 구글 MapReduce
Hadoop HBase
Cassandra
MongoDB
CouchDB RDBMS 단점
높은 설계 비용
확장 비용이 높음
스키마 변경이 자유롭지 못함 빠른 성능을 위해 데이터를
메모리에 저장하여 사용
Memcached 분산 환경 개발시 고려사항
네임서비스
부하분산
분산 Lock, 동기화 문제
장애 상황 판단 문제
환경설정 관리 ZooKeeper 대용량 데이터 처리 분산 파일 시스템 특징
PC와 같은 값싼 H/W 이용
NAS 등의 고비용 장비를 사용하지 않고 S/W로 해결
대용량 파일 처리 (수백 MB~ 수 GB)
별도의 데이터 백업을 하지 않음
장비의 추가 제거가 용이
일부 장비의 장애에도 별도의 복구 절차 없이 지속적인 서비스 제공
빠른 응답속도보다 시간당 많은 처리량이 중요 최근 인터넷 사용 추세 다양한 디바이스

트래픽 예측이 어려움

대용량화 1TB 정렬 69초 1000대의 PC 사용 일반적인 웹서비스 구조 감 사 합 니 다 1PB 정렬 6시간 PC 4000대
HDD 48000개 사내 적용 대상 WiseLog
ETL
추천상품
기타..
Full transcript