Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Amazon Redshift로 DW구축하기
윤석찬, AWS KOREA Tech Evangelist
http://twitter.com/channyun
http://facebook.com/channyblog
http://c...
과거 데이터	
분석 및 리포팅	
실시간 데이터	
프로세싱 및 대시보드 	
데이터 예측 	
학습을 통한 스마트 전망	
Amazon	Kinesis		
Amazon	EC2		
AWS	Lambda	
Amazon	Redshi6,...
Networking
VPC
Direct
Connect ELB Route53
Storage
S3 EBS Glacier
Storage
GatewayEC2
Compute
WorkSpaces
Elastic
MapReduce
D...
•  Kinesis:	Real-'me	data	stream	of	in-game	ac'vity	
•  MulAple	Kinesis	applicaAons:	Dashboards,	analy'cs	and	storage	
•  ...
데이터 분석 
데이터 저장 
Import/Export
Direct Connect
데이터 수집 
Amazon Kinesis
Amazon
Glacier
S3
DynamoDB		
Amazon Aurora
AWS 빅데이터 빌딩...
관계형 데이터 웨어하우스
대용량 병렬 처리 – 페타 바이트급
매니지드 서비스
$1,000/TB/Year; starts at $0.25/hour
Amazon		
Redshi6	
더 빠르고	
더 간단하고	
더 싸게
기존 데이터웨어하우스(DW)의 문제 ...
글로벌 2,000개 회사
다년 계약 요구
다년 개발 배포 요구
수백만 달러 사용료 요구
변화에 대한 불일치 사항
작은 기업도 대용량 데이터를 가진다 
(모바일, 소셜, 광고기술, IoT)
분석에 대한 고비용, 관리 복잡성이
혁신 저해 
0	
200	
400	
600	
800	
1000	
1200	
Ente...
Amazon Redshift의 서비스 관점
•  10배 저렴
•  손쉬운 배포
•  높은 DBA 생산성
•  10배 빠름
•  프로그래밍이 없음
•  손쉽게 Hadoop, 머신러
닝,스트림을 도구와 연동
•  워크 플로...
주요 고객
Amazon Redshift 아키텍처
•  리더(Leader)	Node	
SQL end point/메타 데이터 저장
쿼리 플랜 최적화/쿼리 실행 관장
•  컴퓨팅(Compute)	Nodes	
로컬 열 기반 스토리지
모든...
장점 #1: 빠르다 
•  I/O를 최대한 줄이는 구조
컬럼(Column) 기반 스토리지 c.f RDB-행기반
데이터 압축
스토리지 직접 연결
대용량 블록 사이즈
Sort Keys and Zone Maps
analyze...
SELECT	COUNT(*)	FROM	LOGS	WHERE	DATE	=	‘09-JUNE-2013’	
MIN:	01-JUNE-2013	
MAX:	20-JUNE-2013		
MIN:	08-JUNE-2013	
MAX:	30-J...
장점 #1: 빠르다 
•  병렬 및 분산 처리
Query
Load
Export
Backup
Restore
Resize
Amazon S3/EMR/DynamoDB/SSH
128GB RAM
16TB disk
16 coresC...
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
N...
장점 #1: 빠르다 
•  높은 I/O 워크로드를 처리를 위한 하드웨어 최적화
(4GB/sec/node)
•  향상된 네트워크 대역폭 (1M packets/sec/node)
•  인스턴스 크기 및 스토리지 선택 가능
•...
장점 #2: 싸다 
DS2	(HDD)	
Price	Per	Hour	for		
DW1.XL	Single	Node	
EffecAve	Annual		
Price	per	TB	compressed	
On-Demand	 $	0.85...
장점 #3: 관리는 AWS몫 
• 손쉬운 백업 
•  클러스터내 중복 복제본
•  S3로 지속적인 증분 백업
•  리전 간 백업
•  스트리밍 복원
Amazon S3
Amazon S3
Region	1	
Region	2	...
장점 #4: 우수한 보안 기능
•  데이터 연결시 SSL 사용 가능
•  Amazon VPC 적용 가능 (네트워크 분리)
•  데이터 암호화 지원
ü S3로 부터 암호화 된 데이터 로딩 가능
ü Block key, Cl...
장점 #5: 빠른 혁신
•  서비스 개시 후 100여번의 신규 기능 추가
•  격주 새로운 기능 출시
•  자동 패치 제공
Service Launch (2/14)
PDX (4/2)
Temp Credentials (4/1...
장점 #6: 강력한 지원 기능
•  맞춤형 함수 지원
•  머신 러닝
•  데이터 사이언스
•  Data Science
Amazon Machine
Learning
장점 #7: 다양한 연관 생태계 
Data Integration Systems IntegratorsBusiness Intelligence
장점 #8: 서비스 지향 아키텍쳐
DynamoDB
EMR
S3
EC2/SSH	
RDS/Aurora
Amazon	
Redshij	
Amazon Kinesis
Machine
Learning
Data	Pipeline	
Clo...
Demo:
qwikLABS 무료 실습
hkps://qwiklab.com/focuses/preview/1583
사용 사례
Twitter Firehose 실시간 분석 사례
Amazon	
Redshi6	
Starts	at		
$0.25/hour	
EC2	
Starts	at		
$0.02/hour	
S3	
$0.030/GB-Mo	
Amazon	Glacier	
$0.010/GB-Mo	
Amaz...
•  500MM tweets/day = ~ 5,800 tweets/sec
•  2k/tweet is ~12MB/sec (~1TB/day)
•  $0.015/hour per shard, $0.028/million PUTS...
Amazon.com – 웹로그 분석
•  Amazon.com 로그 분석
ü  1PB+ workload, 2TB/day, growing 67%
YoY
ü  Largest table: 400 TB
•  1차적 해결 방법
ü...
•  데이터 처리 용량
ü Query 15 months of data (1PB) in 14 minutes
ü Load 5B rows in 10 minutes
ü 21B rows joined with 10B rows – ...
마치면서…
Amazon Redshift: Spend time with your data, not your database
Amazon Redshift – 무료 사용(Free tier)
•  DC1.Large 노드 평가판을 2개월간 무료로 사용 가능
ü 매월 750시간을 무료로 사용할 수 있음
ü 160GB의 압축된 SSD 스토리지로 필요에...
참고 자료
•  Amazon Redshift
•  http://aws.amazon.com/ko/redshift
•  Amazon Redshift FAQ
•  http://aws.amazon.com/ko/redshift/...
hkp://onoffmix.com/event/55782/
여러분의 피드백을 기다립니다!
•  이전 웨비나 발표 자료 및 동영상
•  https://aws.amazon.com/ko/blogs/korea/category/webinar/
•  한국어 공식 소셜 미디어
@AWSKor...
Upcoming SlideShare
Loading in …5
×
Upcoming SlideShare
장애 관리 방안
Next
Download to read offline and view in fullscreen.

16

Share

Download to read offline

Amazon Redshift로 데이터웨어하우스(DW) 구축하기

Download to read offline

AWS 월간 웨비나 10월 녹화 동영상은 아래 링크를 참고하십시오.
https://aws.amazon.com/ko/blogs/korea/category/webinar/

Amazon Redshift로 데이터웨어하우스(DW) 구축하기

  1. 1. Amazon Redshift로 DW구축하기 윤석찬, AWS KOREA Tech Evangelist http://twitter.com/channyun http://facebook.com/channyblog http://channy.creation.net
  2. 2. 과거 데이터 분석 및 리포팅 실시간 데이터 프로세싱 및 대시보드 데이터 예측 학습을 통한 스마트 전망 Amazon Kinesis Amazon EC2 AWS Lambda Amazon Redshi6, Amazon RDS Amazon S3 Amazon EMR Data-driven development Amazon Machine Learning
  3. 3. Networking VPC Direct Connect ELB Route53 Storage S3 EBS Glacier Storage GatewayEC2 Compute WorkSpaces Elastic MapReduce Data Pipeline Hosted Hadoop framework Move data among AWS services and on-premises data sources Redshift Petabyte-scale data warehouse service Kinesis Real-time processing of streaming data at massive scale Zero admin NoSQL DB with fast, predictable performance DynamoDB AWS 빅데이터 서비스 빌딩 블록
  4. 4. •  Kinesis: Real-'me data stream of in-game ac'vity •  MulAple Kinesis applicaAons: Dashboards, analy'cs and storage •  Data Warehouse: BI repor'ng and interac've queries •  S3 and Glacier: Data storage and long term archival 슈퍼셀 게임 분석 사례
  5. 5. 데이터 분석 데이터 저장 Import/Export Direct Connect 데이터 수집 Amazon Kinesis Amazon Glacier S3 DynamoDB Amazon Aurora AWS 빅데이터 빌딩 블럭 Data Pipeline CloudSearch EMR EC2 Amazon RedshiC Machine Learning
  6. 6. 관계형 데이터 웨어하우스 대용량 병렬 처리 – 페타 바이트급 매니지드 서비스 $1,000/TB/Year; starts at $0.25/hour Amazon Redshi6 더 빠르고 더 간단하고 더 싸게
  7. 7. 기존 데이터웨어하우스(DW)의 문제 ... 글로벌 2,000개 회사 다년 계약 요구 다년 개발 배포 요구 수백만 달러 사용료 요구
  8. 8. 변화에 대한 불일치 사항 작은 기업도 대용량 데이터를 가진다 (모바일, 소셜, 광고기술, IoT) 분석에 대한 고비용, 관리 복잡성이 혁신 저해 0 200 400 600 800 1000 1200 Enterprise Data Data in Warehouse
  9. 9. Amazon Redshift의 서비스 관점 •  10배 저렴 •  손쉬운 배포 •  높은 DBA 생산성 •  10배 빠름 •  프로그래밍이 없음 •  손쉽게 Hadoop, 머신러 닝,스트림을 도구와 연동 •  워크 플로우 상에 분석 •  필요할 때만 사용 가능 •  고가용성 및 재해 복구 Enterprise Big Data SaaS
  10. 10. 주요 고객
  11. 11. Amazon Redshift 아키텍처 •  리더(Leader) Node SQL end point/메타 데이터 저장 쿼리 플랜 최적화/쿼리 실행 관장 •  컴퓨팅(Compute) Nodes 로컬 열 기반 스토리지 모든 데이터 로드/쿼리/백업 등에 대한 병렬 분산 처리 •  $0.25/hour에서 시작 , 2 PB (압축)까지 DC1: SSD; scale from 160 GB to 326 TB DS2: HDD; scale from 2 TB to 2 PB SQL Clients/BI Tools 128GB RAM 16TB disk 16 cores Inges'on/Backup Backup Restore Amazon S3/Amazon DynamoDB/SSH JDBC/ODBC 10 GigE (HPC) 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node Leader Node
  12. 12. 장점 #1: 빠르다 •  I/O를 최대한 줄이는 구조 컬럼(Column) 기반 스토리지 c.f RDB-행기반 데이터 압축 스토리지 직접 연결 대용량 블록 사이즈 Sort Keys and Zone Maps analyze compression listing; Table | Column | Encoding ---------+----------------+---------- listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw 10 | 13 | 14 | 26 |… … | 100 | 245 | 324 375 | 393 | 417… … 512 | 549 | 623 637 | 712 | 809 … … | 834 | 921 | 959 10 324 375 623 637 959
  13. 13. SELECT COUNT(*) FROM LOGS WHERE DATE = ‘09-JUNE-2013’ MIN: 01-JUNE-2013 MAX: 20-JUNE-2013 MIN: 08-JUNE-2013 MAX: 30-JUNE-2013 MIN: 12-JUNE-2013 MAX: 20-JUNE-2013 MIN: 02-JUNE-2013 MAX: 25-JUNE-2013 Unsorted Table MIN: 01-JUNE-2013 MAX: 06-JUNE-2013 MIN: 07-JUNE-2013 MAX: 12-JUNE-2013 MIN: 13-JUNE-2013 MAX: 18-JUNE-2013 MIN: 19-JUNE-2013 MAX: 24-JUNE-2013 Sorted By Date 장점 #1: 빠르다 Sort Keys and Zone Maps
  14. 14. 장점 #1: 빠르다 •  병렬 및 분산 처리 Query Load Export Backup Restore Resize Amazon S3/EMR/DynamoDB/SSH 128GB RAM 16TB disk 16 coresCompute Node 128GB RAM 16TB disk 16 coresCompute Node 128GB RAM 16TB disk 16 coresCompute Node SQL Clients/BI Tools 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores Leader Node 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores CN 128GB RAM 48TB disk 16 cores Leader Node
  15. 15. 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Leader NodeID Name 1 John Smith 2 Jane Jones 3 Peter Black 4 Pat Partridge 5 Sarah Cyan 6 Brian Snail 1 John Smith 4 Pat Partridge 2 Jane Jones 5 Sarah Cyan 3 Peter Black 6 Brian Snail 장점 #1: 빠르다 DistribuAon Keys
  16. 16. 장점 #1: 빠르다 •  높은 I/O 워크로드를 처리를 위한 하드웨어 최적화 (4GB/sec/node) •  향상된 네트워크 대역폭 (1M packets/sec/node) •  인스턴스 크기 및 스토리지 선택 가능 •  주기적인 자동 패치 기능 제공 •  사례 : 신규 Dense Storage (HDD) 인스턴스 타입 ü  메모리 2x, 컴퓨팅 2x, disk 처리량 1.5x ü  비용: 이전 타입과 같음!
  17. 17. 장점 #2: 싸다 DS2 (HDD) Price Per Hour for DW1.XL Single Node EffecAve Annual Price per TB compressed On-Demand $ 0.850 $ 3,725 1 Year Reserva'on $ 0.500 $ 2,190 3 Year Reserva'on $ 0.228 $ 999 DC1 (SSD) Price Per Hour for DW2.L Single Node EffecAve Annual Price per TB compressed On-Demand $ 0.250 $ 13,690 1 Year Reserva'on $ 0.161 $ 8,795 3 Year Reserva'on $ 0.100 $ 5,500 •  간단한 가격 모델 •  노드 수 x 시간당 과금 •  Leader node 과금 없음 •  초기 비용 없음 •  사용한 만큼만
  18. 18. 장점 #3: 관리는 AWS몫 • 손쉬운 백업 •  클러스터내 중복 복제본 •  S3로 지속적인 증분 백업 •  리전 간 백업 •  스트리밍 복원 Amazon S3 Amazon S3 Region 1 Region 2 Compute Node Compute Node Compute Node • 빠른 장애 복구 •  디스크 장애 •  노드 장애 •  네트워크 장애 •  리전/AZ 장애
  19. 19. 장점 #4: 우수한 보안 기능 •  데이터 연결시 SSL 사용 가능 •  Amazon VPC 적용 가능 (네트워크 분리) •  데이터 암호화 지원 ü S3로 부터 암호화 된 데이터 로딩 가능 ü Block key, Cluster key, Master key (AES-256) ü 온프레미스 HSM & AWS CloudHSM 지원 •  AWS CloudTrail 통합을 통한 감사기능 •  SOC 1/2/3, PCI-DSS, FedRAMP, BAA 인증 10 GigE (HPC) Inges'on Backup Restore SQL Clients/BI Tools 128GB RAM 16TB disk 16 cores 128GB RAM 16TB disk 16 cores 128GB RAM 16TB disk 16 cores 128GB RAM 16TB disk 16 cores Amazon S3 / EMR/DynamoDB/SSH Customer VPC Internal VPC JDBC/ODBC Leader Node Compute Node Compute Node Compute Node
  20. 20. 장점 #5: 빠른 혁신 •  서비스 개시 후 100여번의 신규 기능 추가 •  격주 새로운 기능 출시 •  자동 패치 제공 Service Launch (2/14) PDX (4/2) Temp Credentials (4/11) DUB (4/25) SOC1/2/3 (5/8) Unload Encrypted Files NRT (6/5) JDBC Fetch Size (6/27) Unload logs (7/5) SHA1 Builtin (7/15) 4 byte UTF-8 (7/18) Sharing snapshots (7/18) Statement Timeout (7/22) Timezone, Epoch, Autoformat (7/25) WLM Timeout/Wildcards (8/1) CRC32 Builtin, CSV, Restore Progress (8/9) Resource Level IAM (8/9) PCI (8/22) UTF-8 Substitution (8/29) JSON, Regex, Cursors (9/10) Split_part, Audit tables (10/3) SIN/SYD (10/8) HSM Support (11/11) Kinesis EMR/HDFS/SSH copy, Distributed Tables, Audit Logging/CloudTrail, Concurrency, Resize Perf., Approximate Count Distinct, SNS Alerts, Cross Region Backup (11/13) Distributed Tables, Single Node Cursor Support, Maximum Connections to 500 (12/13) EIP Support for VPC Clusters (12/28) New query monitoring system tables and diststyle all (1/13) Redshift on DW2 (SSD) Nodes (1/23) Compression for COPY from SSH, Fetch size support for single node clusters, new system tables with commit stats, row_number(), strotol() and query termination (2/13) Resize progress indicator & Cluster Version (3/21) Regex_Substr, COPY from JSON (3/25) 50 slots, COPY from EMR, ECDHE ciphers (4/22) 3 new regex features, Unload to single file, FedRAMP(5/6) Rename Cluster (6/2) Copy from multiple regions, percentile_cont, percentile_disc (6/30) Free Trial (7/1) pg_last_unload_count (9/15) AES-128 S3 encryption (9/29) UTF-16 support (9/29)
  21. 21. 장점 #6: 강력한 지원 기능 •  맞춤형 함수 지원 •  머신 러닝 •  데이터 사이언스 •  Data Science Amazon Machine Learning
  22. 22. 장점 #7: 다양한 연관 생태계 Data Integration Systems IntegratorsBusiness Intelligence
  23. 23. 장점 #8: 서비스 지향 아키텍쳐 DynamoDB EMR S3 EC2/SSH RDS/Aurora Amazon Redshij Amazon Kinesis Machine Learning Data Pipeline CloudSearch Mobile AnalyAcs
  24. 24. Demo:
  25. 25. qwikLABS 무료 실습 hkps://qwiklab.com/focuses/preview/1583
  26. 26. 사용 사례
  27. 27. Twitter Firehose 실시간 분석 사례
  28. 28. Amazon Redshi6 Starts at $0.25/hour EC2 Starts at $0.02/hour S3 $0.030/GB-Mo Amazon Glacier $0.010/GB-Mo Amazon Kinesis $0.015/shard 1MB/s in; 2MB/out $0.028/million puts Twitter Firehose 실시간 분석 사례
  29. 29. •  500MM tweets/day = ~ 5,800 tweets/sec •  2k/tweet is ~12MB/sec (~1TB/day) •  $0.015/hour per shard, $0.028/million PUTS •  Amazon Kinesis cost is $0.765/hour •  Amazon Redshift cost is $0.850/hour (for a 2TB node) •  S3 cost is $1.28/hour (no compression) Total: $2.895/hour 서비스 비용 구조
  30. 30. Amazon.com – 웹로그 분석 •  Amazon.com 로그 분석 ü  1PB+ workload, 2TB/day, growing 67% YoY ü  Largest table: 400 TB •  1차적 해결 방법 ü  Legacy DW—query across 1 week/hr. ü  Hadoop—query across 1 month/hr. •  ?
  31. 31. •  데이터 처리 용량 ü Query 15 months of data (1PB) in 14 minutes ü Load 5B rows in 10 minutes ü 21B rows joined with 10B rows – 3 days (Hive) to 2 hours ü Load pipeline: 90 hours (Oracle) to 8 hours •  인스턴스 사양 ü 64 clusters/800 total nodes ü 13PB provisioned storage •  인력: 2 DBAs 데이터 처리 구조
  32. 32. 마치면서… Amazon Redshift: Spend time with your data, not your database
  33. 33. Amazon Redshift – 무료 사용(Free tier) •  DC1.Large 노드 평가판을 2개월간 무료로 사용 가능 ü 매월 750시간을 무료로 사용할 수 있음 ü 160GB의 압축된 SSD 스토리지로 필요에 따라 사용 가능 •  시간을 기준으로 계산되므로 탄력적 사용 가능 ü DC1 Large 노드 10대를 75시간 ü DC1 Large 노드 100대를 7.5시간
  34. 34. 참고 자료 •  Amazon Redshift •  http://aws.amazon.com/ko/redshift •  Amazon Redshift FAQ •  http://aws.amazon.com/ko/redshift/faqs •  Amazon Redshift 관련 자료 •  http://aws.amazon.com/articles/Amazon-Redshift •  블로그 •  http://aws.amazon.com/ko/blogs/korea/category/amazon- redshift
  35. 35. hkp://onoffmix.com/event/55782/
  36. 36. 여러분의 피드백을 기다립니다! •  이전 웨비나 발표 자료 및 동영상 •  https://aws.amazon.com/ko/blogs/korea/category/webinar/ •  한국어 공식 소셜 미디어 @AWSKorea AmazonWebServices.ko AWSKorea AWSKorea
  • HyojinHan

    Jun. 3, 2020
  • oniono

    Aug. 10, 2017
  • Channy

    Jul. 2, 2017
  • torreswoo

    Oct. 13, 2016
  • tomkim71

    Sep. 12, 2016
  • cryingfog

    Jun. 14, 2016
  • baradates

    Jun. 13, 2016
  • allcreep

    Jan. 18, 2016
  • beoreoji

    Jan. 15, 2016
  • SeungjinJeong

    Dec. 4, 2015
  • hyuntaeklee399

    Nov. 7, 2015
  • HeungsoonYang

    Oct. 30, 2015
  • jayuloy

    Oct. 30, 2015
  • gwangzingo

    Oct. 30, 2015
  • carin137

    Oct. 28, 2015
  • heeuklee1

    Oct. 28, 2015

AWS 월간 웨비나 10월 녹화 동영상은 아래 링크를 참고하십시오. https://aws.amazon.com/ko/blogs/korea/category/webinar/

Views

Total views

6,571

On Slideshare

0

From embeds

0

Number of embeds

86

Actions

Downloads

118

Shares

0

Comments

0

Likes

16

×