Track 6 Session 2_ 搭建現代化的資料數據湖.pptx

© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
搭建現代化的資料數據湖
Young Yang
T r a c k 6 | S e s s i o n 2
ML Specialist SA
Amazon Web Services

AWS offers a modern data platform
BI +
A NA LYT I C S
OLTP ERP CRM
DW SILO 1
BUSINESS
INTELLIGENCE
DEVICES WEB
LOGS
MOBILE
APPS
DW SILO 2
LOB
APPS
BUSINESS
INTELLIGENCE
to
MA C H I NE
LE A R NI NG
DA T A
WA R E H O US I NG
Data lakes
OPEN FORMATS
CENTRAL
CATALOG
(CSV, ORC, Parquet, Avro)
Data silos
Old guard data patterns Modern data architecture

After this session, what you will take away?

Speed (Real-time)
Ingest ServingSource Scale (Batch)
Data analysts
Data scientists
Business users
Engagement
platforms
Automation /
events
Internet
AWS Direct Connect
VPN
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
ML &
Analytics
SageMaker AI ServicesElasticsearch AthenaKinesis
Data Firehose
Event Capture Event Handler
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Fargate
EKS
ECS
API Gateway
Lambda
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter
Kinesis
Data Analytics LambdaCloudWatch ElasticsearchEMR -Spark
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Athena
Federated Query
New Preview

Speed (Real-time)

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
SageMaker AI ServicesElasticsearch Athena

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Firehose

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Kinesis
Data Firehose

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Kinesis
Data Firehose
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Kinesis
Data Firehose
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter
Athena
Federated Query
New Preview

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Kinesis
Data Firehose
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter
Athena
Federated Query
New Preview
Fargate
EKS
ECS
API Gateway
Lambda

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Connected
devices
Social media
GPS Location
Mobile
Internet
AWS Direct Connect
VPN
API Gateway
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
Kinesis
Kafka (MSK)
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
Lake Formation
s3
Digested
EMR
Glue
EMR
Glue
ML &
Analytics
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Kinesis
Data Firehose
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter
Athena
Federated Query
New Preview
Fargate
EKS
ECS
API Gateway
Lambda
Data analysts
Data scientists
Business users
Engagement
platforms
Automation /
events

Amazon S3 is the foundation of any data lake
Multiple data
input sources
Supports many
unique users and
teams
Storage scales on
demand
Analyzed by
many applications

Amazon S3 as the foundation for data lakes
Durable, available, exabyte-scalable
Secure, compliant, auditable
High performance
Low-cost storage and analytics
Broad network integration
Amazon S3
AWS Lake Formation
& AWS Glue
AWS
Snowball
Amazon Kinesis
Data Streams
AWS
Snowmobile
Amazon
Kinesis
Data Firehose
Amazon
Redshift
Amazon
EMR
Amazon
Athena
Amazon Kinesis
Amazon
Elasticsearch
Service
Amazon
SageMaker
Amazon
Comprehend
Amazon
Rekognition

AWS Lake Formation
Build a secure data lake in days
Simplify security
management
Centrally define security, governance,
and auditing policies
Enforce policies consistently
across multiple services
Integrates with IAM and KMS
Provide self-service
access to data
Build a data catalog that
describes your data
Enable analysts and data scientists
to easily find relevant data
Analyze with multiple analytics
services without moving data
Build data lakes
quickly
Move, store, catalog,
and clean your data faster
Transform to open formats like
Parquet and ORC
ML-based deduplication
and record matching

Single Source of Truth for Raw Data
Use Least Transformations
Use Lifecycle policies to S3-IA or GlacierAmazon S3
Tier 1 Data Lake: Raw or Ingestion

Non-structed to structed Raw Data
Annotation
Data cleansing and transform
Uniform the data of encoding, format, types
(suchastimeformat,stringencoding,andetc)
Amazon S3
Tier 2 Data Lake: Curated

Use columnar formats – Parquet/ORC
Organized into Partitions
Coalescing to Larger Partitions over time
Optimized for Analytics
Amazon S3
Tier 3 Data Lake: Analytics

Domain Level DataMart
Organized by use cases
Optimized for Specialized Analysis
Amazon S3
Tier 4 Data Lake: Digested
(Serving Stage)

Amazon Redshift
Amazon Redshift: What’s Under the Hood?
Amazon Redshift
Seamless Data Lake Integration
Amazon Redshift is a fully managed data
warehouse service that extends
seamlessly to the data lake. It’s highly
performant, scalable, resilient, easy-to-
use, cost-effective, & secure.

Our portfolio
Broadanddeepportfolio,purpose-builtforbuilders
S3/Glacier
Glue
ETL & Data Catalog
Lake Formation
Data Lakes
Database Migration Service | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka
Data Movement
Data Lake
Business Intelligence & Machine Learning
Data Exchange
Data exchange
NEW
QuickSight
Visualizations
SageMaker
ML
Comprehend
NLP
Transcribe
Speech-to-text
Textract
Extract text
Personalize
Recommendation
Forecast
Forecasts
Translate
Translation
CodeGuru
Code reviews
Kendra
Enterprise search
NEW NEW
Analytics Databases
Managed
Blockchain
Blockchain
Templates
Blockchain
Redshift
Data warehousing
EMR
Hadoop + Spark
Kinesis Data Analytics
Real time
Elasticsearch Service
Operational Analytics
Athena
Interactive analytics
NEW
NEW
NEWAQUA EMR on Outposts
UltraWarm
RDS
MySQL, PostgreSQL,
MariaDB, Oracle, SQL Server,
RDS on VMware
Aurora
MySQL, PostgreSQL
DynamoDB
Key value, Document
ElastiCache
Redis, Memcached
Neptune
Graph
Timestream
Time Series
QLDB
Ledger Database
Managed Apache
Cassandra Service
Wide column
NEW
DocumentDB
Document
NEW
NEW
RDS Proxy
RDS on Outposts

Broad database and analytics services portfolio
Relational
databases
Non-relational
databases
Data
warehouses
Hadoop
and Spark
Amazon
Redshift
Amazon
EMR
Operational
analytics
Amazon ES
Amazon
Aurora
Amazon
DynamoDB
Business
intelligence
Amazon
QuickSight
Amazon
RDS
Amazon
DocumentDB
Amazon
ElastiCache
Real-time
analytics
Amazon MSK
PostgreSQL
Logstash
Elasticsearch
Kibana

Speed (Real-time)
Transactions
Web logs
cookies
ERP
Internet
Data analysts
Data scientists
Business users
Engagement
platforms
Connected
devices
Social media
Automation /
events
GPS Location
AWS Direct Connect
API Gateway
VPN
Mobile
SFTP
AWS DMS
Storage Gateway
AppSync
Amazon MQ
s3
Raw
s3
Curated
s3
Analytics
EMR
Glue
Data lake
1011010
0011110010110
0000101
ML &
Analytics
Lake Formation
SageMaker AI Services
s3
Digested
EMR
Glue
EMR
Glue
Kinesis
Kafka (MSK)
Elasticsearch AthenaKinesis
Data Firehose
Kinesis
Data Analytics
Lambda
Event Scoring
SageMaker
Event Action
AI Services
Step
Functions
Athena
Federated Query
New Preview
Fargate
EKS
ECS
API Gateway
Lambda
Data Warehouse
Database
Elasticsearch
DynamoDB
Aurora
Amazon Redshift
ElastiCache
QuickSight
BI Reporting
Analytics
kibana
Near-Zero Latency
DocumentDB
Jupyter
Kinesis
Stream
Flink on Kinesis
Data Analytics
Stream Analysis

Complemented by AWS Partner Network (APN)
Collection & preparation Governance Visualization

Data and analytics strategic & competency partners

Learn storage with AWS Training and Certification
45+ free digital courses cover topics related to cloud
storage, including:
Resources created by the experts at AWS to help you build cloud storage skills
Classroom offerings, such as Architecting on AWS, feature
AWS expert instructors and hands-on activities
• Amazon S3
• AWS Storage Gateway
• Amazon S3 Glacier
• Amazon Elastic File System
(Amazon EFS)
• Amazon Elastic Block Store
(Amazon EBS)
Visit the storage learning path at https://aws.training/storage

Track 6 Session 2_ 搭建現代化的資料數據湖.pptx

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Track 6 Session 2_ 搭建現代化的資料數據湖.pptx

Similaire à Track 6 Session 2_ 搭建現代化的資料數據湖.pptx (20)

Plus de Amazon Web Services

Plus de Amazon Web Services (20)

Track 6 Session 2_ 搭建現代化的資料數據湖.pptx

Notes de l'éditeur