SlideShare une entreprise Scribd logo
1  sur  31
1
Enterprise Data Lake in Action
─ 搭建「活」的企業
Big Data 生態架構
Jazz Wang
Etu Principal Architect
June 16, 2015
2
• 王耀聰 Jazz Yao-Tsung Wang
• jazzwang@etusolution.com
• Etu 首席架構師 暨 Hadoop 傳教士
• Hadoop.TW 共同創辦人
• Hadoop The Definitive Guide 譯者
• Hadoop Operations 譯者
• 自由軟體愛好者 / 推廣者 / 開發者
• http://about.me/jazzwang - slideshare, github, etc.
Who am I
3
Agenda 大綱
• 企業巨量資料生態架構規劃心法
• 建立 Data Lake 的常見痛點
– 資料來源雜
– 資料表太寬
– 查詢速度慢
• 導入 Data Lake 的前置行動
– 目前關聯式資料庫的極限是幾個欄位?
– 未來如何驗證評測解決方案? 如何產生範例資料集 ?
4
權限管控
(二求安全)
品質管控
(再求更好)
數量管控
(先求可行)
導入藍圖
Roadmap
企業內部的人力資源盤點
People
處理巨量資料的常見流程
Process
處理巨量資料的技術盤點
Technology
一頁道盡企業導入巨量資料的規劃心法秘笈
Enterprise Data Lake in One Page
5
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
影片
自訂
Flume
HDFS
Map
Reduce
Hive
Mobile
App
照片
錄音
日誌檔
Log
網頁
HTML
交換檔
XML,
Json
syslog
FTP
Scribe
Fluentd HBase
RDBMS
File Input
/ Output
Format
FS
Shell
Web
HDFS
Thrift
Java
API
DBInput /
DBOutput
Format
Pig
Mahout
Oozie
EDW
RDBMS
資料處理 Processing 資料分析 Analysis
Sqoop
Engineer
(電機)
Network
(網通)
System
Admin
DBA
(資管)
Programmer
(資工)
Analyst
(統計)
變
行動
Decision
Maker
Impala
6
Etu Data Lake 以 Etu Manager 的 Hadoop
巨量資料平台為基礎,為企業建構一個
可彈性擴充和應用的單一資料樞紐
Etu Data Lake 能快速處理大量
資料集,無需建立廣泛的資料模
型。使用者從單一資料樞紐,能
便捷的搜尋和探索各式結構化和
非結構化資料,以及內部和外部
的資料來源。
巨量資料可透過批次、近即時或
即時處理匯入,不受限於原始結
構(schema) 設計,之後也可再
匯入企業其他資料倉儲系統,讓
企業的資料探索和運用增加高度
彈性,真正達到資料的隨需應用,
產生更敏捷的商業決策。
7
Agenda 大綱
• 企業巨量資料生態架構規劃心法
• 建立 Data Lake 的常見痛點
– 資料來源雜
– 資料表太寬
– 查詢速度慢
• 導入 Data Lake 的前置行動
– 目前關聯式資料庫的極限是幾個欄位?
– 未來如何驗證評測解決方案? 如何產生範例資料集 ?
8
生產機台 1
生產機台 2
生產機台 N
‧‧
‧
製造執行
MES
生產日誌
資料倉儲
批次
ETL
運算
批次
分析
運算
生產
統計
報表
製程監控
FDC
結構化資料
Structured Data
非結構化資料
Unstructured Data
視覺
檢測
生
資料源
半結構化資料
Semi-structured Data
語法
分析
程式
檢測
紀錄
事件
日誌
9
固定格式的 Log – 耗時等級: 中等
• 通常以純文字格式存在,通常有固定的分隔符號跟欄位定義
• 常見痛點:檔案太大,單機跑太久
• 目前解法:平行切割檔案,平行解析內容
• 常見來源:
– Windows Event Log (串流)
– 能夠提供標準 Syslog 格式的網路設備 (串流)
– XML 交換資料檔 (靜態)
– 網頁伺服器 Web Access Log / DNS Access Log
• 常用工具: Pig , Perl, Python
• 可批次化: 易
59.126.110.102 - - [01/Mar/2015:00:00:00 +0800] "GET
/action?;act=view;uid=;pid=0004880654;cat=J,J_007,J_007_009,J_007_009_016;erUid=f05a803a-b641-ebb0-
1fe1-383669dd375; HTTP/1.1" 302 160 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:23.0)
Gecko/20100101 Firefox/23.0"
61.228.63.117 - - [01/Mar/2015:00:00:00 +0800] "GET
/action?;act=view;uid=;pid=0014166460;cat=L,L_010,L_010_006,L_010_006_016;erUid=c3931c39-87c5-78d4-
c7bc-33ef22963491; HTTP/1.1" 302 160 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/29.0.1547.76 Safari/537.36"
流
網路協定
蒐
前處理
魔鬼細節
10
自由格式的 TXT – 耗時等級: 高等
• 通常以純文字格式存在,只有區塊定義
• 常見痛點:檔案太多,單機跑太久
• 目前解法:平行分配解析運算到多台
• 常見來源:
– 晶片封裝檢測程式產生的日誌檔
– 晶片模擬軟體產生的日誌檔
• 常用工具: Perl, Python + Hadoop Streaming
• 可批次化: 難,須注意例外處理
LOTID: XXXXXX PID: YYYYYY MID: ZZZZZZZ
DATE: 2015/05/20 TIME:15:47:06 OP: Jazz Wang PROGRAM: TEST-2
FUNC 1 FUNC 2
--------------------------- ---------------------------
PIN1,V1,V2,V3,V4 PIN4,V1,V2
PIN2,V1,V2,V3,V4,V5,V6,V7,V8,V9 PIN8,V3,V4,V5,V6,V7,V8
PIN3,V1,V2 PIN3,V3,V5,V8,V7,V6
--------------------------- PIN2,V1,V3,V5
PIN3,V1,V2,V3,V4
流
網路協定
蒐
前處理
魔鬼細節
11
生產機台 1
生產機台 2
生產機台 N
‧‧
‧
製造執行
MES
生產日誌
資料倉儲
批次
ETL
運算
批次
分析
運算
生產
統計
報表
製程監控
FDC
非結構化資料
Unstructured Data
視覺
檢測
半結構化資料
Semi-structured Data
語法
分析
程式
檢測
紀錄
事件
日誌
存
儲存方式
結構化資料
Structured Data
12
巨量資料時代,企業資料倉儲面臨的挑戰:寬
• 為了能夠做更多分析,需要建立更多連結資料 (Linked Data)
• 常見解法: JOIN 成一張更大的表
• 常見痛點: 欄位太寬,資料量太大,寫入太久,單機跑不動
叢集式資料倉儲又太貴
• 問題根源:
– 太寬 → 現有資料倉儲是以關聯式資料庫實作,本質上會建議拆成多張表
– 太大 → 關聯式資料庫必須靠 Sharding 來解決資料量的問題
– 太久 → 關聯式資料庫是為了查詢快,所以寫入時要花 CPU 建立索引
• 目前解法:
– 入庫即查 ( Schema on Read 解決太寬問題, 不建索引自然寫入快 )
– 平行寫入 ( 分散儲存解決資料量問題, 平行寫入解決寫入太久問題 )
• 常用工具: Hive (SQL-like), HBase (NoSQL)
• 未來挑戰: 遞增資料的入庫
13
寬跟慢是一體兩面:能有多寬? 能有多大? 會有多慢?
• 快或慢,很主觀。
• 回歸商業問題的需求,再來定義對速度的要求
– 批次 (年/月/週/日) – 近即時 (時/分) – 即時 (秒/毫秒)
• 資料集特性:
– 總欄位數 = 製程工序數 (column) or 零售商品數
– 總資料量 = 製程工序數 * 資料型態大小 * 生產數量(row)
• 請發揮您的想像力: (因為這些我也不知道答案,只能讓各位感受與想像一下)
– 如果今天有 3,000 個連線要同時將資料寫入關聯式資料庫
– SQL Client 同時連線數的上限 ?? 需要購買多少授權 ??
– 需要買幾核心的機器呢 ?? 多少記憶體 ?? 該用光纖接 SAN 嗎 ??
– 硬碟寫入速度該有多快 ?? 會不會發生競爭同一顆硬碟的問題 ??
避
免
落
入
效
能
規
格
戰
爭
產
生
商
業
價
值
才
是
重
點
14
商品1 商品2 商品3 商品4 商品5 商品6 商品7 商品8 商品9
客戶A 金額1 金額1
客戶B 金額2 金額1
客戶C 金額3 金額1
客戶D 金額2 金額4
客戶E 金額3 金額5 金額5
客戶F 金額4 金額6
客戶G 金額5 金額7
客戶H 金額6 金額7 金額8
客戶I 金額8 金額9
客戶J 金額9 金額1
客戶K 金額9 金額2
客戶L 金額3
示意:客戶特徵分析 (原始)
15
商品1 商品2 商品3 商品4 商品5 商品6 商品7 商品8 商品9
客戶A 金額1 金額1
客戶D 金額2 金額4
客戶B 金額2 金額1
客戶E 金額3 金額5 金額5
客戶H 金額6 金額7 金額8
客戶J 金額9 金額1
客戶C 金額3 金額1
客戶F 金額4 金額6
客戶G 金額5 金額7
客戶I 金額8 金額9
客戶K 金額9 金額2
客戶L 金額3
示意:客戶特徵分析 (分群)
16
生產機台 1
生產機台 2
生產機台 N
‧‧
‧
製造執行
MES
生產日誌
資料倉儲
批次
ETL
運算
批次
分析
運算
生產
統計
報表
製程監控
FDC
非結構化資料
Unstructured Data
視覺
檢測
半結構化資料
Semi-structured Data
語法
分析
程式
檢測
紀錄
事件
日誌
存
結構化資料
Structured Data
取
存取方式
算
資料處理
析
資料分析
17
常見痛點:查詢太慢
• 人與技術:
– 通常組織內部是由熟悉 SQL
與統計語言的資料庫管理員
與分析師在進行分析
– 為了解釋現象與原因,會利用
視覺化工具,繪製「管制圖」
方便解讀,產生洞察
• 常見痛點:
– 複雜 SQL 查詢執行太久
– 報表反應速度很慢
• 一般解法:
– 查詢太久 → (下一頁)
– 反應很慢 → 預處理
(先建好要查的資料表)
DBA
(資管)
Analyst
(統計)
select
i_item_id, s_state, avg(ss_quantity) agg1,
avg(ss_list_price) agg2, avg(ss_coupon_amt) agg3,
avg(ss_sales_price) agg4
from
store_sales, customer_demographics,
date_dim, store, item
Where
ss_sold_date_sk = d_date_sk
and ss_item_sk = i_item_sk
and ss_store_sk = s_store_sk
and ss_cdemo_sk = cd_demo_sk
and cd_gender = 'F'
and cd_marital_status = 'W'
and cd_education_status = 'Primary'
and d_year = 1998
and s_state in ('WI', 'CA', 'TX', 'FL', 'WA', 'TN')
and ss_sold_date_sk between 2450815 and 2451179
group by
i_item_id, s_state
order by
i_item_id, s_state
limit 100;
取
存取方式
算
資料處理
18
痛點:查詢太慢,那怎麼找止痛藥呢?
• 進階解法:
– 查詢平行執行 ( SQL Execution Plan 平行化分配到不同節點運算 )
– 用記憶體加速 ( In Memory Database )
– 資料結構最佳化 ( 善用 Partition, 改用 Parquet 格式, 線性壓縮 )
– 查詢語句最佳化 ( 觀察 SQL Execution Plan , 調整系統參數 )
• 常用工具:
– 互動式查詢:Impala ( In-Memory Database, SQL-92 Ad-Hot Query )
– 大範圍查表:HBase ( In-Memory Datastore , 只有 PUT/GET/SCAN)
– 大範圍分析:Hive ( Batch, 數分到數天, SQL-92 )
• 標準介面: ODBC / JDBC
• 潛在挑戰: SQL 語句的移轉 取
存取方式
算
資料處理
19
痛點:分析太慢,那止痛藥呢?
• 新興需求:多變量分析、機器學習
– 分析方法通常會使用到機器學習的工具,
如:降維(PCA/SVD)、分群(K-Mean)等
– 若考量人與技術:統計軟體 R 與 SQL 仍是主流
• 常見痛點:
– 單機記憶體不足、運算時間太久、讀取資料太慢
• 目前解法:
– 不足 → 平行運算 ( 拆解資料,將運算平行化分配到不同節點 )
– 太久 → 善用記憶體加速 ( In Memory Computing )
– 太慢 → 平行讀寫 ( 有迭代特性的演算法, 盡量減少中間產物 )
• 常用工具:
– 批次機器學習: Mahout ( Batch )
– 機器學習函式庫: Spark MLlib ( In-Memory Computing , RDD)
析
資料分析
20
Agenda 大綱
• 企業巨量資料生態架構規劃心法
• 建立 Data Lake 的常見痛點
– 資料來源雜
– 資料表太寬
– 查詢速度慢
• 導入 Data Lake 的前置行動
– 目前關聯式資料庫的極限是幾個欄位?
– 未來如何驗證評測解決方案? 如何產生範例資料集 ?
21
企業無法外包的部分:用、看、變
• 資訊服務業通常熟悉技術,也有具備對應的技術人才
然而很難取代企業內部的分析專才,
因為『欠缺領域知識(Domain Knowledge)』。
• 企業常常只有老師傅才有辦法『判讀』,
能否把『經驗』轉化成『系統』呢?
• 前期規劃 vs 付諸行動
用
視覺化
看
解讀
變
行動
22
目前關聯式資料庫的極限是幾個欄位?
• 確認了商務需求與產出價值後,下一歩是確認是否需要擁抱巨量資料
• 以下是目前常用的關聯式資料庫欄位寬度限制:
Database Maximum Columns Per table
Oracle 1,000
SQL Server
1,024
columns per nonwide table
30,000
columns per wide table
MySQL 4,096
Java Derby 1,012
[1] https://docs.oracle.com/cd/B28359_01/server.111/b28320/limits003.htm#i288032
[2] https://msdn.microsoft.com/en-us/ms143432.aspx
[3] https://dev.mysql.com/doc/refman/5.6/en/column-count-limit.html
[4] http://docs.oracle.com/javadb/10.8.3.0/ref/rrefdbmlimits.html
23
實測 MySQL – 建立單表 4,000 個整數欄位 <失敗>
• 資料型態、是否允許空值(NULL)、引擎種類均會影響欄位個數
[1] column_limit_4K.sql - https://gist.github.com/601d039c8b754c661220
[2] column_limit_5K.sql - https://gist.github.com/c9e71a2a051ccd4ac418
24
實測 Impala – 建立 5,000 個整數欄位 <成功>
[1] column_limit_4K.sql - https://gist.github.com/601d039c8b754c661220
[2] column_limit_5K.sql - https://gist.github.com/c9e71a2a051ccd4ac418
25
未來如何驗證評測解決方案
• 目前坊間有非常多解決方案,橘子、蘋果該怎麼比較呢?
• 建議使用國際標準:TPC-DS
http://www.tpc.org/tpcds/
26
TPC-DS 定義了評測用的資料表 Schema
[master:21000] > show databases;
Query: show databases
+------------------+
| name |
+------------------+
| _impala_builtins |
| default |
| tpcds |
| tpcds_parquet |
| tpcds_rcfile |
+------------------+
Fetched 5 row(s) in 0.03s
[master:21000] > use tpcds;
Query: use tpcds
[master:21000] > show tables;
Query: show tables
+------------------------+
| name |
+------------------------+
| customer |
| customer_address |
| customer_demographics |
| date_dim |
| household_demographics |
| inventory |
| item |
| promotion |
| store |
| store_sales |
| time_dim |
+------------------------+
Fetched 11 row(s) in 0.01s
27
TPC-DS 也定義了評測用的 SQL 查詢
-- start query 1 in stream 0 using template query27.tpl
select
i_item_id,
s_state,
-- grouping(s_state) g_state,
avg(ss_quantity) agg1,
avg(ss_list_price) agg2,
avg(ss_coupon_amt) agg3,
avg(ss_sales_price) agg4
from
store_sales,
customer_demographics,
date_dim,
store,
item
Where
ss_sold_date_sk = d_date_sk
and ss_item_sk = i_item_sk
and ss_store_sk = s_store_sk
and ss_cdemo_sk = cd_demo_sk
and cd_gender = 'F'
and cd_marital_status = 'W'
and cd_education_status = 'Primary'
and d_year = 1998
and s_state in
('WI', 'CA', 'TX', 'FL', 'WA', 'TN')
and ss_sold_date_sk between 2450815 and 2451179
-- partition key filter
group by
-- rollup (i_item_id, s_state)
i_item_id,
s_state
order by
i_item_id,
s_state
limit 100;
-- end query 1 in stream 0 using template query27.
28
TPC-DS 也有提供產生指定筆數資料的工具
取樣資料表:資料量 3.8G, 文字檔格式, 沒有壓縮, 3 千萬筆資料
[master:21000] > show table stats customer;
Query: show table stats customer
+-------+--------+--------+--------------+--------+-------------------+
| #Rows | #Files | Size | Bytes Cached | Format | Incremental stats |
+-------+--------+--------+--------------+--------+-------------------+
| -1 | 1 | 3.81GB | NOT CACHED | TEXT | false |
+-------+--------+--------+--------------+--------+-------------------+
Fetched 1 row(s) in 0.00s
[master:21000] > select count(*) from customer;
Query: select count(*) from customer
+----------+
| count(*) |
+----------+
| 30000000 |
+----------+
Fetched 1 row(s) in 0.77s
使用相同的資料集與
查詢語句,較容易進行
不同技術的評選
29
Take Away – 今天的分享總結
1. 規劃心法:People、Process、Technology、Roadmap
2. Etu Data Lake 協助企業補完導入企業巨量資料時
People 與 Technology 的缺口。
3. Etu 是企業導入巨量資料的最佳夥伴
– 顧問服務:導入前的資訊架構規劃、ROI 評估
– 教育訓練:補充內部人才的技術能量
– 解決方案:從產品到不同領域的解決方案,跟客戶一同成長
– 技術支援:到府安裝、設定、調校,專案開發等
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
變
行動
30
Q & A
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
影片
自訂
Flume
HDFS
Map
Reduce
Hive
Mobile
App
照片
錄音
日誌檔
Log
網頁
HTML
交換檔
XML,
Json
syslog
FTP
Scribe
Fluentd HBase
RDBMS
File Input
/ Output
Format
FS
Shell
Web
HDFS
Thrift
Java
API
DBInput /
DBOutput
Format
Pig
Mahout
Oozie
EDW
RDBMS
資料處理 Processing 資料分析 Analysis
Sqoop
Engineer
(電機)
Network
(網通)
System
Admin
DBA
(資管)
Programmer
(資工)
Analyst
(統計)
變
行動
Decision
Maker
Impala
31
Thank You

Contenu connexe

Tendances

Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Wei-Yu Chen
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoMin Zhou
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseJack Gao
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentAnna Yen
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIGJazz Yao-Tsung Wang
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaJack Gao
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for AgricultureJazz Yao-Tsung Wang
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 

Tendances (20)

Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
 
Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
 
Enterprise Data Lake in Action
Enterprise Data Lake in ActionEnterprise Data Lake in Action
Enterprise Data Lake in Action
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 

En vedette

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現Etu Solution
 
Implementing a Segmentation Strategy
Implementing a Segmentation StrategyImplementing a Segmentation Strategy
Implementing a Segmentation StrategySusan Abbott
 
The Women's March Conversation
The Women's March Conversation The Women's March Conversation
The Women's March Conversation Susan Abbott
 
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Etu Solution
 
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Etu Solution
 
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Etu Solution
 
Presentation Churn Management
Presentation Churn ManagementPresentation Churn Management
Presentation Churn Managementfarhanmajeed
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Etu Solution
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界Etu Solution
 
Qualitative Research in Segmentation
Qualitative Research in SegmentationQualitative Research in Segmentation
Qualitative Research in SegmentationSusan Abbott
 
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡Etu Solution
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰Etu Solution
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...Data Science Thailand
 
猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路Etu Solution
 
Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Etu Solution
 
Consumer Behavior and Segmentation
Consumer Behavior and SegmentationConsumer Behavior and Segmentation
Consumer Behavior and SegmentationSyed Islam
 
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Etu Solution
 

En vedette (20)

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現
 
Implementing a Segmentation Strategy
Implementing a Segmentation StrategyImplementing a Segmentation Strategy
Implementing a Segmentation Strategy
 
The Women's March Conversation
The Women's March Conversation The Women's March Conversation
The Women's March Conversation
 
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策
 
Data Science Thailand Meetup#11
Data Science Thailand Meetup#11Data Science Thailand Meetup#11
Data Science Thailand Meetup#11
 
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值
 
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
 
Presentation Churn Management
Presentation Churn ManagementPresentation Churn Management
Presentation Churn Management
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
 
Qualitative Research in Segmentation
Qualitative Research in SegmentationQualitative Research in Segmentation
Qualitative Research in Segmentation
 
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
 
猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路
 
Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台
 
Consumer Behavior and Segmentation
Consumer Behavior and SegmentationConsumer Behavior and Segmentation
Consumer Behavior and Segmentation
 
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
 
Churn Predictive Modelling
Churn Predictive ModellingChurn Predictive Modelling
Churn Predictive Modelling
 

Similaire à Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構

数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器Leyi (Kamus) Zhang
 
自下而上的数据仓库构建方法
自下而上的数据仓库构建方法自下而上的数据仓库构建方法
自下而上的数据仓库构建方法tongxiaojun
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
線上埋碼資料收集實作
線上埋碼資料收集實作線上埋碼資料收集實作
線上埋碼資料收集實作FEG
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)家雋 莊
 
服务器基准测试-叶金荣@CYOU-20121130
服务器基准测试-叶金荣@CYOU-20121130服务器基准测试-叶金荣@CYOU-20121130
服务器基准测试-叶金荣@CYOU-20121130Jinrong Ye
 
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝drewz lin
 
Selling sybase hds solution for banking
Selling sybase hds solution for bankingSelling sybase hds solution for banking
Selling sybase hds solution for bankingfocusbi
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon databoxu42
 
Mysql遇到的一些问题
Mysql遇到的一些问题Mysql遇到的一些问题
Mysql遇到的一些问题wang tongchao
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林Shaoning Pan
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲84zhu
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at TaobaoJoshua Zhu
 
COSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumCOSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumOmni-Alex Chen
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyzeanysql
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践Wensong Zhang
 
改善Programmer生活的sql技能
改善Programmer生活的sql技能改善Programmer生活的sql技能
改善Programmer生活的sql技能Rack Lin
 
Apache IoTDB 工业互联网时序数据库 meetup-2019.12
Apache IoTDB 工业互联网时序数据库 meetup-2019.12Apache IoTDB 工业互联网时序数据库 meetup-2019.12
Apache IoTDB 工业互联网时序数据库 meetup-2019.12jixuan1989
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptxFEG
 

Similaire à Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構 (20)

数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 
自下而上的数据仓库构建方法
自下而上的数据仓库构建方法自下而上的数据仓库构建方法
自下而上的数据仓库构建方法
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
線上埋碼資料收集實作
線上埋碼資料收集實作線上埋碼資料收集實作
線上埋碼資料收集實作
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
 
服务器基准测试-叶金荣@CYOU-20121130
服务器基准测试-叶金荣@CYOU-20121130服务器基准测试-叶金荣@CYOU-20121130
服务器基准测试-叶金荣@CYOU-20121130
 
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
 
Selling sybase hds solution for banking
Selling sybase hds solution for bankingSelling sybase hds solution for banking
Selling sybase hds solution for banking
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
 
Mysql遇到的一些问题
Mysql遇到的一些问题Mysql遇到的一些问题
Mysql遇到的一些问题
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
 
COSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumCOSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 Greenplum
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyze
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
改善Programmer生活的sql技能
改善Programmer生活的sql技能改善Programmer生活的sql技能
改善Programmer生活的sql技能
 
Apache IoTDB 工业互联网时序数据库 meetup-2019.12
Apache IoTDB 工业互联网时序数据库 meetup-2019.12Apache IoTDB 工业互联网时序数据库 meetup-2019.12
Apache IoTDB 工业互联网时序数据库 meetup-2019.12
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
 

Plus de Etu Solution

啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道Etu Solution
 
Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Etu Solution
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Etu Solution
 
Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Etu Solution
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
Opening: Big Data+
Opening: Big Data+Opening: Big Data+
Opening: Big Data+Etu Solution
 
數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術Etu Solution
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」Etu Solution
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景Etu Solution
 
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Etu Solution
 
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Etu Solution
 
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionBig Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionEtu Solution
 
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Etu Solution
 
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Etu Solution
 
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用Etu Solution
 
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data Management
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data ManagementBig Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data Management
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data ManagementEtu Solution
 

Plus de Etu Solution (17)

啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道
 
Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
 
Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
Opening: Big Data+
Opening: Big Data+Opening: Big Data+
Opening: Big Data+
 
數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
 
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
 
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionBig Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
 
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
 
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
 
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用
Big Data Taiwan 2014 Keynote 5: 新聞媒體的大數據應用
 
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data Management
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data ManagementBig Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data Management
Big Data Taiwan 2014 Keynote 2: Hadoop and the Future of Data Management
 

Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構

  • 1. 1 Enterprise Data Lake in Action ─ 搭建「活」的企業 Big Data 生態架構 Jazz Wang Etu Principal Architect June 16, 2015
  • 2. 2 • 王耀聰 Jazz Yao-Tsung Wang • jazzwang@etusolution.com • Etu 首席架構師 暨 Hadoop 傳教士 • Hadoop.TW 共同創辦人 • Hadoop The Definitive Guide 譯者 • Hadoop Operations 譯者 • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang - slideshare, github, etc. Who am I
  • 3. 3 Agenda 大綱 • 企業巨量資料生態架構規劃心法 • 建立 Data Lake 的常見痛點 – 資料來源雜 – 資料表太寬 – 查詢速度慢 • 導入 Data Lake 的前置行動 – 目前關聯式資料庫的極限是幾個欄位? – 未來如何驗證評測解決方案? 如何產生範例資料集 ?
  • 5. 5 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 影片 自訂 Flume HDFS Map Reduce Hive Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase RDBMS File Input / Output Format FS Shell Web HDFS Thrift Java API DBInput / DBOutput Format Pig Mahout Oozie EDW RDBMS 資料處理 Processing 資料分析 Analysis Sqoop Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) 變 行動 Decision Maker Impala
  • 6. 6 Etu Data Lake 以 Etu Manager 的 Hadoop 巨量資料平台為基礎,為企業建構一個 可彈性擴充和應用的單一資料樞紐 Etu Data Lake 能快速處理大量 資料集,無需建立廣泛的資料模 型。使用者從單一資料樞紐,能 便捷的搜尋和探索各式結構化和 非結構化資料,以及內部和外部 的資料來源。 巨量資料可透過批次、近即時或 即時處理匯入,不受限於原始結 構(schema) 設計,之後也可再 匯入企業其他資料倉儲系統,讓 企業的資料探索和運用增加高度 彈性,真正達到資料的隨需應用, 產生更敏捷的商業決策。
  • 7. 7 Agenda 大綱 • 企業巨量資料生態架構規劃心法 • 建立 Data Lake 的常見痛點 – 資料來源雜 – 資料表太寬 – 查詢速度慢 • 導入 Data Lake 的前置行動 – 目前關聯式資料庫的極限是幾個欄位? – 未來如何驗證評測解決方案? 如何產生範例資料集 ?
  • 8. 8 生產機台 1 生產機台 2 生產機台 N ‧‧ ‧ 製造執行 MES 生產日誌 資料倉儲 批次 ETL 運算 批次 分析 運算 生產 統計 報表 製程監控 FDC 結構化資料 Structured Data 非結構化資料 Unstructured Data 視覺 檢測 生 資料源 半結構化資料 Semi-structured Data 語法 分析 程式 檢測 紀錄 事件 日誌
  • 9. 9 固定格式的 Log – 耗時等級: 中等 • 通常以純文字格式存在,通常有固定的分隔符號跟欄位定義 • 常見痛點:檔案太大,單機跑太久 • 目前解法:平行切割檔案,平行解析內容 • 常見來源: – Windows Event Log (串流) – 能夠提供標準 Syslog 格式的網路設備 (串流) – XML 交換資料檔 (靜態) – 網頁伺服器 Web Access Log / DNS Access Log • 常用工具: Pig , Perl, Python • 可批次化: 易 59.126.110.102 - - [01/Mar/2015:00:00:00 +0800] "GET /action?;act=view;uid=;pid=0004880654;cat=J,J_007,J_007_009,J_007_009_016;erUid=f05a803a-b641-ebb0- 1fe1-383669dd375; HTTP/1.1" 302 160 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:23.0) Gecko/20100101 Firefox/23.0" 61.228.63.117 - - [01/Mar/2015:00:00:00 +0800] "GET /action?;act=view;uid=;pid=0014166460;cat=L,L_010,L_010_006,L_010_006_016;erUid=c3931c39-87c5-78d4- c7bc-33ef22963491; HTTP/1.1" 302 160 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36" 流 網路協定 蒐 前處理 魔鬼細節
  • 10. 10 自由格式的 TXT – 耗時等級: 高等 • 通常以純文字格式存在,只有區塊定義 • 常見痛點:檔案太多,單機跑太久 • 目前解法:平行分配解析運算到多台 • 常見來源: – 晶片封裝檢測程式產生的日誌檔 – 晶片模擬軟體產生的日誌檔 • 常用工具: Perl, Python + Hadoop Streaming • 可批次化: 難,須注意例外處理 LOTID: XXXXXX PID: YYYYYY MID: ZZZZZZZ DATE: 2015/05/20 TIME:15:47:06 OP: Jazz Wang PROGRAM: TEST-2 FUNC 1 FUNC 2 --------------------------- --------------------------- PIN1,V1,V2,V3,V4 PIN4,V1,V2 PIN2,V1,V2,V3,V4,V5,V6,V7,V8,V9 PIN8,V3,V4,V5,V6,V7,V8 PIN3,V1,V2 PIN3,V3,V5,V8,V7,V6 --------------------------- PIN2,V1,V3,V5 PIN3,V1,V2,V3,V4 流 網路協定 蒐 前處理 魔鬼細節
  • 11. 11 生產機台 1 生產機台 2 生產機台 N ‧‧ ‧ 製造執行 MES 生產日誌 資料倉儲 批次 ETL 運算 批次 分析 運算 生產 統計 報表 製程監控 FDC 非結構化資料 Unstructured Data 視覺 檢測 半結構化資料 Semi-structured Data 語法 分析 程式 檢測 紀錄 事件 日誌 存 儲存方式 結構化資料 Structured Data
  • 12. 12 巨量資料時代,企業資料倉儲面臨的挑戰:寬 • 為了能夠做更多分析,需要建立更多連結資料 (Linked Data) • 常見解法: JOIN 成一張更大的表 • 常見痛點: 欄位太寬,資料量太大,寫入太久,單機跑不動 叢集式資料倉儲又太貴 • 問題根源: – 太寬 → 現有資料倉儲是以關聯式資料庫實作,本質上會建議拆成多張表 – 太大 → 關聯式資料庫必須靠 Sharding 來解決資料量的問題 – 太久 → 關聯式資料庫是為了查詢快,所以寫入時要花 CPU 建立索引 • 目前解法: – 入庫即查 ( Schema on Read 解決太寬問題, 不建索引自然寫入快 ) – 平行寫入 ( 分散儲存解決資料量問題, 平行寫入解決寫入太久問題 ) • 常用工具: Hive (SQL-like), HBase (NoSQL) • 未來挑戰: 遞增資料的入庫
  • 13. 13 寬跟慢是一體兩面:能有多寬? 能有多大? 會有多慢? • 快或慢,很主觀。 • 回歸商業問題的需求,再來定義對速度的要求 – 批次 (年/月/週/日) – 近即時 (時/分) – 即時 (秒/毫秒) • 資料集特性: – 總欄位數 = 製程工序數 (column) or 零售商品數 – 總資料量 = 製程工序數 * 資料型態大小 * 生產數量(row) • 請發揮您的想像力: (因為這些我也不知道答案,只能讓各位感受與想像一下) – 如果今天有 3,000 個連線要同時將資料寫入關聯式資料庫 – SQL Client 同時連線數的上限 ?? 需要購買多少授權 ?? – 需要買幾核心的機器呢 ?? 多少記憶體 ?? 該用光纖接 SAN 嗎 ?? – 硬碟寫入速度該有多快 ?? 會不會發生競爭同一顆硬碟的問題 ?? 避 免 落 入 效 能 規 格 戰 爭 產 生 商 業 價 值 才 是 重 點
  • 14. 14 商品1 商品2 商品3 商品4 商品5 商品6 商品7 商品8 商品9 客戶A 金額1 金額1 客戶B 金額2 金額1 客戶C 金額3 金額1 客戶D 金額2 金額4 客戶E 金額3 金額5 金額5 客戶F 金額4 金額6 客戶G 金額5 金額7 客戶H 金額6 金額7 金額8 客戶I 金額8 金額9 客戶J 金額9 金額1 客戶K 金額9 金額2 客戶L 金額3 示意:客戶特徵分析 (原始)
  • 15. 15 商品1 商品2 商品3 商品4 商品5 商品6 商品7 商品8 商品9 客戶A 金額1 金額1 客戶D 金額2 金額4 客戶B 金額2 金額1 客戶E 金額3 金額5 金額5 客戶H 金額6 金額7 金額8 客戶J 金額9 金額1 客戶C 金額3 金額1 客戶F 金額4 金額6 客戶G 金額5 金額7 客戶I 金額8 金額9 客戶K 金額9 金額2 客戶L 金額3 示意:客戶特徵分析 (分群)
  • 16. 16 生產機台 1 生產機台 2 生產機台 N ‧‧ ‧ 製造執行 MES 生產日誌 資料倉儲 批次 ETL 運算 批次 分析 運算 生產 統計 報表 製程監控 FDC 非結構化資料 Unstructured Data 視覺 檢測 半結構化資料 Semi-structured Data 語法 分析 程式 檢測 紀錄 事件 日誌 存 結構化資料 Structured Data 取 存取方式 算 資料處理 析 資料分析
  • 17. 17 常見痛點:查詢太慢 • 人與技術: – 通常組織內部是由熟悉 SQL 與統計語言的資料庫管理員 與分析師在進行分析 – 為了解釋現象與原因,會利用 視覺化工具,繪製「管制圖」 方便解讀,產生洞察 • 常見痛點: – 複雜 SQL 查詢執行太久 – 報表反應速度很慢 • 一般解法: – 查詢太久 → (下一頁) – 反應很慢 → 預處理 (先建好要查的資料表) DBA (資管) Analyst (統計) select i_item_id, s_state, avg(ss_quantity) agg1, avg(ss_list_price) agg2, avg(ss_coupon_amt) agg3, avg(ss_sales_price) agg4 from store_sales, customer_demographics, date_dim, store, item Where ss_sold_date_sk = d_date_sk and ss_item_sk = i_item_sk and ss_store_sk = s_store_sk and ss_cdemo_sk = cd_demo_sk and cd_gender = 'F' and cd_marital_status = 'W' and cd_education_status = 'Primary' and d_year = 1998 and s_state in ('WI', 'CA', 'TX', 'FL', 'WA', 'TN') and ss_sold_date_sk between 2450815 and 2451179 group by i_item_id, s_state order by i_item_id, s_state limit 100; 取 存取方式 算 資料處理
  • 18. 18 痛點:查詢太慢,那怎麼找止痛藥呢? • 進階解法: – 查詢平行執行 ( SQL Execution Plan 平行化分配到不同節點運算 ) – 用記憶體加速 ( In Memory Database ) – 資料結構最佳化 ( 善用 Partition, 改用 Parquet 格式, 線性壓縮 ) – 查詢語句最佳化 ( 觀察 SQL Execution Plan , 調整系統參數 ) • 常用工具: – 互動式查詢:Impala ( In-Memory Database, SQL-92 Ad-Hot Query ) – 大範圍查表:HBase ( In-Memory Datastore , 只有 PUT/GET/SCAN) – 大範圍分析:Hive ( Batch, 數分到數天, SQL-92 ) • 標準介面: ODBC / JDBC • 潛在挑戰: SQL 語句的移轉 取 存取方式 算 資料處理
  • 19. 19 痛點:分析太慢,那止痛藥呢? • 新興需求:多變量分析、機器學習 – 分析方法通常會使用到機器學習的工具, 如:降維(PCA/SVD)、分群(K-Mean)等 – 若考量人與技術:統計軟體 R 與 SQL 仍是主流 • 常見痛點: – 單機記憶體不足、運算時間太久、讀取資料太慢 • 目前解法: – 不足 → 平行運算 ( 拆解資料,將運算平行化分配到不同節點 ) – 太久 → 善用記憶體加速 ( In Memory Computing ) – 太慢 → 平行讀寫 ( 有迭代特性的演算法, 盡量減少中間產物 ) • 常用工具: – 批次機器學習: Mahout ( Batch ) – 機器學習函式庫: Spark MLlib ( In-Memory Computing , RDD) 析 資料分析
  • 20. 20 Agenda 大綱 • 企業巨量資料生態架構規劃心法 • 建立 Data Lake 的常見痛點 – 資料來源雜 – 資料表太寬 – 查詢速度慢 • 導入 Data Lake 的前置行動 – 目前關聯式資料庫的極限是幾個欄位? – 未來如何驗證評測解決方案? 如何產生範例資料集 ?
  • 21. 21 企業無法外包的部分:用、看、變 • 資訊服務業通常熟悉技術,也有具備對應的技術人才 然而很難取代企業內部的分析專才, 因為『欠缺領域知識(Domain Knowledge)』。 • 企業常常只有老師傅才有辦法『判讀』, 能否把『經驗』轉化成『系統』呢? • 前期規劃 vs 付諸行動 用 視覺化 看 解讀 變 行動
  • 22. 22 目前關聯式資料庫的極限是幾個欄位? • 確認了商務需求與產出價值後,下一歩是確認是否需要擁抱巨量資料 • 以下是目前常用的關聯式資料庫欄位寬度限制: Database Maximum Columns Per table Oracle 1,000 SQL Server 1,024 columns per nonwide table 30,000 columns per wide table MySQL 4,096 Java Derby 1,012 [1] https://docs.oracle.com/cd/B28359_01/server.111/b28320/limits003.htm#i288032 [2] https://msdn.microsoft.com/en-us/ms143432.aspx [3] https://dev.mysql.com/doc/refman/5.6/en/column-count-limit.html [4] http://docs.oracle.com/javadb/10.8.3.0/ref/rrefdbmlimits.html
  • 23. 23 實測 MySQL – 建立單表 4,000 個整數欄位 <失敗> • 資料型態、是否允許空值(NULL)、引擎種類均會影響欄位個數 [1] column_limit_4K.sql - https://gist.github.com/601d039c8b754c661220 [2] column_limit_5K.sql - https://gist.github.com/c9e71a2a051ccd4ac418
  • 24. 24 實測 Impala – 建立 5,000 個整數欄位 <成功> [1] column_limit_4K.sql - https://gist.github.com/601d039c8b754c661220 [2] column_limit_5K.sql - https://gist.github.com/c9e71a2a051ccd4ac418
  • 26. 26 TPC-DS 定義了評測用的資料表 Schema [master:21000] > show databases; Query: show databases +------------------+ | name | +------------------+ | _impala_builtins | | default | | tpcds | | tpcds_parquet | | tpcds_rcfile | +------------------+ Fetched 5 row(s) in 0.03s [master:21000] > use tpcds; Query: use tpcds [master:21000] > show tables; Query: show tables +------------------------+ | name | +------------------------+ | customer | | customer_address | | customer_demographics | | date_dim | | household_demographics | | inventory | | item | | promotion | | store | | store_sales | | time_dim | +------------------------+ Fetched 11 row(s) in 0.01s
  • 27. 27 TPC-DS 也定義了評測用的 SQL 查詢 -- start query 1 in stream 0 using template query27.tpl select i_item_id, s_state, -- grouping(s_state) g_state, avg(ss_quantity) agg1, avg(ss_list_price) agg2, avg(ss_coupon_amt) agg3, avg(ss_sales_price) agg4 from store_sales, customer_demographics, date_dim, store, item Where ss_sold_date_sk = d_date_sk and ss_item_sk = i_item_sk and ss_store_sk = s_store_sk and ss_cdemo_sk = cd_demo_sk and cd_gender = 'F' and cd_marital_status = 'W' and cd_education_status = 'Primary' and d_year = 1998 and s_state in ('WI', 'CA', 'TX', 'FL', 'WA', 'TN') and ss_sold_date_sk between 2450815 and 2451179 -- partition key filter group by -- rollup (i_item_id, s_state) i_item_id, s_state order by i_item_id, s_state limit 100; -- end query 1 in stream 0 using template query27.
  • 28. 28 TPC-DS 也有提供產生指定筆數資料的工具 取樣資料表:資料量 3.8G, 文字檔格式, 沒有壓縮, 3 千萬筆資料 [master:21000] > show table stats customer; Query: show table stats customer +-------+--------+--------+--------------+--------+-------------------+ | #Rows | #Files | Size | Bytes Cached | Format | Incremental stats | +-------+--------+--------+--------------+--------+-------------------+ | -1 | 1 | 3.81GB | NOT CACHED | TEXT | false | +-------+--------+--------+--------------+--------+-------------------+ Fetched 1 row(s) in 0.00s [master:21000] > select count(*) from customer; Query: select count(*) from customer +----------+ | count(*) | +----------+ | 30000000 | +----------+ Fetched 1 row(s) in 0.77s 使用相同的資料集與 查詢語句,較容易進行 不同技術的評選
  • 29. 29 Take Away – 今天的分享總結 1. 規劃心法:People、Process、Technology、Roadmap 2. Etu Data Lake 協助企業補完導入企業巨量資料時 People 與 Technology 的缺口。 3. Etu 是企業導入巨量資料的最佳夥伴 – 顧問服務:導入前的資訊架構規劃、ROI 評估 – 教育訓練:補充內部人才的技術能量 – 解決方案:從產品到不同領域的解決方案,跟客戶一同成長 – 技術支援:到府安裝、設定、調校,專案開發等 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 變 行動
  • 30. 30 Q & A 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 影片 自訂 Flume HDFS Map Reduce Hive Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase RDBMS File Input / Output Format FS Shell Web HDFS Thrift Java API DBInput / DBOutput Format Pig Mahout Oozie EDW RDBMS 資料處理 Processing 資料分析 Analysis Sqoop Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) 變 行動 Decision Maker Impala