16. Paradigm Shift in Architecture
from Computing Center to Data Center
Infiniband Network
Cluster File System
High Density Server
Computing Center
Move Data
To Compute
Message Passing
減少資料搬運
Reduce
Data Transfer
強調能源效率
Energy-
Efficiency
易於橫向擴充
High-
Scalability
Gigabit Ethernet
Distributed File System
Commodity Hardware
Data Center
Move Compute
To Data
Share Noting
17. WHY
Agenda
17
為何需要把 R 跑在多台電腦上?
平行運算的起源、運算類型與限制
Hadoop 與 RHadoop 簡介
如何開始試用 RHadoop ?
WHEN
WHAT
HOW
18. 高資料通量處理平台 Hadoop
Hadoop is a framework for developer
to wrote and execute massive data
processing applications easily.
Hadoop includes two parts: HDFS and MapReduce.
Warehouse
for data source and
output results.
HDFS stores
unstructure data
and structure data
Processing
Map
One in
One out
Grouping
Reduce
Multiple in, One out
18
19. 使用 Hadoop 的優點
19
In-place Computing 在地運算
強調 Data Locality
根據資料所在的位置,分派運算工作到擁有資料的節點上(減少資料搬運)
平行讀取輸入,平行寫出結果
Fault Tolerance 高容錯性
避免單台機器錯誤 ( Single Point of Failure )而造成所有工作失敗
自動依資料量切割成數個子任務,並根據硬體資源量,依序執行
遇到機器故障時,會嘗試將工作分派給另一台執行
44. 若想要找過去舊版或未來新的版本,請至 AMI 分頁
搜尋關鍵字 “Etu Manager”
44
備註:目前 Etu Manager 相關的 AMI 多數
存 在 新 加 坡 Region , 只 有 一 個 在 日 本
Region。搜尋時,請先切換至新加坡。
45. WHY
Agenda
45
為何需要把 R 跑在多台電腦上?
平行運算的起源、運算類型與限制
Hadoop 與 RHadoop 簡介
如何開始試用 RHadoop ?
更多參考資料
WHEN
WHAT
HOW
REF
46. David Chiu 的 RHadoop 演講錄影
https://youtu.be/vmIHge8JSXg
46
47. 看看 R 專家的細部解釋
47
Taking R to the Limit (High Performance Computing in R)
http://www.slideshare.net/bytemining/taking-r-to-the-limit-high-
performance-computing-in-r-part-1-parallelization-la-r-users-group-727
http://www.slideshare.net/bytemining/r-hpc
48. CRAN Task View:
High-Performance and Parallel Computing with R
https://cran.r-project.org/web/views/HighPerformanceComputing.html
48