SlideShare une entreprise Scribd logo
1  sur  8
ホワイトペーパー 
SASより高速なRevolution R Enterprise 
(レボリューションRエンタープライズ) 
著者: Thomas W. Dinsmore、Derek McCrae Norton 
日本語訳:KSKアナリティクス 
ベンチマークテスト結果 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
1
分析業務は常に分析速度の問題がつきまといます。しかし、実際の業務では 
どの程度の速度が期待されているのでしょうか?この問題について、レボリュー 
ション・アナリティクス社の顧客である米国大手マーケティング・サービス・プロバ 
イダーの分析ディレクターに聞いてみました。彼らのチームは現在、1000以上の 
予測モデルの開発しています。彼らのお客さまからは、30分以内で予測モデル 
を構築することを期待されていると言います。 
前回、我々のチームではレボリューション・アナリティクス社のRREとSASを比較 
するベンチマークテストを行い、テスト結果を発表しました。そのテストでは、RRE 
の独自技術であるPEMA(Parallel External Memory Algorithms)が最先端分析に 
おいて、より優れたパフォーマンスを発揮していることを紹介しました。しかし、一 
部の読者から、テストが単一のタスクに限定されていたことと、SASおよびRREが 
同じハードウェア上で実行されていなかったこと、さらにはSASの実行環境は、 
RREに適したクラスタ上の計算環境であり不利に実行されているのではないか、 
という指摘を頂きました。 
我々はその指摘を真摯に受けとめ、今回のテストでは、両方のソフトを同じ計 
算環境で使用し、新しい内容でテストを行いました。公正な比較を行うため、 
我々はSASプログラムの検証を行う経験豊富なコンサルタントを雇い、Grid 
Computingを利用させ、テスト環境を構築しました。また、我々は今回のテストで 
SAS9.4を用いるとともに、分析の共通課題にあたるテスト項目を定義しています。 
今回のテスト結果: 
・RREのScaleRはSASよりも42倍の早さで分析タスクを実行した 
・RREのScaleRはすべてのタスクでSASを上回った 
・RREのScaleRはSASよりも10倍〜300倍のパフォーマンス改善が得られる 
・RREのScaleRはより大きなデータを使う場合にパフォーマンスの改善幅がより大きくなる 
・新しいSASのHP PROCsは僅かにSASのパフォーマンスが改善できただけだった 
本ホワイトペーパーでは、我々がテストを行ったアプローチ手順、詳細な結果 
を報告いたします。 
アプローチ手順 
レボリューション・アナリティクス社は、SASの専門家(コンサルティングファーム 
でSAS Grid Managerの扱いのある経験豊富なコンサルタント)にテストを担当さ 
せました。彼は、CentOSがインストールされている4,5コアのマシンを用意し、そ 
れらすべてがネットワーク上でギガビット・イーサネット接続され、独立したNFS 
サーバーを実行できるクラスター分析環境を設定しました。 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
2
SASのテスト担当者は、SAS9.4で次の主要コンポーネントを利用しました。 
・Base SAS 
・SAS/STAT 
・SAS Grid Manager 
我々はSAS Management ConsoleとSAS Enterprise GuideがGridのクライアントと 
して動作するデスクトップ環境を使用しました。レボリューション・アナリティクス社 
のRREテストを行うために、まず我々はIBM Platform LSFとIBM Platform MPIのリ 
リース9を導入し、その後RREの7をを各ノードにインストールしています。 
SAS Grid ManagerはRREで使用されるIBMの標準バージョンとOEMバージョンで 
あるIBM Platform LSFを同時に実行することが出来ないため、我々はテストを順 
に実行し、各テスト毎に環境を再構成しました。 
※IBM Platform LSFは、要求の厳しい分散型HPC環境のための強力なワークロード管理プラットフォーム 
※IBM Platform MPIは、HPC実装アプリケーションの並列処理を実現するメッセージ・パッシング・インター 
フェース(MPI) 
異なる環境での繰り返しテストを簡単にするため、我々はランダムプロセスを 
通じて生成されたデータを用いました。データの生成時間はペンチマークには含 
まれていません。尚、実際のテストを実行する前に、我々はランダム化された 
データをそれぞれのソフトウェア製品のデフォルトのデータ形式(SASはSAS data 
set、RREはXDFファイル)に取り込んでいます。 
RREは、これまでにも数億行のような大規模データのベンチマークが行われて 
きました。しかし、調査した結果、大手企業で分析されている代表的なデータセッ 
トですら、それよりもはるかに小さい傾向があると判明しました。そこで、我々は 
一般的な多くのアナリストが分析していると思われるサイズ、列数を591列、10万 
行〜500万行を上限に、列数を多く、行数を少なくした「広い」データに対してテス 
トを実行することにしました。さらに5000万行を上限とした21列の「狭い」データに 
対してもテストを実行しています。 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
3
テストでは、分析業務でよく使われる10のタスクに加え、スコアリングのタスク 
を加えました。表1はSAS9.4とRRE7のタスクの内容と、それぞれのソフトで使った 
関数を示しています。 
表1:ベンチマークタスク 
1つの数値変数に関する記述統計 
(件数、最小値、最大値、平均値、標準偏差) 
1つの数値変数の中央値と十分位数 
1つの文字変数の度数分布 
20の数値変数で1つの数値を目的変数とす 
る線形回帰 
20の混合した変数で1つの数値を目的変数 
とする線形回帰 
100の数値変数でステップワイズ法で行 
う線形回帰 
20の数値変数で1つの判別(2値)を目的変数 
とするロジスティック回帰 
20の数値変数,ガンマ分布,リンク関数,数 
値を目的変数とする一般化線形モデル 
20変数を持つk-meanクラスタリング 
100変数を持つk-meanクラスタリング 
最初の線形回帰モデルを利用し、10倍の 
レコード数のスコアリング 
これらは、同時実行することなくすべてのベンチマークテストを順番に実行して 
います。実際に使用したSAS9.4およびRRE7のプログラムは 
GitHub(https://github.com/RevolutionAnalytics/Benchmark )で公開しているため、 
誰でも自由に利用することができます。ご覧になっている皆さんの環境で、これ 
らのテストプログラムをお試し頂くこと、また分析速度についても、我々が公開し 
ている内容と比較して頂けると幸いです。 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
4
結果 
表2は、500万レコードの大規模データの結果を示しています。ベンチマーク環 
境において、SAS9.4を使ってすべてのプログラムを実行した時間の合計は5,192 
秒(約1.5時間)でした。同じ内容のRRE7は123.6秒(約2分)です。表1で示した10 
のベンチマークタスクの結果を示しています。 
表2:ベンチマーク結果 
データ件数:500万件 
1つの数値変数に関する記述統計 
(件数、最小値、最大値、平均値、標準偏差) 
1つの数値変数の中央値と十分位数 
1つの文字変数の度数分布 
20の数値変数で1つの数値を目的変数とする線形回帰 
20の混合した変数で1つの数値を目的変数とする 
線形回帰 
100の数値変数でステップワイズ法で行う線形回帰 
20の数値変数で1つの判別(2値)を目的変数とする 
ロジスティック回帰 
20の数値変数,ガンマ分布,リンク関数,数値を目的変数と 
する一般化線形モデル 
20変数を持つk-meanクラスタリング 
100変数を持つk-meanクラスタリング 
すべての分析タスクの合計 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
5
表3が示すように、レコード数が増えるほど、RREとSASのパフォーマンス差はよ 
り大きくなっていることがわかります。 
表3:データ件数ごとの結果 
スコアリングテストでは、最初に線形回帰を実行し、10倍の行を持つデータセッ 
トに対して予測値を算出しています。表4は、このテストの結果を示しています。 
表4:スコアリングテスト結果 
SAS9.4では、SASはHigh-Performance AnalyticsのHP PROCsという手続きオブ 
ジェクトがバンドルされています。我々はテストの1つとしてPROC REGをPROC 
HPREGに置き換えて実行しましたが、本ベンチマーク環境において、High- 
Performance Analyticsの手続きオブジェクトにおけるパフォーマンス向上は殆ど 
見られませんでした。 
表5:HPREGの結果 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
6
考察 
本テスト環境における分析速度で比較すると、SAS9.4でプログラムを実行する 
のにかかる時間を使えば、RRE7のユーザーは同じ作業の実行を42回繰り返す 
ことが可能です。 
このテスト結果から実用面を考察すると、まずモデル作成に必要な学習サイク 
ルを大幅に減らすことができます。さらにより多くのモデルを構築し、より良いモ 
デルが得られ、それらはまた、より多くの顧客にサービスを提供することができ、 
結果的により多くの利益を生むことにつながるのです。 
RRE7はSAS9.4よりもなぜこんなに高速に実行できるのでしょうか?レボリュー 
ション・アナリティクス社は、クラスタ化された環境において、複数のマシン上で 
の実行を効率よく配分するためのPEMA(Parallel External Memory Algorithms)と 
呼ばれる独自の技術を使用しているからです。RRE7において、単一マシン上の 
メモリで扱える量よりも大きいデータセットを扱う場合、利用可能なコンピューティ 
ングリソースのすべてを介してデータをストリーミングします。 
一方、SAS/STATソフトウェアでは、同様にメモリで扱える量より大きいデータセッ 
トを扱う場合、メモリとディスクとのスワッピングが起こり、インメモリでの実行より 
もはるかに遅くなってしまいます。 
これらのSASプログラムはグリッド構成で実行した場合、グリッド操作が有効な 
場合においても、殆どのSASの手続きオブジェクトが利用可能なコンピュータのリ 
ソースを利用することはありませんでした。SASによると、SAS/STATの手続きオブ 
ジェクトの中で4つのみが、複数のコンピューティングのスレッドを利用することが 
できるとされています。 
我々の行ったHPREG PROCのテストでも示しているように、顧客がHigh- 
Performance Analytics Serverのライセンスを購入していない限り、HP PROCsのパ 
フォーマンスは向上しません。 
レボリューション・アナリティクス社ではパフォーマンスと効率性について本格 
的に取り組み、継続的に分析エンジンの効率と速度を向上させています。 
我々はお客さまや競合他社を含めた皆様に対して、我々が行ったベンチマー 
クテストを実行し、その実行結果をさらに多くの皆様に共有して頂けることを願っ 
てやみません。 
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
7
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 
8

Contenu connexe

Tendances

【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編KSK Analytics Inc.
 
ビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちToru Takahashi
 
The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)Shoji Shirotori
 
Elasticsaerch Runtime Field
Elasticsaerch Runtime FieldElasticsaerch Runtime Field
Elasticsaerch Runtime FieldNomura Yuta
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤Google Cloud Platform - Japan
 
OSSを活用したダッシュボード の紹介
OSSを活用したダッシュボード の紹介OSSを活用したダッシュボード の紹介
OSSを活用したダッシュボード の紹介BigData Sios
 
GCP本格採用で遭遇した課題とマイクロサービス的解決
GCP本格採用で遭遇した課題とマイクロサービス的解決GCP本格採用で遭遇した課題とマイクロサービス的解決
GCP本格採用で遭遇した課題とマイクロサービス的解決Google Cloud Platform - Japan
 
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...Insight Technology, Inc.
 
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...Google Cloud Platform - Japan
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送Google Cloud Platform - Japan
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)Yosuke Katsuki
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews, Inc.
 
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送Google Cloud Platform - Japan
 
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformBuilding andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformShotaro Suzuki
 
Apm enables python app observability
Apm enables python app observabilityApm enables python app observability
Apm enables python app observabilityShotaro Suzuki
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群Google Cloud Platform - Japan
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeucKazuhiro Miyajima
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送Google Cloud Platform - Japan
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)Naoki (Neo) SATO
 
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送Google Cloud Platform - Japan
 

Tendances (20)

【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
 
ビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたち
 
The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)
 
Elasticsaerch Runtime Field
Elasticsaerch Runtime FieldElasticsaerch Runtime Field
Elasticsaerch Runtime Field
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
OSSを活用したダッシュボード の紹介
OSSを活用したダッシュボード の紹介OSSを活用したダッシュボード の紹介
OSSを活用したダッシュボード の紹介
 
GCP本格採用で遭遇した課題とマイクロサービス的解決
GCP本格採用で遭遇した課題とマイクロサービス的解決GCP本格採用で遭遇した課題とマイクロサービス的解決
GCP本格採用で遭遇した課題とマイクロサービス的解決
 
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
 
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 20...
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
 
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
 
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraformBuilding andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraform
 
Apm enables python app observability
Apm enables python app observabilityApm enables python app observability
Apm enables python app observability
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
 
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
[Cloud OnAir] 良いデータのために良い可視化ツールを使いましょう! 2019年11月7日 放送
 

En vedette

Rで解く最適化問題 線型計画問題編
Rで解く最適化問題   線型計画問題編 Rで解く最適化問題   線型計画問題編
Rで解く最適化問題 線型計画問題編 Hidekazu Tanaka
 
Rデバッグあれこれ
RデバッグあれこれRデバッグあれこれ
RデバッグあれこれTakeshi Arabiki
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
Spark at Scale
Spark at ScaleSpark at Scale
Spark at ScaleYuta Imai
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

En vedette (6)

Rの高速化
Rの高速化Rの高速化
Rの高速化
 
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題   線型計画問題編 Rで解く最適化問題   線型計画問題編
Rで解く最適化問題 線型計画問題編
 
Rデバッグあれこれ
RデバッグあれこれRデバッグあれこれ
Rデバッグあれこれ
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
Spark at Scale
Spark at ScaleSpark at Scale
Spark at Scale
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

Similaire à SASより高速なRevolution R Enterprise

Introduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmIntroduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmHiroki Iida
 
Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Kosuke Ito
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
共有、自動化、計測 - DevOps ツール考察 -
共有、自動化、計測 - DevOps ツール考察 -共有、自動化、計測 - DevOps ツール考察 -
共有、自動化、計測 - DevOps ツール考察 -Chie Sasaki
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
 
ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回Naoyuki Yamada
 
Dat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したDat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したTech Summit 2016
 
xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日Takaaki Umada
 
Klocwork 2017.0アップデート
Klocwork 2017.0アップデートKlocwork 2017.0アップデート
Klocwork 2017.0アップデートMasaru Horioka
 
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Mitch Okamoto
 
AppExchangeパートナー&デベロッパー第1部:20071205版
AppExchangeパートナー&デベロッパー第1部:20071205版AppExchangeパートナー&デベロッパー第1部:20071205版
AppExchangeパートナー&デベロッパー第1部:20071205版Junichiro Tasaki
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップDaiyu Hatakeyama
 
SpotBugs(FindBugs)による 大規模ERPのコード品質改善
SpotBugs(FindBugs)による 大規模ERPのコード品質改善SpotBugs(FindBugs)による 大規模ERPのコード品質改善
SpotBugs(FindBugs)による 大規模ERPのコード品質改善Works Applications
 
【KSKアナリティクス】 RapidMiner 紹介 (short)
【KSKアナリティクス】 RapidMiner 紹介 (short)【KSKアナリティクス】 RapidMiner 紹介 (short)
【KSKアナリティクス】 RapidMiner 紹介 (short)KSK Analytics Inc.
 
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発Takashi Watanabe
 
ERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかRyuji Enoki
 

Similaire à SASより高速なRevolution R Enterprise (20)

Introduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmIntroduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithm
 
SFL07_K2_Keynote
SFL07_K2_KeynoteSFL07_K2_Keynote
SFL07_K2_Keynote
 
Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
共有、自動化、計測 - DevOps ツール考察 -
共有、自動化、計測 - DevOps ツール考察 -共有、自動化、計測 - DevOps ツール考察 -
共有、自動化、計測 - DevOps ツール考察 -
 
DLLAB Ignite Update Data Platform
DLLAB  Ignite Update Data PlatformDLLAB  Ignite Update Data Platform
DLLAB Ignite Update Data Platform
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
 
ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回
 
Oracle Advanced Analytics 概要
Oracle Advanced Analytics 概要Oracle Advanced Analytics 概要
Oracle Advanced Analytics 概要
 
Dat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したDat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用した
 
xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日
 
GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)
 
Klocwork 2017.0アップデート
Klocwork 2017.0アップデートKlocwork 2017.0アップデート
Klocwork 2017.0アップデート
 
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ - Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
Salesforce Einstein - SaaS企業のAI戦略とテクノロジ -
 
AppExchangeパートナー&デベロッパー第1部:20071205版
AppExchangeパートナー&デベロッパー第1部:20071205版AppExchangeパートナー&デベロッパー第1部:20071205版
AppExchangeパートナー&デベロッパー第1部:20071205版
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
SpotBugs(FindBugs)による 大規模ERPのコード品質改善
SpotBugs(FindBugs)による 大規模ERPのコード品質改善SpotBugs(FindBugs)による 大規模ERPのコード品質改善
SpotBugs(FindBugs)による 大規模ERPのコード品質改善
 
【KSKアナリティクス】 RapidMiner 紹介 (short)
【KSKアナリティクス】 RapidMiner 紹介 (short)【KSKアナリティクス】 RapidMiner 紹介 (short)
【KSKアナリティクス】 RapidMiner 紹介 (short)
 
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
 
ERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすか
 

Plus de Satoshi Kitajima

分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014Satoshi Kitajima
 
データサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリデータサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリSatoshi Kitajima
 
RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】Satoshi Kitajima
 
RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】Satoshi Kitajima
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】Satoshi Kitajima
 
RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】Satoshi Kitajima
 

Plus de Satoshi Kitajima (6)

分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
 
データサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリデータサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリ
 
RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】
 
RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】
 
RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】
 

SASより高速なRevolution R Enterprise

  • 1. ホワイトペーパー SASより高速なRevolution R Enterprise (レボリューションRエンタープライズ) 著者: Thomas W. Dinsmore、Derek McCrae Norton 日本語訳:KSKアナリティクス ベンチマークテスト結果 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 1
  • 2. 分析業務は常に分析速度の問題がつきまといます。しかし、実際の業務では どの程度の速度が期待されているのでしょうか?この問題について、レボリュー ション・アナリティクス社の顧客である米国大手マーケティング・サービス・プロバ イダーの分析ディレクターに聞いてみました。彼らのチームは現在、1000以上の 予測モデルの開発しています。彼らのお客さまからは、30分以内で予測モデル を構築することを期待されていると言います。 前回、我々のチームではレボリューション・アナリティクス社のRREとSASを比較 するベンチマークテストを行い、テスト結果を発表しました。そのテストでは、RRE の独自技術であるPEMA(Parallel External Memory Algorithms)が最先端分析に おいて、より優れたパフォーマンスを発揮していることを紹介しました。しかし、一 部の読者から、テストが単一のタスクに限定されていたことと、SASおよびRREが 同じハードウェア上で実行されていなかったこと、さらにはSASの実行環境は、 RREに適したクラスタ上の計算環境であり不利に実行されているのではないか、 という指摘を頂きました。 我々はその指摘を真摯に受けとめ、今回のテストでは、両方のソフトを同じ計 算環境で使用し、新しい内容でテストを行いました。公正な比較を行うため、 我々はSASプログラムの検証を行う経験豊富なコンサルタントを雇い、Grid Computingを利用させ、テスト環境を構築しました。また、我々は今回のテストで SAS9.4を用いるとともに、分析の共通課題にあたるテスト項目を定義しています。 今回のテスト結果: ・RREのScaleRはSASよりも42倍の早さで分析タスクを実行した ・RREのScaleRはすべてのタスクでSASを上回った ・RREのScaleRはSASよりも10倍〜300倍のパフォーマンス改善が得られる ・RREのScaleRはより大きなデータを使う場合にパフォーマンスの改善幅がより大きくなる ・新しいSASのHP PROCsは僅かにSASのパフォーマンスが改善できただけだった 本ホワイトペーパーでは、我々がテストを行ったアプローチ手順、詳細な結果 を報告いたします。 アプローチ手順 レボリューション・アナリティクス社は、SASの専門家(コンサルティングファーム でSAS Grid Managerの扱いのある経験豊富なコンサルタント)にテストを担当さ せました。彼は、CentOSがインストールされている4,5コアのマシンを用意し、そ れらすべてがネットワーク上でギガビット・イーサネット接続され、独立したNFS サーバーを実行できるクラスター分析環境を設定しました。 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 2
  • 3. SASのテスト担当者は、SAS9.4で次の主要コンポーネントを利用しました。 ・Base SAS ・SAS/STAT ・SAS Grid Manager 我々はSAS Management ConsoleとSAS Enterprise GuideがGridのクライアントと して動作するデスクトップ環境を使用しました。レボリューション・アナリティクス社 のRREテストを行うために、まず我々はIBM Platform LSFとIBM Platform MPIのリ リース9を導入し、その後RREの7をを各ノードにインストールしています。 SAS Grid ManagerはRREで使用されるIBMの標準バージョンとOEMバージョンで あるIBM Platform LSFを同時に実行することが出来ないため、我々はテストを順 に実行し、各テスト毎に環境を再構成しました。 ※IBM Platform LSFは、要求の厳しい分散型HPC環境のための強力なワークロード管理プラットフォーム ※IBM Platform MPIは、HPC実装アプリケーションの並列処理を実現するメッセージ・パッシング・インター フェース(MPI) 異なる環境での繰り返しテストを簡単にするため、我々はランダムプロセスを 通じて生成されたデータを用いました。データの生成時間はペンチマークには含 まれていません。尚、実際のテストを実行する前に、我々はランダム化された データをそれぞれのソフトウェア製品のデフォルトのデータ形式(SASはSAS data set、RREはXDFファイル)に取り込んでいます。 RREは、これまでにも数億行のような大規模データのベンチマークが行われて きました。しかし、調査した結果、大手企業で分析されている代表的なデータセッ トですら、それよりもはるかに小さい傾向があると判明しました。そこで、我々は 一般的な多くのアナリストが分析していると思われるサイズ、列数を591列、10万 行〜500万行を上限に、列数を多く、行数を少なくした「広い」データに対してテス トを実行することにしました。さらに5000万行を上限とした21列の「狭い」データに 対してもテストを実行しています。 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 3
  • 4. テストでは、分析業務でよく使われる10のタスクに加え、スコアリングのタスク を加えました。表1はSAS9.4とRRE7のタスクの内容と、それぞれのソフトで使った 関数を示しています。 表1:ベンチマークタスク 1つの数値変数に関する記述統計 (件数、最小値、最大値、平均値、標準偏差) 1つの数値変数の中央値と十分位数 1つの文字変数の度数分布 20の数値変数で1つの数値を目的変数とす る線形回帰 20の混合した変数で1つの数値を目的変数 とする線形回帰 100の数値変数でステップワイズ法で行 う線形回帰 20の数値変数で1つの判別(2値)を目的変数 とするロジスティック回帰 20の数値変数,ガンマ分布,リンク関数,数 値を目的変数とする一般化線形モデル 20変数を持つk-meanクラスタリング 100変数を持つk-meanクラスタリング 最初の線形回帰モデルを利用し、10倍の レコード数のスコアリング これらは、同時実行することなくすべてのベンチマークテストを順番に実行して います。実際に使用したSAS9.4およびRRE7のプログラムは GitHub(https://github.com/RevolutionAnalytics/Benchmark )で公開しているため、 誰でも自由に利用することができます。ご覧になっている皆さんの環境で、これ らのテストプログラムをお試し頂くこと、また分析速度についても、我々が公開し ている内容と比較して頂けると幸いです。 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 4
  • 5. 結果 表2は、500万レコードの大規模データの結果を示しています。ベンチマーク環 境において、SAS9.4を使ってすべてのプログラムを実行した時間の合計は5,192 秒(約1.5時間)でした。同じ内容のRRE7は123.6秒(約2分)です。表1で示した10 のベンチマークタスクの結果を示しています。 表2:ベンチマーク結果 データ件数:500万件 1つの数値変数に関する記述統計 (件数、最小値、最大値、平均値、標準偏差) 1つの数値変数の中央値と十分位数 1つの文字変数の度数分布 20の数値変数で1つの数値を目的変数とする線形回帰 20の混合した変数で1つの数値を目的変数とする 線形回帰 100の数値変数でステップワイズ法で行う線形回帰 20の数値変数で1つの判別(2値)を目的変数とする ロジスティック回帰 20の数値変数,ガンマ分布,リンク関数,数値を目的変数と する一般化線形モデル 20変数を持つk-meanクラスタリング 100変数を持つk-meanクラスタリング すべての分析タスクの合計 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 5
  • 6. 表3が示すように、レコード数が増えるほど、RREとSASのパフォーマンス差はよ り大きくなっていることがわかります。 表3:データ件数ごとの結果 スコアリングテストでは、最初に線形回帰を実行し、10倍の行を持つデータセッ トに対して予測値を算出しています。表4は、このテストの結果を示しています。 表4:スコアリングテスト結果 SAS9.4では、SASはHigh-Performance AnalyticsのHP PROCsという手続きオブ ジェクトがバンドルされています。我々はテストの1つとしてPROC REGをPROC HPREGに置き換えて実行しましたが、本ベンチマーク環境において、High- Performance Analyticsの手続きオブジェクトにおけるパフォーマンス向上は殆ど 見られませんでした。 表5:HPREGの結果 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 6
  • 7. 考察 本テスト環境における分析速度で比較すると、SAS9.4でプログラムを実行する のにかかる時間を使えば、RRE7のユーザーは同じ作業の実行を42回繰り返す ことが可能です。 このテスト結果から実用面を考察すると、まずモデル作成に必要な学習サイク ルを大幅に減らすことができます。さらにより多くのモデルを構築し、より良いモ デルが得られ、それらはまた、より多くの顧客にサービスを提供することができ、 結果的により多くの利益を生むことにつながるのです。 RRE7はSAS9.4よりもなぜこんなに高速に実行できるのでしょうか?レボリュー ション・アナリティクス社は、クラスタ化された環境において、複数のマシン上で の実行を効率よく配分するためのPEMA(Parallel External Memory Algorithms)と 呼ばれる独自の技術を使用しているからです。RRE7において、単一マシン上の メモリで扱える量よりも大きいデータセットを扱う場合、利用可能なコンピューティ ングリソースのすべてを介してデータをストリーミングします。 一方、SAS/STATソフトウェアでは、同様にメモリで扱える量より大きいデータセッ トを扱う場合、メモリとディスクとのスワッピングが起こり、インメモリでの実行より もはるかに遅くなってしまいます。 これらのSASプログラムはグリッド構成で実行した場合、グリッド操作が有効な 場合においても、殆どのSASの手続きオブジェクトが利用可能なコンピュータのリ ソースを利用することはありませんでした。SASによると、SAS/STATの手続きオブ ジェクトの中で4つのみが、複数のコンピューティングのスレッドを利用することが できるとされています。 我々の行ったHPREG PROCのテストでも示しているように、顧客がHigh- Performance Analytics Serverのライセンスを購入していない限り、HP PROCsのパ フォーマンスは向上しません。 レボリューション・アナリティクス社ではパフォーマンスと効率性について本格 的に取り組み、継続的に分析エンジンの効率と速度を向上させています。 我々はお客さまや競合他社を含めた皆様に対して、我々が行ったベンチマー クテストを実行し、その実行結果をさらに多くの皆様に共有して頂けることを願っ てやみません。 © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 7
  • 8. © 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp 8