SASより高速なRevolution R Enterprise

ホワイトペーパー
SASより高速なRevolution R Enterprise
（レボリューションRエンタープライズ）
著者： Thomas W. Dinsmore、Derek McCrae Norton
日本語訳：KSKアナリティクス
ベンチマークテスト結果
© 2014, Revolution Analytics And KSK Analytics All Rights Reserved. www.r-analytics.jp
1

分析業務は常に分析速度の問題がつきまといます。しかし、実際の業務では
どの程度の速度が期待されているのでしょうか？この問題について、レボリュー
ション・アナリティクス社の顧客である米国大手マーケティング・サービス・プロバ
イダーの分析ディレクターに聞いてみました。彼らのチームは現在、1000以上の
予測モデルの開発しています。彼らのお客さまからは、30分以内で予測モデル
を構築することを期待されていると言います。
前回、我々のチームではレボリューション・アナリティクス社のRREとSASを比較
するベンチマークテストを行い、テスト結果を発表しました。そのテストでは、RRE
の独自技術であるPEMA（Parallel External Memory Algorithms）が最先端分析に
おいて、より優れたパフォーマンスを発揮していることを紹介しました。しかし、一
部の読者から、テストが単一のタスクに限定されていたことと、SASおよびRREが
同じハードウェア上で実行されていなかったこと、さらにはSASの実行環境は、
RREに適したクラスタ上の計算環境であり不利に実行されているのではないか、
という指摘を頂きました。
我々はその指摘を真摯に受けとめ、今回のテストでは、両方のソフトを同じ計
算環境で使用し、新しい内容でテストを行いました。公正な比較を行うため、
我々はSASプログラムの検証を行う経験豊富なコンサルタントを雇い、Grid
Computingを利用させ、テスト環境を構築しました。また、我々は今回のテストで
SAS9.4を用いるとともに、分析の共通課題にあたるテスト項目を定義しています。
今回のテスト結果:
・RREのScaleRはSASよりも42倍の早さで分析タスクを実行した
・RREのScaleRはすべてのタスクでSASを上回った
・RREのScaleRはSASよりも10倍〜300倍のパフォーマンス改善が得られる
・RREのScaleRはより大きなデータを使う場合にパフォーマンスの改善幅がより大きくなる
・新しいSASのHP PROCsは僅かにSASのパフォーマンスが改善できただけだった
本ホワイトペーパーでは、我々がテストを行ったアプローチ手順、詳細な結果
を報告いたします。
アプローチ手順
レボリューション・アナリティクス社は、SASの専門家（コンサルティングファーム
でSAS Grid Managerの扱いのある経験豊富なコンサルタント）にテストを担当さ
せました。彼は、CentOSがインストールされている4,5コアのマシンを用意し、そ
れらすべてがネットワーク上でギガビット・イーサネット接続され、独立したNFS
サーバーを実行できるクラスター分析環境を設定しました。
2

SASのテスト担当者は、SAS9.4で次の主要コンポーネントを利用しました。
・Base SAS
・SAS/STAT
・SAS Grid Manager
我々はSAS Management ConsoleとSAS Enterprise GuideがGridのクライアントと
して動作するデスクトップ環境を使用しました。レボリューション・アナリティクス社
のRREテストを行うために、まず我々はIBM Platform LSFとIBM Platform MPIのリ
リース9を導入し、その後RREの7をを各ノードにインストールしています。
SAS Grid ManagerはRREで使用されるIBMの標準バージョンとOEMバージョンで
あるIBM Platform LSFを同時に実行することが出来ないため、我々はテストを順
に実行し、各テスト毎に環境を再構成しました。
※IBM Platform LSFは、要求の厳しい分散型HPC環境のための強力なワークロード管理プラットフォーム
※IBM Platform MPIは、HPC実装アプリケーションの並列処理を実現するメッセージ・パッシング・インター
フェース（MPI）
異なる環境での繰り返しテストを簡単にするため、我々はランダムプロセスを
通じて生成されたデータを用いました。データの生成時間はペンチマークには含
まれていません。尚、実際のテストを実行する前に、我々はランダム化された
データをそれぞれのソフトウェア製品のデフォルトのデータ形式（SASはSAS data
set、RREはXDFファイル）に取り込んでいます。
RREは、これまでにも数億行のような大規模データのベンチマークが行われて
きました。しかし、調査した結果、大手企業で分析されている代表的なデータセッ
トですら、それよりもはるかに小さい傾向があると判明しました。そこで、我々は
一般的な多くのアナリストが分析していると思われるサイズ、列数を591列、10万
行〜500万行を上限に、列数を多く、行数を少なくした「広い」データに対してテス
トを実行することにしました。さらに5000万行を上限とした21列の「狭い」データに
対してもテストを実行しています。
3

テストでは、分析業務でよく使われる10のタスクに加え、スコアリングのタスク
を加えました。表1はSAS9.4とRRE7のタスクの内容と、それぞれのソフトで使った
関数を示しています。
表１：ベンチマークタスク
1つの数値変数に関する記述統計
（件数、最小値、最大値、平均値、標準偏差）
1つの数値変数の中央値と十分位数
1つの文字変数の度数分布
20の数値変数で1つの数値を目的変数とす
る線形回帰
20の混合した変数で1つの数値を目的変数
とする線形回帰
100の数値変数でステップワイズ法で行
う線形回帰
20の数値変数で1つの判別(2値)を目的変数
とするロジスティック回帰
20の数値変数,ガンマ分布,リンク関数,数
値を目的変数とする一般化線形モデル
20変数を持つk-meanクラスタリング
最初の線形回帰モデルを利用し、10倍の
レコード数のスコアリング
これらは、同時実行することなくすべてのベンチマークテストを順番に実行して
います。実際に使用したSAS9.4およびRRE7のプログラムは
GitHub(https://github.com/RevolutionAnalytics/Benchmark )で公開しているため、
誰でも自由に利用することができます。ご覧になっている皆さんの環境で、これ
らのテストプログラムをお試し頂くこと、また分析速度についても、我々が公開し
ている内容と比較して頂けると幸いです。
4

結果
表2は、500万レコードの大規模データの結果を示しています。ベンチマーク環
境において、SAS9.4を使ってすべてのプログラムを実行した時間の合計は5,192
秒（約1.5時間）でした。同じ内容のRRE7は123.6秒（約2分）です。表1で示した10
のベンチマークタスクの結果を示しています。
表2：ベンチマーク結果
データ件数：500万件
1つの数値変数に関する記述統計
（件数、最小値、最大値、平均値、標準偏差）
1つの数値変数の中央値と十分位数
1つの文字変数の度数分布
20の数値変数で1つの数値を目的変数とする線形回帰
20の混合した変数で1つの数値を目的変数とする
線形回帰
100の数値変数でステップワイズ法で行う線形回帰
20の数値変数で1つの判別(2値)を目的変数とする
ロジスティック回帰
20の数値変数,ガンマ分布,リンク関数,数値を目的変数と
する一般化線形モデル
すべての分析タスクの合計
5

表3が示すように、レコード数が増えるほど、RREとSASのパフォーマンス差はよ
り大きくなっていることがわかります。
表3：データ件数ごとの結果
スコアリングテストでは、最初に線形回帰を実行し、10倍の行を持つデータセッ
トに対して予測値を算出しています。表4は、このテストの結果を示しています。
表4：スコアリングテスト結果
SAS9.4では、SASはHigh-Performance AnalyticsのHP PROCsという手続きオブ
ジェクトがバンドルされています。我々はテストの1つとしてPROC REGをPROC
HPREGに置き換えて実行しましたが、本ベンチマーク環境において、High-
Performance Analyticsの手続きオブジェクトにおけるパフォーマンス向上は殆ど
見られませんでした。
表5：HPREGの結果
6

考察
本テスト環境における分析速度で比較すると、SAS9.4でプログラムを実行する
のにかかる時間を使えば、RRE7のユーザーは同じ作業の実行を42回繰り返す
ことが可能です。
このテスト結果から実用面を考察すると、まずモデル作成に必要な学習サイク
ルを大幅に減らすことができます。さらにより多くのモデルを構築し、より良いモ
デルが得られ、それらはまた、より多くの顧客にサービスを提供することができ、
結果的により多くの利益を生むことにつながるのです。
RRE7はSAS9.4よりもなぜこんなに高速に実行できるのでしょうか？レボリュー
ション・アナリティクス社は、クラスタ化された環境において、複数のマシン上で
の実行を効率よく配分するためのPEMA（Parallel External Memory Algorithms）と
呼ばれる独自の技術を使用しているからです。RRE7において、単一マシン上の
メモリで扱える量よりも大きいデータセットを扱う場合、利用可能なコンピューティ
ングリソースのすべてを介してデータをストリーミングします。
一方、SAS/STATソフトウェアでは、同様にメモリで扱える量より大きいデータセッ
トを扱う場合、メモリとディスクとのスワッピングが起こり、インメモリでの実行より
もはるかに遅くなってしまいます。
これらのSASプログラムはグリッド構成で実行した場合、グリッド操作が有効な
場合においても、殆どのSASの手続きオブジェクトが利用可能なコンピュータのリ
ソースを利用することはありませんでした。SASによると、SAS/STATの手続きオブ
ジェクトの中で4つのみが、複数のコンピューティングのスレッドを利用することが
できるとされています。
我々の行ったHPREG PROCのテストでも示しているように、顧客がHigh-
Performance Analytics Serverのライセンスを購入していない限り、HP PROCsのパ
フォーマンスは向上しません。
レボリューション・アナリティクス社ではパフォーマンスと効率性について本格
的に取り組み、継続的に分析エンジンの効率と速度を向上させています。
我々はお客さまや競合他社を含めた皆様に対して、我々が行ったベンチマー
クテストを実行し、その実行結果をさらに多くの皆様に共有して頂けることを願っ
てやみません。
7

8

SASより高速なRevolution R Enterprise

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (6)

Similaire à SASより高速なRevolution R Enterprise

Similaire à SASより高速なRevolution R Enterprise (20)

Plus de Satoshi Kitajima

Plus de Satoshi Kitajima (6)

SASより高速なRevolution R Enterprise