SlideShare une entreprise Scribd logo
1  sur  82
Télécharger pour lire hors ligne
Copyright 2015 CYBIRD Co., Ltd.
Amazon Elastic MapReduce や
Spark を中心とした社内の分析環境事例とTips
AWS Summit Tokyo 2015
株式会社サイバード
データ戦略統括部
小松 裕一
Copyright 2015 CYBIRD Co., Ltd.
自己紹介
名前:小松 裕一
所属:株式会社サイバード
ビジネス戦略統括本部
データ戦略統括部
仕事:分析環境の構築
データ処理全般
出身:宮城県
好きなAWSサービス:S3
Copyright 2015 CYBIRD Co., Ltd.
会社紹介
Copyright 2015 CYBIRD Co., Ltd.
女性向け恋愛ゲーム -イケメンシリーズ-
• イケメン達との恋愛ストーリーを
楽しめる恋愛ゲーム
• 7タイトル、7プラットフォーム、
156カ国で配信
• 累計会員数1,100万人
Copyright 2015 CYBIRD Co., Ltd.
BFB 2015
• 3DCGのリッチな試合シーンが楽しめる
本格派サッカークラブ育成ゲーム
• 世界140カ国配信、累計300万DL
• 香港ではAppStoreセールスランキング
No.1獲得
Copyright 2015 CYBIRD Co., Ltd.
情報コンテンツ
Copyright 2015 CYBIRD Co., Ltd.
Agenda
分析環境の概要
データ処理の詳細
現在の検証項目
まとめと今後の展望
Copyright 2015 CYBIRD Co., Ltd.
Agenda
分析環境の概要
データ処理の詳細
現在の検証項目
まとめと今後の展望
Copyright 2015 CYBIRD Co., Ltd.
分析環境の概要
- 背景
- 検討事項
- システム構成と用途
Copyright 2015 CYBIRD Co., Ltd.
分析環境の概要
- 背景
- 検討事項
- システム構成と用途
Copyright 2015 CYBIRD Co., Ltd.
きっかけ
・2012年末からモバイルゲームがヒットし始める
⇒ 売上を向上させるべくデータ分析チーム結成
Copyright 2015 CYBIRD Co., Ltd.
課題
・データの取得が困難
⇒ 重いクエリでサービスに負荷をかけられない
⇒ アップデートされるデータが残っていない
(e.g. 昨日のレベルが分からない)
⇒ タイトルはもちろん、プラットフォームごとにDBが異なる
Copyright 2015 CYBIRD Co., Ltd.
制約
・限られた予算
・限られた人員
・大量データの処理の必要性
Copyright 2015 CYBIRD Co., Ltd.
AWSで解決
・限られた予算
⇒スモールスタートが可能
・限られた人員
⇒運用が楽
・大量データの処理の必要性
⇒EMRがある!
Copyright 2015 CYBIRD Co., Ltd.
分析環境の概要
- 背景
- 検討事項
- システム構成と用途
Copyright 2015 CYBIRD Co., Ltd.
検討 1
オンプレミス
Copyright 2015 CYBIRD Co., Ltd.
メリット
• 処理量が多い場合に費用対効果が高い
• 社内の他システムとの親和性が高い
• 機密情報を扱う場合に承認を得やすい
Copyright 2015 CYBIRD Co., Ltd.
デメリット
• 初期投資が高額となる
• 運用面での学習コストが高い
• 運用リソースを多く必要とする
Copyright 2015 CYBIRD Co., Ltd.
検討2
TREASURE DATA
Copyright 2015 CYBIRD Co., Ltd.
メリット
• サーバ管理を考慮する必要がない
• Fluentdと連動したデータ収集が秀逸
• データを格納するだけですぐに集計が始められる
Copyright 2015 CYBIRD Co., Ltd.
デメリット(2012年当時)
• RDBのサービスがない
• 機械学習をプラットフォーム上で実行する方法がない
• Hiveでの集計方法しかない
※デメリットというよりも要件を満たさなかったもの
Copyright 2015 CYBIRD Co., Ltd.
当社の課題解決に対する評価
サービス
コスト
(※1)
運用難易度
(※2)
拡張性
(※3)
オンプレミス × × ◎
TREASURE
DATA
○ ◎ △
AWS ◎ ○ ○
※1 スモールスタートを前提とした初期コストと月額運用コスト
※2 サーバ管理を含めた運用の簡便さ
※3 必要とする機能の充実度、拡張性
Copyright 2015 CYBIRD Co., Ltd.
分析環境の概要
- 背景
- 検討事項
- システム構成と用途
Copyright 2015 CYBIRD Co., Ltd.
分析環境概要図
Amazon RDS
Amazon EMR
Amazon S3
Amazon EC2
DB
WEB/アプリ
データ転送用
データフロー
処理コマンド
分析環境各サービス
アナリスト
プロデューサ
ディレクタ
Copyright 2015 CYBIRD Co., Ltd.
分析環境における最重要ポイント
S3にデータを集約
Copyright 2015 CYBIRD Co., Ltd.
1. ディスクの増設やサーバ拡張などを気にせず使用できる
2. 低コストで利用できる
⇒これまで捨てていたデータを貯め続けることができる
3. AWSの各種サービスと統合されている
⇒EMRなど分析処理で利用するAWSサービスでのシステム
構築が容易になる
Copyright 2015 CYBIRD Co., Ltd.
分析環境の用途
・アドホック分析
=> ユーザごとの行動履歴から知見を得る
(e.g. 特定のイベントや行動を経験したユーザの課金率は高い)
・Cynapse(モニタリングツール)
=> 毎日、KPIなどの指標をモニタリング
(e.g. ログイン頻度別にDAUを切り分けることで、広告の成果を測る)
Copyright 2015 CYBIRD Co., Ltd.
アドホック分析事例
• 回遊分析
タイトルをまたいでプレイしているユーザの動向を分析
=> 改善施策や新規タイトルのアイデア
• ユーザアンケート分析
ユーザのアクション情報をもとにクラスタリングし、
クラスタごとの単語(N-gram)の頻度を比較
=> 新規開発のアイデアや改修の優先順位付け
江戸風タイトル
欧州風タイトル
幕末風タイトル
20%
80%
※数値は仮のものです
Copyright 2015 CYBIRD Co., Ltd.
Cynapse (シナプス)
• 自社開発のモニタリングツール
• データを可視化し、複数のタイトルの状況
を複数の指標で確認
Copyright 2015 CYBIRD Co., Ltd.
Agenda
分析環境の概要
データ処理の詳細
現在の検証項目
まとめと今後の展望
Copyright 2015 CYBIRD Co., Ltd.
データ処理の詳細
- バッチ処理
- アドホック分析
- Spark利用状況
Copyright 2015 CYBIRD Co., Ltd.
データ処理の詳細
- バッチ処理
- アドホック分析
- Spark利用状況
Copyright 2015 CYBIRD Co., Ltd.
バッチでのデータ処理フロー
状況に応じてSQL、スクリプト
で処理
Amazon S3 Amazon EMR Amazon RDS
S3にログデータ
を集約
EMR(Hive)で
データを加工
RDSに処理
データを格納
Copyright 2015 CYBIRD Co., Ltd.
S3へのデータ格納タイミング
基本的には
前日の更新データを毎日
分析要件によっては
1時間毎
⇒イベント効果は日単位、もしくは時間単位で
十分に測定することができる
Copyright 2015 CYBIRD Co., Ltd.
S3への格納データフォーマット
社内で独自に定めたフォーマット
を使用しています
Copyright 2015 CYBIRD Co., Ltd.
・汎用的なバッチを作成することで新タイトルリリース時の対応がほぼ
必要なくなる
⇒リリース直後から分析が開始できる
[よくある問題]
複雑なデータ構造のためKPIを取得する分析実装が間に合わず、施策投入
のタイミングを逃してしまう
・必要なデータの所在や形式を特定するのが容易になる
⇒アドホック分析や、業務引き継ぎ等で無駄な作業がなくなる
[よくある問題]
分析要件に応じたデータを探すのが一苦労
Copyright 2015 CYBIRD Co., Ltd.
データフォーマットの一例(ゲーム事業)
ユーザプロフィール
ログイン
課金
アイテム
ガチャ
項目
共通ID
ユーザID
レベル
課金通貨の保持量
非課金通貨の保持量
国コード
チュートリアルの位置
登録日時
更新日時
タイトルID
プラットフォーム
OSバージョン
機種
推奨機種種別
Copyright 2015 CYBIRD Co., Ltd.
EMR(Hive)処理詳細(1)HiveQLを動的に作成し、S3に格納
s3://xxxxx-backet/XXX/hql/20150501/retention.hql
(2)ジョブフローを作成(EMRを起動)
(3)ジョブフローにステップを追加
(4)処理完了(S3に結果を出力)
s3://xxxxx-backet/XXX/OUTPUT/retention/20150501/xxxxxxxxxxx
aws emr create-cluster --name "cluster_name" ¥
--ami-version 3.6 ¥
--applications Name=Hive ¥
--auto-terminate ¥
--use-default-roles ¥
--ec2-attributes KeyName=xxxxx ¥
--instance-type m3.xlarge ¥
--instance-count 6 ¥
--steps Type=Hive,Name="Hive Program",ActionOnFailure=CONTINUE,Args=[-f,s3://xxxxx-
backet/XXX/hql/20150501/retention.hql]
aws emr add-steps --cluster-id j-XXXXXXXXXXXXX ¥
--steps Type=Hive,Name="Hive Program",Args=[-f,s3:// xxxxx-backet/XXX/hql/20150501/frequency.hql]
Copyright 2015 CYBIRD Co., Ltd.
HiveQLファイル(参考)
CREATE EXTERNAL TABLE IF NOT EXISTS login_log(user_id int,session_id string,create_date string)
PARTITIONED BY (login_dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n'
STORED AS TEXTFILE LOCATION 's3://xxxxx-backet/XXX/login_log';
ALTER TABLE login_log ADD PARTITION (login_dt='201505') LOCATION 's3://xxxxx-
backet/XXX/login_log/201505';
ALTER TABLE login_log ADD PARTITION (login_dt='201504') LOCATION 's3://xxxxx-
backet/XXX/login_log/201504';
・
・
・
入力テーブル作成(一部抜粋)
赤字部分を動的に変更
Copyright 2015 CYBIRD Co., Ltd.
HiveQLファイル(参考)
CREATE EXTERNAL TABLE IF NOT EXISTS dau_count (regist_date string,total int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n'
LOCATION 's3://xxxxx-backet/XXX/dau_count/20150501';
・
・
・
出力テーブル作成(一部抜粋)
赤字部分を動的に変更
Copyright 2015 CYBIRD Co., Ltd.
HiveQLファイル(参考)
INSERT OVERWRITE TABLE dau_count
SELECT SUBSTR(a.create_date,1,10),COUNT(DISTINCT(a.user_id))
FROM user_profile a JOIN login_log b ON (a.user_id = b.user_id)
WHERE b.create_date LIKE '2015-05-01%'
GROUP BY SUBSTR(a.create_date,1,10);
・
・
・
集計及び出力テーブルへの書き出し(一部抜粋)
赤字部分を動的に変更
Copyright 2015 CYBIRD Co., Ltd.
RDSへのデータ格納
処理時間を予測して、ある程度のバッファを見ながらCron設定
⇒script-runner、Lambda
Copyright 2015 CYBIRD Co., Ltd.
データから得られる指標の一例
• レベル
• 累積課金
• ログイン頻度
• 継続日数
など
ユーザセグメント毎にDAU、課金率、ARPPUを取得
特定のセグメントの
課金率が上昇している
Copyright 2015 CYBIRD Co., Ltd.
RDSへの格納フォーマット
カラム
集計日 PRI
登録日 PRI
DAU
課金UU
売上
コンテンツコード PRI
プラットフォーム PRI
推奨端末 PRI
継続日数別KPI基本KPI
レベル別KPI ログイン頻度別KPI
累積課金別KPI
Copyright 2015 CYBIRD Co., Ltd.
データ処理の詳細
- バッチ処理
- アドホック分析
- Spark利用状況
Copyright 2015 CYBIRD Co., Ltd.
アドホック分析でのデータ処理
・Hive
⇒1度の処理で目的を達成できる場合
※S3のデータをそのまま入力データとして実行
・Impala(on EMR)
⇒高速で処理できるため複数回のクエリを実行して
試しながら処理する場合
※S3からEMR上のHDFSにデータをコピーして実行
Copyright 2015 CYBIRD Co., Ltd.
Copyright 2015 CYBIRD Co., Ltd.
データ処理の詳細
- バッチ処理
- アドホック分析
- Spark利用状況
Copyright 2015 CYBIRD Co., Ltd.
Spark利用状況
バッチ処理
アドホック
分析
目的
Hive
Hive
Impala
プロダクト
Copyright 2015 CYBIRD Co., Ltd.
Sparkとは
一言でいえば、
オンメモリで高速処理が可能な
分散処理フレームワーク
Copyright 2015 CYBIRD Co., Ltd.
Sparkの特徴
• イミュータブル(不変)なRDDを基本としたデータ構造で、RDDを変換しなが
ら処理
• オンメモリでの処理ができるため、繰り返し処理は高速
• HDFSやS3など様々なデータソースからRDDの作成が可能
• Java、Python、Scalaで記述可能
• Spark Coreを中心としたコンポーネント群(Spark SQL、MLlib、Spark
Streaming、GraphX)を利用可能
Copyright 2015 CYBIRD Co., Ltd.
使い勝手の良さ
• トライアンドエラーを繰り返しても苦にならない速さ
• S3のデータをHDFSにコピーせずそのまま利用できる手軽さ
• spark-shell、pysparkで気軽に試せる簡便さ
Copyright 2015 CYBIRD Co., Ltd.
バッチ処理のフロー
• S3のファイルを読み込み、SparkSQLのテーブルを作成
(繰り返し使うログイン・課金テーブルなどはメモリにキャッシュをし高速化)
• テンプレートSQLを、集計対象に合わせて書き換え実行
• RDSに処理済データを格納
※ Hiveの場合よりも、コスト1/6、処理時間1/3になっている。
(Hive: m3.xlarge × 3, Spark: m3.large × 2)
Copyright 2015 CYBIRD Co., Ltd.
アドホック分析
EC2へのSpark導入とiPythonNotebookの連携 http://goo.gl/gNE4mH
iPythonNotebook上で、
PySparkを使っての分析が可能
Copyright 2015 CYBIRD Co., Ltd.
Agenda
分析環境の概要
データ処理の詳細
現在の検証項目
まとめと今後の展望
Copyright 2015 CYBIRD Co., Ltd.
現在の検証項目
- Spark利用の効率化
- 共通IDをキーとした分析環境の構築
- 機械学習を使ったサービスの最適化
Copyright 2015 CYBIRD Co., Ltd.
現在の検証項目
- Spark利用の効率化
- 共通IDをキーとした分析環境の構築
- 機械学習を使ったサービスの最適化
Copyright 2015 CYBIRD Co., Ltd.
Hive on Spark
[目的]
Hiveリソースを有効活用し、より簡易的かつ高速で
集計を可能にする
[概要]
Hiveの実行エンジンをSparkとするもの
Copyright 2015 CYBIRD Co., Ltd.
Amazon S3
Amazon EC2
データフロー
処理コマンド
分析環境
アナリスト
CDH
SELECT user_id,level
FROM login_log
WHERE create_date LIKE ‘2015-05-01%’;
・
・
・
HiveQLテンプレートを有効活用
データ蓄積
Hive on Sparkの処理フロー
Copyright 2015 CYBIRD Co., Ltd.
CDH(5.3.0)で検証(EC2上に構築、m3.large×4)
Percel: http://archive-primary.cloudera.com/cloudera-labs/hive-on-spark/parcels/latest/
[S3のアクセス設定]
<property>
<name>fs.s3n.awsAccessKeyId</name>
<value>XXXXXXXXXXXXXXXXXXXX</value>
</property>
<property>
<name>fs.s3n.awsSecretAccessKey</name>
<value>XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX</value>
</property>
S3の認証キーを設定
Copyright 2015 CYBIRD Co., Ltd.
[テーブル作成(例)]
CREATE EXTERNAL TABLE IF NOT EXISTS test_table (id int,level int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n'
LOCATION 's3n://xxxxx-backet/XXX/20150501/20150501_level';
[実行エンジン切り替え]
set hive.execution.engine=spark;
※MapReduceは set hive.execution.engine=mr;
[テスト]
(条件)
test_table(id,level) : 20,723 レコード
test_table_2(id,update_time) : 1,023,373 レコード
idでJOINしてid、level、update_timeを20件取得
SELECT a.id,a.level,b.update_time
FROM test_table a JOIN test_table_2 b ON (a.id = b.id)
LIMIT 20;
クライアント設定の展開(設定の反映)を実行後にhiveを起動
Copyright 2015 CYBIRD Co., Ltd.
処理時間の比較
34.1
27.8 27.5 25.6 26.1
9.6
3.8 3.7 3.6 3.7
1回目 2回目 3回目 4回目 5回目
MapReduce Spark
単位: 秒
Copyright 2015 CYBIRD Co., Ltd.
Spark on EMR
[目的]
必要な時に稼働させることによってコスト圧縮を図る
[概要]
EMR環境でSparkを実行する
Copyright 2015 CYBIRD Co., Ltd.
Amazon EMR
Amazon S3 Amazon EC2
分析環境
Amazon EMR
Amazon S3 Amazon EC2
分析環境
都度
Spark on EMRの構成図
常時
Copyright 2015 CYBIRD Co., Ltd.
[EMR起動及びSparkインストールの実行例]
aws emr create-cluster ¥
--region ap-northeast-1 ¥
--ami-version 3.6 ¥
--name SparkTestCruster ¥
--no-auto-terminate ¥
--service-role EMR_DefaultRole ¥
--instance-groups
InstanceCount=1,Name=sparkmaster,InstanceGroupType=MASTER,InstanceType=m3.large ¥
--ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,KeyName=xxxxx ¥
--applications Name=HIVE ¥
--bootstrap-actions Path=s3://support.elasticmapreduce/spark/install-spark
[SSHログイン]
aws emr ssh --cluster-id j-XXXXXXXXXXX --key-pair-file ~/xxxxx.pem --region ap-northeast-1
Copyright 2015 CYBIRD Co., Ltd.
> var data = sc.textFile("s3://xxxxxx-backet/XXX/login/20150501/*.tsv")
> data.cache()
> data.count()
INFO scheduler.DAGScheduler: Stage 1 (count at <console>:24) finished in 2.180 s
INFO scheduler.TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool
INFO scheduler.DAGScheduler: Job 1 finished: count at <console>:24, took 2.190953 s
res4: Long = 1023373
> data.count()
INFO scheduler.DAGScheduler: Stage 2 (count at <console>:24) finished in 0.071 s
INFO scheduler.TaskSchedulerImpl: Removed TaskSet 2.0, whose tasks have all completed, from pool
INFO scheduler.DAGScheduler: Job 2 finished: count at <console>:24, took 0.090554 s
res5: Long = 1023373
[spark-shell起動]
./spark/bin/spark-shell
[動作テスト]
Copyright 2015 CYBIRD Co., Ltd.
現在の検証項目
- Spark利用の効率化
- 共通IDをキーとした分析環境の構築
- 機械学習を使ったサービスの最適化
Copyright 2015 CYBIRD Co., Ltd.
共通ID
• ユーザ毎にユニークな管理IDを発行
• 共通IDと紐付く形でクライアント上からイベントログを取得
Copyright 2015 CYBIRD Co., Ltd.
共通IDで実現できる分析
・タイトル間での横断的な分析
⇒プロモーションの参考指標
・より詳細な行動分析
(DB、アクセスログから判別できないもの)
⇒UIの改善、機能の改善
Copyright 2015 CYBIRD Co., Ltd.
共通IDでの分析実現への課題
Redshift
• イベント毎に収集される膨大なデータ処理
• 共通IDをキーにアナリストがアドホックかつ多角的に
分析できる環境の構築
Copyright 2015 CYBIRD Co., Ltd.
現在の検証項目
- Spark利用の効率化
- 共通IDをキーとした分析環境の構築
- 機械学習を使ったサービスの最適化
Copyright 2015 CYBIRD Co., Ltd.
機械学習によるユーザの離脱(※)予測を行うことで、
離脱すると予測されたユーザに対して施策を行うことが可能に
※離脱の定義は、ゲームによって異なる
Copyright 2015 CYBIRD Co., Ltd.
入力 モデル 出力
•現状のステータス
•レベル、アバター所持数 等
•アクションログ
•前日に使用したアイテム量、直近5日間のログイン頻度、継続日数 等
Copyright 2015 CYBIRD Co., Ltd.
モデル 出力入力
離脱と継続の2値分類であるためモデルにはSVM(※)を採用
※教師データが離脱者よりも継続者のほうが圧倒的に多い不均衡データであるため、
アンダーサンプリングを行い、さらにグリッドサーチを用いてパラメータを最適化
Copyright 2015 CYBIRD Co., Ltd.
モデル 出力
ユーザ毎に継続・離脱フラグがつけられる (再現率(※)は80%)
入力
※離脱を防ぐのが目的のため適合率ではなく再現率を使用
Copyright 2015 CYBIRD Co., Ltd.
Agenda
分析環境の概要
データ処理の詳細
現在の検証項目
まとめと今後の展望
Copyright 2015 CYBIRD Co., Ltd.
まとめ
• 分析環境の概要
- S3、EMRを中心としたシステム
- アドホック分析、Cynapse(モニタリングツール)で利用
• データ処理の詳細
- S3 ⇒ EMR ⇒ RDSの処理フロー
- データの取得タイミングは1日もしくは1時間
- 社内で定めた独自フォーマットを利用
• 現在の検証項目
- Spark
- 共通IDでの分析
- 機械学習
Copyright 2015 CYBIRD Co., Ltd.
今後の展望
・アナリストがアクセスしやすい環境の構築
・Spark利用の常態化
・機械学習のさらなる活用
Copyright 2015 CYBIRD Co., Ltd.
発表は以上となりますが、
最後に人材募集のお知らせです。
Copyright 2015 CYBIRD Co., Ltd.
多様なメンバーで構成されています
アナリスト
- マーケティング部門出身
- Webマーケティングに関する知識
- Excel,SPSS,R
アナリスト
- ゲームプランナ出身
- ゲーム運営への深い理解
- SQL,R,Excel
アナリスト兼BI開発エンジニア
- 博士号(工学)保有
- 機械学習,統計学,フロントエンド開発
- R,Python,JavaScript
データ分析エンジニア
- BtoBソリューション部門出身
- システム設計,Hadoop関連技術,DB管理
- Perl,PHP,Scala
データ分析エンジニア
- ゲーム開発専門学校出身
- Hadoop関連技術,DB管理,機械学習
- Python
チームリーダ兼アナリスト
- 経営企画出身(M&A,事業戦略策定,等)
- 問題解決,ビジネス知識
- Excel,R,SPSS
Copyright 2015 CYBIRD Co., Ltd.
http://www.cybird.co.jp/recruit/
エントリーしてね!
エンジニア募集中!
(アナリストも!)
Copyright 2015 CYBIRD Co., Ltd.
ご清聴ありがとうございました

Contenu connexe

Tendances

クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンAmazon Web Services Japan
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-SORACOM, INC
 
Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証BrainPad Inc.
 
Serverless services on_aws_dmm_meetup_20170801
Serverless services on_aws_dmm_meetup_20170801Serverless services on_aws_dmm_meetup_20170801
Serverless services on_aws_dmm_meetup_20170801Amazon Web Services Japan
 
オンプレからAuroraへの移行とその効果
オンプレからAuroraへの移行とその効果オンプレからAuroraへの移行とその効果
オンプレからAuroraへの移行とその効果Masato Kataoka
 
AWS Black Belt Online Seminar 2017 Amazon S3
AWS Black Belt Online Seminar 2017 Amazon S3AWS Black Belt Online Seminar 2017 Amazon S3
AWS Black Belt Online Seminar 2017 Amazon S3Amazon Web Services Japan
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンAmazon Web Services Japan
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
スタートアップでのAWS(Amazon Web Services)活用事例
スタートアップでのAWS(Amazon Web Services)活用事例スタートアップでのAWS(Amazon Web Services)活用事例
スタートアップでのAWS(Amazon Web Services)活用事例schoowebcampus
 
2017年1月のAWSサービスアップデートまとめ
 2017年1月のAWSサービスアップデートまとめ 2017年1月のAWSサービスアップデートまとめ
2017年1月のAWSサービスアップデートまとめAmazon Web Services Japan
 
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャNoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャYasuhiro Matsuo
 
Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!Satoru Ishikawa
 
AWS初心者向けWebinar AWSでのNoSQLの活用
AWS初心者向けWebinar AWSでのNoSQLの活用AWS初心者向けWebinar AWSでのNoSQLの活用
AWS初心者向けWebinar AWSでのNoSQLの活用Amazon Web Services Japan
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみるTakahiro Moteki
 
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDBMasahiro Akita
 

Tendances (20)

クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
 
Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証
 
AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Techシリーズ  Amazon EMRAWS Black Belt Techシリーズ  Amazon EMR
AWS Black Belt Techシリーズ Amazon EMR
 
Serverless services on_aws_dmm_meetup_20170801
Serverless services on_aws_dmm_meetup_20170801Serverless services on_aws_dmm_meetup_20170801
Serverless services on_aws_dmm_meetup_20170801
 
オンプレからAuroraへの移行とその効果
オンプレからAuroraへの移行とその効果オンプレからAuroraへの移行とその効果
オンプレからAuroraへの移行とその効果
 
AWS Black Belt Online Seminar 2017 Amazon S3
AWS Black Belt Online Seminar 2017 Amazon S3AWS Black Belt Online Seminar 2017 Amazon S3
AWS Black Belt Online Seminar 2017 Amazon S3
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
AWSデータベースアップデート2017
AWSデータベースアップデート2017AWSデータベースアップデート2017
AWSデータベースアップデート2017
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
スタートアップでのAWS(Amazon Web Services)活用事例
スタートアップでのAWS(Amazon Web Services)活用事例スタートアップでのAWS(Amazon Web Services)活用事例
スタートアップでのAWS(Amazon Web Services)活用事例
 
2017年1月のAWSサービスアップデートまとめ
 2017年1月のAWSサービスアップデートまとめ 2017年1月のAWSサービスアップデートまとめ
2017年1月のAWSサービスアップデートまとめ
 
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャNoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
NoSQL on AWSで作る最新ソーシャルゲームアーキテクチャ
 
Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!
 
AWS初心者向けWebinar AWSでのNoSQLの活用
AWS初心者向けWebinar AWSでのNoSQLの活用AWS初心者向けWebinar AWSでのNoSQLの活用
AWS初心者向けWebinar AWSでのNoSQLの活用
 
Amazon Aurora
Amazon AuroraAmazon Aurora
Amazon Aurora
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
 
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB
日本最大の即レスサービス「アンサー」を支える Amazon DynamoDB
 

En vedette

クックパッドでのemr利用事例
クックパッドでのemr利用事例クックパッドでのemr利用事例
クックパッドでのemr利用事例Tatsuya Sasaki
 
BrainWarsを支えるAWSサービスたち
BrainWarsを支えるAWSサービスたちBrainWarsを支えるAWSサービスたち
BrainWarsを支えるAWSサービスたちMasakazu Matsushita
 
東急ハンズを支える技術
東急ハンズを支える技術東急ハンズを支える技術
東急ハンズを支える技術Tomoaki Imai
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews, Inc.
 
SparkやBigQueryなどを用いた モバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いた モバイルゲーム分析環境yuichi_komatsu
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証BrainPad Inc.
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~sugiyama koki
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
AWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMRAWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMRAmazon Web Services Japan
 
Hack the local treasure
Hack the local treasureHack the local treasure
Hack the local treasureMasaki Goto
 
VDC 5th - NTTドコモ ハンズオン資料
VDC 5th - NTTドコモ ハンズオン資料VDC 5th - NTTドコモ ハンズオン資料
VDC 5th - NTTドコモ ハンズオン資料Keiichiro Fujii
 
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するエフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するSatoshi Ishikawa
 
Madeleine peyroux
Madeleine peyrouxMadeleine peyroux
Madeleine peyrouxMarta Lokuu
 
Historical Studies intro (3.2.2015)
Historical Studies intro (3.2.2015)Historical Studies intro (3.2.2015)
Historical Studies intro (3.2.2015)TAMALA MANDA
 

En vedette (20)

クックパッドでのemr利用事例
クックパッドでのemr利用事例クックパッドでのemr利用事例
クックパッドでのemr利用事例
 
Docomo Cloud Package
Docomo Cloud PackageDocomo Cloud Package
Docomo Cloud Package
 
BrainWarsを支えるAWSサービスたち
BrainWarsを支えるAWSサービスたちBrainWarsを支えるAWSサービスたち
BrainWarsを支えるAWSサービスたち
 
東急ハンズを支える技術
東急ハンズを支える技術東急ハンズを支える技術
東急ハンズを支える技術
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
 
SparkやBigQueryなどを用いた モバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いた モバイルゲーム分析環境
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
AWSでのビッグデータ分析
AWSでのビッグデータ分析AWSでのビッグデータ分析
AWSでのビッグデータ分析
 
AWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMRAWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMR
 
Hack the local treasure
Hack the local treasureHack the local treasure
Hack the local treasure
 
VDC 5th - NTTドコモ ハンズオン資料
VDC 5th - NTTドコモ ハンズオン資料VDC 5th - NTTドコモ ハンズオン資料
VDC 5th - NTTドコモ ハンズオン資料
 
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するエフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
 
Madeleine peyroux
Madeleine peyrouxMadeleine peyroux
Madeleine peyroux
 
Storyboard bg3eso
Storyboard bg3esoStoryboard bg3eso
Storyboard bg3eso
 
Plt
PltPlt
Plt
 
Officegetstarted
OfficegetstartedOfficegetstarted
Officegetstarted
 
Historical Studies intro (3.2.2015)
Historical Studies intro (3.2.2015)Historical Studies intro (3.2.2015)
Historical Studies intro (3.2.2015)
 

Similaire à Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips

AWSが誕生するまでの秘話
AWSが誕生するまでの秘話AWSが誕生するまでの秘話
AWSが誕生するまでの秘話Yasuhiro Horiuchi
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティングAmazon Web Services Japan
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポートRyoma Nagata
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例Amazon Web Services Japan
 
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例Yutaro Ono
 
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...Insight Technology, Inc.
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
継続?移行?Oracle SE2 RACのサポート終了に向けた備え
継続?移行?Oracle SE2 RACのサポート終了に向けた備え継続?移行?Oracle SE2 RACのサポート終了に向けた備え
継続?移行?Oracle SE2 RACのサポート終了に向けた備え株式会社クライム
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonightAmazon Web Services Japan
 
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々gree_tech
 
愛せよ、さもなくば捨てよ。
愛せよ、さもなくば捨てよ。愛せよ、さもなくば捨てよ。
愛せよ、さもなくば捨てよ。Sho Yoshida
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Web Services Japan
 
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターンHiroyasu Suzuki
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysKenta Suzuki
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysVOYAGE GROUP
 
AWS初心者向けWebinar AWSでBig Data活用
AWS初心者向けWebinar AWSでBig Data活用AWS初心者向けWebinar AWSでBig Data活用
AWS初心者向けWebinar AWSでBig Data活用Amazon Web Services Japan
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data PipelineAmazon Web Services Japan
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA HadoopセミナーIchiro Fukuda
 

Similaire à Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips (20)

AWSが誕生するまでの秘話
AWSが誕生するまでの秘話AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
 
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
 
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
継続?移行?Oracle SE2 RACのサポート終了に向けた備え
継続?移行?Oracle SE2 RACのサポート終了に向けた備え継続?移行?Oracle SE2 RACのサポート終了に向けた備え
継続?移行?Oracle SE2 RACのサポート終了に向けた備え
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
 
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
TB / Day規模のゲーム向けデータパイプラインを開発運用する日々
 
愛せよ、さもなくば捨てよ。
愛せよ、さもなくば捨てよ。愛せよ、さもなくば捨てよ。
愛せよ、さもなくば捨てよ。
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdays
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdays
 
AWS初心者向けWebinar AWSでBig Data活用
AWS初心者向けWebinar AWSでBig Data活用AWS初心者向けWebinar AWSでBig Data活用
AWS初心者向けWebinar AWSでBig Data活用
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data Pipeline
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 

Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips

  • 1. Copyright 2015 CYBIRD Co., Ltd. Amazon Elastic MapReduce や Spark を中心とした社内の分析環境事例とTips AWS Summit Tokyo 2015 株式会社サイバード データ戦略統括部 小松 裕一
  • 2. Copyright 2015 CYBIRD Co., Ltd. 自己紹介 名前:小松 裕一 所属:株式会社サイバード ビジネス戦略統括本部 データ戦略統括部 仕事:分析環境の構築 データ処理全般 出身:宮城県 好きなAWSサービス:S3
  • 3. Copyright 2015 CYBIRD Co., Ltd. 会社紹介
  • 4. Copyright 2015 CYBIRD Co., Ltd. 女性向け恋愛ゲーム -イケメンシリーズ- • イケメン達との恋愛ストーリーを 楽しめる恋愛ゲーム • 7タイトル、7プラットフォーム、 156カ国で配信 • 累計会員数1,100万人
  • 5. Copyright 2015 CYBIRD Co., Ltd. BFB 2015 • 3DCGのリッチな試合シーンが楽しめる 本格派サッカークラブ育成ゲーム • 世界140カ国配信、累計300万DL • 香港ではAppStoreセールスランキング No.1獲得
  • 6. Copyright 2015 CYBIRD Co., Ltd. 情報コンテンツ
  • 7. Copyright 2015 CYBIRD Co., Ltd. Agenda 分析環境の概要 データ処理の詳細 現在の検証項目 まとめと今後の展望
  • 8. Copyright 2015 CYBIRD Co., Ltd. Agenda 分析環境の概要 データ処理の詳細 現在の検証項目 まとめと今後の展望
  • 9. Copyright 2015 CYBIRD Co., Ltd. 分析環境の概要 - 背景 - 検討事項 - システム構成と用途
  • 10. Copyright 2015 CYBIRD Co., Ltd. 分析環境の概要 - 背景 - 検討事項 - システム構成と用途
  • 11. Copyright 2015 CYBIRD Co., Ltd. きっかけ ・2012年末からモバイルゲームがヒットし始める ⇒ 売上を向上させるべくデータ分析チーム結成
  • 12. Copyright 2015 CYBIRD Co., Ltd. 課題 ・データの取得が困難 ⇒ 重いクエリでサービスに負荷をかけられない ⇒ アップデートされるデータが残っていない (e.g. 昨日のレベルが分からない) ⇒ タイトルはもちろん、プラットフォームごとにDBが異なる
  • 13. Copyright 2015 CYBIRD Co., Ltd. 制約 ・限られた予算 ・限られた人員 ・大量データの処理の必要性
  • 14. Copyright 2015 CYBIRD Co., Ltd. AWSで解決 ・限られた予算 ⇒スモールスタートが可能 ・限られた人員 ⇒運用が楽 ・大量データの処理の必要性 ⇒EMRがある!
  • 15. Copyright 2015 CYBIRD Co., Ltd. 分析環境の概要 - 背景 - 検討事項 - システム構成と用途
  • 16. Copyright 2015 CYBIRD Co., Ltd. 検討 1 オンプレミス
  • 17. Copyright 2015 CYBIRD Co., Ltd. メリット • 処理量が多い場合に費用対効果が高い • 社内の他システムとの親和性が高い • 機密情報を扱う場合に承認を得やすい
  • 18. Copyright 2015 CYBIRD Co., Ltd. デメリット • 初期投資が高額となる • 運用面での学習コストが高い • 運用リソースを多く必要とする
  • 19. Copyright 2015 CYBIRD Co., Ltd. 検討2 TREASURE DATA
  • 20. Copyright 2015 CYBIRD Co., Ltd. メリット • サーバ管理を考慮する必要がない • Fluentdと連動したデータ収集が秀逸 • データを格納するだけですぐに集計が始められる
  • 21. Copyright 2015 CYBIRD Co., Ltd. デメリット(2012年当時) • RDBのサービスがない • 機械学習をプラットフォーム上で実行する方法がない • Hiveでの集計方法しかない ※デメリットというよりも要件を満たさなかったもの
  • 22. Copyright 2015 CYBIRD Co., Ltd. 当社の課題解決に対する評価 サービス コスト (※1) 運用難易度 (※2) 拡張性 (※3) オンプレミス × × ◎ TREASURE DATA ○ ◎ △ AWS ◎ ○ ○ ※1 スモールスタートを前提とした初期コストと月額運用コスト ※2 サーバ管理を含めた運用の簡便さ ※3 必要とする機能の充実度、拡張性
  • 23. Copyright 2015 CYBIRD Co., Ltd. 分析環境の概要 - 背景 - 検討事項 - システム構成と用途
  • 24. Copyright 2015 CYBIRD Co., Ltd. 分析環境概要図 Amazon RDS Amazon EMR Amazon S3 Amazon EC2 DB WEB/アプリ データ転送用 データフロー 処理コマンド 分析環境各サービス アナリスト プロデューサ ディレクタ
  • 25. Copyright 2015 CYBIRD Co., Ltd. 分析環境における最重要ポイント S3にデータを集約
  • 26. Copyright 2015 CYBIRD Co., Ltd. 1. ディスクの増設やサーバ拡張などを気にせず使用できる 2. 低コストで利用できる ⇒これまで捨てていたデータを貯め続けることができる 3. AWSの各種サービスと統合されている ⇒EMRなど分析処理で利用するAWSサービスでのシステム 構築が容易になる
  • 27. Copyright 2015 CYBIRD Co., Ltd. 分析環境の用途 ・アドホック分析 => ユーザごとの行動履歴から知見を得る (e.g. 特定のイベントや行動を経験したユーザの課金率は高い) ・Cynapse(モニタリングツール) => 毎日、KPIなどの指標をモニタリング (e.g. ログイン頻度別にDAUを切り分けることで、広告の成果を測る)
  • 28. Copyright 2015 CYBIRD Co., Ltd. アドホック分析事例 • 回遊分析 タイトルをまたいでプレイしているユーザの動向を分析 => 改善施策や新規タイトルのアイデア • ユーザアンケート分析 ユーザのアクション情報をもとにクラスタリングし、 クラスタごとの単語(N-gram)の頻度を比較 => 新規開発のアイデアや改修の優先順位付け 江戸風タイトル 欧州風タイトル 幕末風タイトル 20% 80% ※数値は仮のものです
  • 29. Copyright 2015 CYBIRD Co., Ltd. Cynapse (シナプス) • 自社開発のモニタリングツール • データを可視化し、複数のタイトルの状況 を複数の指標で確認
  • 30. Copyright 2015 CYBIRD Co., Ltd. Agenda 分析環境の概要 データ処理の詳細 現在の検証項目 まとめと今後の展望
  • 31. Copyright 2015 CYBIRD Co., Ltd. データ処理の詳細 - バッチ処理 - アドホック分析 - Spark利用状況
  • 32. Copyright 2015 CYBIRD Co., Ltd. データ処理の詳細 - バッチ処理 - アドホック分析 - Spark利用状況
  • 33. Copyright 2015 CYBIRD Co., Ltd. バッチでのデータ処理フロー 状況に応じてSQL、スクリプト で処理 Amazon S3 Amazon EMR Amazon RDS S3にログデータ を集約 EMR(Hive)で データを加工 RDSに処理 データを格納
  • 34. Copyright 2015 CYBIRD Co., Ltd. S3へのデータ格納タイミング 基本的には 前日の更新データを毎日 分析要件によっては 1時間毎 ⇒イベント効果は日単位、もしくは時間単位で 十分に測定することができる
  • 35. Copyright 2015 CYBIRD Co., Ltd. S3への格納データフォーマット 社内で独自に定めたフォーマット を使用しています
  • 36. Copyright 2015 CYBIRD Co., Ltd. ・汎用的なバッチを作成することで新タイトルリリース時の対応がほぼ 必要なくなる ⇒リリース直後から分析が開始できる [よくある問題] 複雑なデータ構造のためKPIを取得する分析実装が間に合わず、施策投入 のタイミングを逃してしまう ・必要なデータの所在や形式を特定するのが容易になる ⇒アドホック分析や、業務引き継ぎ等で無駄な作業がなくなる [よくある問題] 分析要件に応じたデータを探すのが一苦労
  • 37. Copyright 2015 CYBIRD Co., Ltd. データフォーマットの一例(ゲーム事業) ユーザプロフィール ログイン 課金 アイテム ガチャ 項目 共通ID ユーザID レベル 課金通貨の保持量 非課金通貨の保持量 国コード チュートリアルの位置 登録日時 更新日時 タイトルID プラットフォーム OSバージョン 機種 推奨機種種別
  • 38. Copyright 2015 CYBIRD Co., Ltd. EMR(Hive)処理詳細(1)HiveQLを動的に作成し、S3に格納 s3://xxxxx-backet/XXX/hql/20150501/retention.hql (2)ジョブフローを作成(EMRを起動) (3)ジョブフローにステップを追加 (4)処理完了(S3に結果を出力) s3://xxxxx-backet/XXX/OUTPUT/retention/20150501/xxxxxxxxxxx aws emr create-cluster --name "cluster_name" ¥ --ami-version 3.6 ¥ --applications Name=Hive ¥ --auto-terminate ¥ --use-default-roles ¥ --ec2-attributes KeyName=xxxxx ¥ --instance-type m3.xlarge ¥ --instance-count 6 ¥ --steps Type=Hive,Name="Hive Program",ActionOnFailure=CONTINUE,Args=[-f,s3://xxxxx- backet/XXX/hql/20150501/retention.hql] aws emr add-steps --cluster-id j-XXXXXXXXXXXXX ¥ --steps Type=Hive,Name="Hive Program",Args=[-f,s3:// xxxxx-backet/XXX/hql/20150501/frequency.hql]
  • 39. Copyright 2015 CYBIRD Co., Ltd. HiveQLファイル(参考) CREATE EXTERNAL TABLE IF NOT EXISTS login_log(user_id int,session_id string,create_date string) PARTITIONED BY (login_dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n' STORED AS TEXTFILE LOCATION 's3://xxxxx-backet/XXX/login_log'; ALTER TABLE login_log ADD PARTITION (login_dt='201505') LOCATION 's3://xxxxx- backet/XXX/login_log/201505'; ALTER TABLE login_log ADD PARTITION (login_dt='201504') LOCATION 's3://xxxxx- backet/XXX/login_log/201504'; ・ ・ ・ 入力テーブル作成(一部抜粋) 赤字部分を動的に変更
  • 40. Copyright 2015 CYBIRD Co., Ltd. HiveQLファイル(参考) CREATE EXTERNAL TABLE IF NOT EXISTS dau_count (regist_date string,total int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n' LOCATION 's3://xxxxx-backet/XXX/dau_count/20150501'; ・ ・ ・ 出力テーブル作成(一部抜粋) 赤字部分を動的に変更
  • 41. Copyright 2015 CYBIRD Co., Ltd. HiveQLファイル(参考) INSERT OVERWRITE TABLE dau_count SELECT SUBSTR(a.create_date,1,10),COUNT(DISTINCT(a.user_id)) FROM user_profile a JOIN login_log b ON (a.user_id = b.user_id) WHERE b.create_date LIKE '2015-05-01%' GROUP BY SUBSTR(a.create_date,1,10); ・ ・ ・ 集計及び出力テーブルへの書き出し(一部抜粋) 赤字部分を動的に変更
  • 42. Copyright 2015 CYBIRD Co., Ltd. RDSへのデータ格納 処理時間を予測して、ある程度のバッファを見ながらCron設定 ⇒script-runner、Lambda
  • 43. Copyright 2015 CYBIRD Co., Ltd. データから得られる指標の一例 • レベル • 累積課金 • ログイン頻度 • 継続日数 など ユーザセグメント毎にDAU、課金率、ARPPUを取得 特定のセグメントの 課金率が上昇している
  • 44. Copyright 2015 CYBIRD Co., Ltd. RDSへの格納フォーマット カラム 集計日 PRI 登録日 PRI DAU 課金UU 売上 コンテンツコード PRI プラットフォーム PRI 推奨端末 PRI 継続日数別KPI基本KPI レベル別KPI ログイン頻度別KPI 累積課金別KPI
  • 45. Copyright 2015 CYBIRD Co., Ltd. データ処理の詳細 - バッチ処理 - アドホック分析 - Spark利用状況
  • 46. Copyright 2015 CYBIRD Co., Ltd. アドホック分析でのデータ処理 ・Hive ⇒1度の処理で目的を達成できる場合 ※S3のデータをそのまま入力データとして実行 ・Impala(on EMR) ⇒高速で処理できるため複数回のクエリを実行して 試しながら処理する場合 ※S3からEMR上のHDFSにデータをコピーして実行
  • 48. Copyright 2015 CYBIRD Co., Ltd. データ処理の詳細 - バッチ処理 - アドホック分析 - Spark利用状況
  • 49. Copyright 2015 CYBIRD Co., Ltd. Spark利用状況 バッチ処理 アドホック 分析 目的 Hive Hive Impala プロダクト
  • 50. Copyright 2015 CYBIRD Co., Ltd. Sparkとは 一言でいえば、 オンメモリで高速処理が可能な 分散処理フレームワーク
  • 51. Copyright 2015 CYBIRD Co., Ltd. Sparkの特徴 • イミュータブル(不変)なRDDを基本としたデータ構造で、RDDを変換しなが ら処理 • オンメモリでの処理ができるため、繰り返し処理は高速 • HDFSやS3など様々なデータソースからRDDの作成が可能 • Java、Python、Scalaで記述可能 • Spark Coreを中心としたコンポーネント群(Spark SQL、MLlib、Spark Streaming、GraphX)を利用可能
  • 52. Copyright 2015 CYBIRD Co., Ltd. 使い勝手の良さ • トライアンドエラーを繰り返しても苦にならない速さ • S3のデータをHDFSにコピーせずそのまま利用できる手軽さ • spark-shell、pysparkで気軽に試せる簡便さ
  • 53. Copyright 2015 CYBIRD Co., Ltd. バッチ処理のフロー • S3のファイルを読み込み、SparkSQLのテーブルを作成 (繰り返し使うログイン・課金テーブルなどはメモリにキャッシュをし高速化) • テンプレートSQLを、集計対象に合わせて書き換え実行 • RDSに処理済データを格納 ※ Hiveの場合よりも、コスト1/6、処理時間1/3になっている。 (Hive: m3.xlarge × 3, Spark: m3.large × 2)
  • 54. Copyright 2015 CYBIRD Co., Ltd. アドホック分析 EC2へのSpark導入とiPythonNotebookの連携 http://goo.gl/gNE4mH iPythonNotebook上で、 PySparkを使っての分析が可能
  • 55. Copyright 2015 CYBIRD Co., Ltd. Agenda 分析環境の概要 データ処理の詳細 現在の検証項目 まとめと今後の展望
  • 56. Copyright 2015 CYBIRD Co., Ltd. 現在の検証項目 - Spark利用の効率化 - 共通IDをキーとした分析環境の構築 - 機械学習を使ったサービスの最適化
  • 57. Copyright 2015 CYBIRD Co., Ltd. 現在の検証項目 - Spark利用の効率化 - 共通IDをキーとした分析環境の構築 - 機械学習を使ったサービスの最適化
  • 58. Copyright 2015 CYBIRD Co., Ltd. Hive on Spark [目的] Hiveリソースを有効活用し、より簡易的かつ高速で 集計を可能にする [概要] Hiveの実行エンジンをSparkとするもの
  • 59. Copyright 2015 CYBIRD Co., Ltd. Amazon S3 Amazon EC2 データフロー 処理コマンド 分析環境 アナリスト CDH SELECT user_id,level FROM login_log WHERE create_date LIKE ‘2015-05-01%’; ・ ・ ・ HiveQLテンプレートを有効活用 データ蓄積 Hive on Sparkの処理フロー
  • 60. Copyright 2015 CYBIRD Co., Ltd. CDH(5.3.0)で検証(EC2上に構築、m3.large×4) Percel: http://archive-primary.cloudera.com/cloudera-labs/hive-on-spark/parcels/latest/ [S3のアクセス設定] <property> <name>fs.s3n.awsAccessKeyId</name> <value>XXXXXXXXXXXXXXXXXXXX</value> </property> <property> <name>fs.s3n.awsSecretAccessKey</name> <value>XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX</value> </property> S3の認証キーを設定
  • 61. Copyright 2015 CYBIRD Co., Ltd. [テーブル作成(例)] CREATE EXTERNAL TABLE IF NOT EXISTS test_table (id int,level int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '¥t' LINES TERMINATED BY '¥n' LOCATION 's3n://xxxxx-backet/XXX/20150501/20150501_level'; [実行エンジン切り替え] set hive.execution.engine=spark; ※MapReduceは set hive.execution.engine=mr; [テスト] (条件) test_table(id,level) : 20,723 レコード test_table_2(id,update_time) : 1,023,373 レコード idでJOINしてid、level、update_timeを20件取得 SELECT a.id,a.level,b.update_time FROM test_table a JOIN test_table_2 b ON (a.id = b.id) LIMIT 20; クライアント設定の展開(設定の反映)を実行後にhiveを起動
  • 62. Copyright 2015 CYBIRD Co., Ltd. 処理時間の比較 34.1 27.8 27.5 25.6 26.1 9.6 3.8 3.7 3.6 3.7 1回目 2回目 3回目 4回目 5回目 MapReduce Spark 単位: 秒
  • 63. Copyright 2015 CYBIRD Co., Ltd. Spark on EMR [目的] 必要な時に稼働させることによってコスト圧縮を図る [概要] EMR環境でSparkを実行する
  • 64. Copyright 2015 CYBIRD Co., Ltd. Amazon EMR Amazon S3 Amazon EC2 分析環境 Amazon EMR Amazon S3 Amazon EC2 分析環境 都度 Spark on EMRの構成図 常時
  • 65. Copyright 2015 CYBIRD Co., Ltd. [EMR起動及びSparkインストールの実行例] aws emr create-cluster ¥ --region ap-northeast-1 ¥ --ami-version 3.6 ¥ --name SparkTestCruster ¥ --no-auto-terminate ¥ --service-role EMR_DefaultRole ¥ --instance-groups InstanceCount=1,Name=sparkmaster,InstanceGroupType=MASTER,InstanceType=m3.large ¥ --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,KeyName=xxxxx ¥ --applications Name=HIVE ¥ --bootstrap-actions Path=s3://support.elasticmapreduce/spark/install-spark [SSHログイン] aws emr ssh --cluster-id j-XXXXXXXXXXX --key-pair-file ~/xxxxx.pem --region ap-northeast-1
  • 66. Copyright 2015 CYBIRD Co., Ltd. > var data = sc.textFile("s3://xxxxxx-backet/XXX/login/20150501/*.tsv") > data.cache() > data.count() INFO scheduler.DAGScheduler: Stage 1 (count at <console>:24) finished in 2.180 s INFO scheduler.TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool INFO scheduler.DAGScheduler: Job 1 finished: count at <console>:24, took 2.190953 s res4: Long = 1023373 > data.count() INFO scheduler.DAGScheduler: Stage 2 (count at <console>:24) finished in 0.071 s INFO scheduler.TaskSchedulerImpl: Removed TaskSet 2.0, whose tasks have all completed, from pool INFO scheduler.DAGScheduler: Job 2 finished: count at <console>:24, took 0.090554 s res5: Long = 1023373 [spark-shell起動] ./spark/bin/spark-shell [動作テスト]
  • 67. Copyright 2015 CYBIRD Co., Ltd. 現在の検証項目 - Spark利用の効率化 - 共通IDをキーとした分析環境の構築 - 機械学習を使ったサービスの最適化
  • 68. Copyright 2015 CYBIRD Co., Ltd. 共通ID • ユーザ毎にユニークな管理IDを発行 • 共通IDと紐付く形でクライアント上からイベントログを取得
  • 69. Copyright 2015 CYBIRD Co., Ltd. 共通IDで実現できる分析 ・タイトル間での横断的な分析 ⇒プロモーションの参考指標 ・より詳細な行動分析 (DB、アクセスログから判別できないもの) ⇒UIの改善、機能の改善
  • 70. Copyright 2015 CYBIRD Co., Ltd. 共通IDでの分析実現への課題 Redshift • イベント毎に収集される膨大なデータ処理 • 共通IDをキーにアナリストがアドホックかつ多角的に 分析できる環境の構築
  • 71. Copyright 2015 CYBIRD Co., Ltd. 現在の検証項目 - Spark利用の効率化 - 共通IDをキーとした分析環境の構築 - 機械学習を使ったサービスの最適化
  • 72. Copyright 2015 CYBIRD Co., Ltd. 機械学習によるユーザの離脱(※)予測を行うことで、 離脱すると予測されたユーザに対して施策を行うことが可能に ※離脱の定義は、ゲームによって異なる
  • 73. Copyright 2015 CYBIRD Co., Ltd. 入力 モデル 出力 •現状のステータス •レベル、アバター所持数 等 •アクションログ •前日に使用したアイテム量、直近5日間のログイン頻度、継続日数 等
  • 74. Copyright 2015 CYBIRD Co., Ltd. モデル 出力入力 離脱と継続の2値分類であるためモデルにはSVM(※)を採用 ※教師データが離脱者よりも継続者のほうが圧倒的に多い不均衡データであるため、 アンダーサンプリングを行い、さらにグリッドサーチを用いてパラメータを最適化
  • 75. Copyright 2015 CYBIRD Co., Ltd. モデル 出力 ユーザ毎に継続・離脱フラグがつけられる (再現率(※)は80%) 入力 ※離脱を防ぐのが目的のため適合率ではなく再現率を使用
  • 76. Copyright 2015 CYBIRD Co., Ltd. Agenda 分析環境の概要 データ処理の詳細 現在の検証項目 まとめと今後の展望
  • 77. Copyright 2015 CYBIRD Co., Ltd. まとめ • 分析環境の概要 - S3、EMRを中心としたシステム - アドホック分析、Cynapse(モニタリングツール)で利用 • データ処理の詳細 - S3 ⇒ EMR ⇒ RDSの処理フロー - データの取得タイミングは1日もしくは1時間 - 社内で定めた独自フォーマットを利用 • 現在の検証項目 - Spark - 共通IDでの分析 - 機械学習
  • 78. Copyright 2015 CYBIRD Co., Ltd. 今後の展望 ・アナリストがアクセスしやすい環境の構築 ・Spark利用の常態化 ・機械学習のさらなる活用
  • 79. Copyright 2015 CYBIRD Co., Ltd. 発表は以上となりますが、 最後に人材募集のお知らせです。
  • 80. Copyright 2015 CYBIRD Co., Ltd. 多様なメンバーで構成されています アナリスト - マーケティング部門出身 - Webマーケティングに関する知識 - Excel,SPSS,R アナリスト - ゲームプランナ出身 - ゲーム運営への深い理解 - SQL,R,Excel アナリスト兼BI開発エンジニア - 博士号(工学)保有 - 機械学習,統計学,フロントエンド開発 - R,Python,JavaScript データ分析エンジニア - BtoBソリューション部門出身 - システム設計,Hadoop関連技術,DB管理 - Perl,PHP,Scala データ分析エンジニア - ゲーム開発専門学校出身 - Hadoop関連技術,DB管理,機械学習 - Python チームリーダ兼アナリスト - 経営企画出身(M&A,事業戦略策定,等) - 問題解決,ビジネス知識 - Excel,R,SPSS
  • 81. Copyright 2015 CYBIRD Co., Ltd. http://www.cybird.co.jp/recruit/ エントリーしてね! エンジニア募集中! (アナリストも!)
  • 82. Copyright 2015 CYBIRD Co., Ltd. ご清聴ありがとうございました