Contenu connexe
Similaire à データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ (20)
データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ
- 11. データ分析 =「未システム化データ活用」
• データ分析のシステム化を意思決定できない
• 意思決定のコスト(CEO/CFOは意思決定のコストを正確に把握しているのか?)
• 経営者の報酬
• システム投資予算超過を「データ分析」の人力化で補う
• 予算超過時に人が頑張ればできる部分はシステム化が見送られる
• システム企画の際に正しく費用(開発規模)を見積れない
• 「予測」「介入効果」につきまとう精度の問題。費用をかければ精度を上げることはできるが,どこまで精度を上
げるのにどの程度の費用が必要か?
• 意思決定案件だけ単独で見積ると費用が高額に(データマネジメント・データ戦略=後述)
• システム開発費用 + モデリング費用(データサイエンティストによる分析・研究稼動)
ITシステムによる支援の少ないデータ活用のことを「データ分析」と呼ぶようになった?
集計・可視化については比較的精度高い見積。予測・介入効果推定
での課題(JFPUG・定量化手法への今後の期待)
- 18. 自動化への「データ分析」の進出
• 計算機資源の大容量化・低廉化
• クラウド・大規模分散処理技術のコモディティ化(誰でも使える価格に下がってきた)
• 統計的機械学習技術のコモディティ化
• 標準的な手法・アルゴリズムのライブラリ化 (Python),クラウド事業者によるサービス化
• データ人材の増加
• 教育に力を入れる大学の増加
• 国外からの就労
• 大規模データセット + 統計的機械学習により
• 従来人手で実施していた自動化のためのルール作成を,機械学習エンジニアがモデリング
• 人手では不可能だった,多数のパラメータ・条件を扱うルールを機械学習エンジニアがモデリング
ITシステムによる自動化は特段新しいものではないが,なぜ「データ分析」が進出してきているのか
ルールベースの自動化はこれまでもあったが,以上の背景で今までできなかったことが可能に
- 19. データ活用プロジェクトでよくある課題
• データ活用でどのような課題を解決できるのか分からない
• システム開発経験 + 業務経験 + データサイエンスのスキル・経験 = 人材難
• データ活用が目的となっている
• 経営課題「発注業務の自動化」
• データ活用プロジェクト「需要予測」(発注業務を自動化しようとすれば需要予測だけではだめで,SCMや要員計画も含めて最適化する必要)
• 費用がかかりすぎる
• 「社内にある全てのデータを使いたい」「外部データを購入したい」
• 情報管理・個人情報保護
• 社外の第三者にデータを渡して分析してもらう・モデリングしてもらう際の制約
データマネジメント
の役割
- 28. Data Lake から DWH へ
Data Lake
(初期)
Data Lake
(全部入り)
DWH
(理想)
必要なデータから揃えていく
(優先順位づけ)
Raw データでよい
(機械学習エンジニア・データサ
イエンティストが自力で何とか
する)
SQL で問合せできればよい
(プログラムからアクセスでき
ればよい)
ただし,高負荷・高頻度のアク
セスには耐える必要
データ収集の待ち時間を無くし
てスピードアップ
Raw データでよい,が,構造
化・前処理されていて,テーブ
ルデータになっていると嬉しい
SQL で問合せできればよい,
が,高度な API があるとなお
よい
ただし,高負荷・高頻度のアク
セスには耐える必要
Data mart/cubu が用意されて
いて自分でつくる必要がない
データベースが最適化されてい
て,必要なデータを最速で取得
できる
データ品質が担保されており,
クレンジングなどの工程をス
キップできる
メタデータリポジトリが整備さ
れていて業務担当者に問い合わ
せなくてもデータを理解できる
- 29. Data Lake/DWH の課題
• ここに書いたことを実現しようとすると投資負担が重い
• 単一のデータ分析・活用プロジェクトでは採算がとれない
• 社内でデータ戦略を作り,データ活用プロジェクト・具体的なアク
ションを全て洗い出し。戦略パッケージとして投資判断
• もちろん,単一の自動化プロジェクトで収益が見込める場合もある
ので,最初のプロジェクトも重要
- 37. 仕事は RDBMS ではなく
Computing Engine (別のサーバー)で行う
DWH
ダッシュボード
帳票
BI 的な使い方 機械学習・データサイエンス
集計値だけが DWH の外に出て
Raw データはコピーされない
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー
成果物
- 39. GDPR, 個人情報保護法対応
• Data deletion
• 個人から要望があった場合に,その個人に関す
る全ての情報を確実に消去できる仕組みが必要
• 開示
• その個人に関して,どのような情報を収集し,
保有しているかを開示する義務
- 42. おわりに
• 経営観点でのデータ活用
• 意思決定か自動化か
• データ分析で何ができるのか?
• 集計/視覚化/予測/介入効果の推定 → 意思決定
• 予測/分類/ルール作成/数理最適化 → 自動化
• データ活用の前提条件としてのデータマネジメント
• BI/レポーティングのためのDWHとデータサイエンス・機械学習のためのDWH
• マスターデータマネジメント・メタデータマネジメント・data linage/ライフライクルマネジメント
• JDMC (https://japan-dmc.org/)