Contenu connexe
Similaire à ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?" (20)
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
- 16. Data Lake から DWH へ
Data Lake
(初期)
Data Lake
(全部入り)
DWH
(理想)
必要なデータから揃えていく
(優先順位づけ)
Raw データでよい
(機械学習エンジニア・データ
サイエンティストが自力で何と
かする)
SQL で問合せできればよい
(プログラムからアクセスでき
ればよい)
ただし,高負荷・高頻度のアク
セスには耐える必要
データ収集の待ち時間を無くし
てスピードアップ
Raw データでよい,が,構造
化・前処理されていて,テーブ
ルデータになっていると嬉し
い
SQL で問合せできればよい,
が,高度な API があるとなお
よい
ただし,高負荷・高頻度のアク
セスには耐える必要
Data mart/cubu が用意され
ていて自分でつくる必要がない
データベースが最適化されてい
て,必要なデータを最速で取
得できる
データ品質が担保されており,
クレンジングなどの工程をス
キップできる
メタデータリポジトリが整備
されていて業務担当者に問い合
わせなくてもデータを理解で
きる
- 17. システムのまとめ
• 全部入り DWH があると最高なのだが,重要なのは DWH よりデータ。Raw
データでもよいので data lake をつくって必要なデータを集めきる。
• BI/レポーティングとは異なり, 機械学習・データサイエンスのモデリング中
は大量のデータに高頻度でアクセスする。定型処理ではないので,事前に
cube などを作って負荷を抑えることができない。 DWH とは異なるアーキテ
クチャの採用が必要。
• 内部データだけではなく,外部データの取り込みにも対応する必要。
• 長期間のデータを低コストで保存・管理する仕組みが必要。
- 27. 仕事は RDBMS ではなく
Computing Engine (別のサーバー)で行う
DWH
ダッシュボード
帳票
BI 的な使い方 機械学習・データサイエンス
集計値だけが DWH の外に出て
Raw データはコピーされない
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー 成果物
- 29. GDPR, 個人情報保護法対応
• Data deletion
• 個人から要望があった場合に,その個人に関す
る全ての情報を確実に消去できる仕組みが必要
• 開示
• その個人に関して,どのような情報を収集し,
保有しているかを開示する義務