SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
ビジネス価値を産み出す
“攻めのデータマネジメント”
の姿とは?
野田 隆広
JDMC 特別研究員
価値を産み出す,攻めの
データマネジメント実践手法
野田 隆広
JDMC 特別研究員
本チュートリアルについて
「データはあるのに価値を産み出せていない」。多くの企業に共通するこの問題
は、単にデータサイエンティストを雇えば解決するのでしょうか。あるいはコモ
ディティ化しつつある機械学習や AI を活用すればなんとかなるのでしょうか?も
しかすると、真の問題は適切なデータマネジメントを実施できていないことにある
のかもしれません。本講演では、本来業務にプラスワンの付加価値をもたらす機械
学習や AI, データサイエンスなどの活用および実践に向けて、システム・データ・
組織の観点から、どのような準備が必要かを解説します。IT チームとビジネスチー
ムの双方がデータに関する視点を共有し、ワンチームとして価値創出するきっかけ
となることを目的としています。
受講対象者:
①データマネジメントの基礎を習得した上で、ビジネス貢献を目指す中上級データ
エンジニア
②機械学習・AI 活用を考えている企業のデータ戦略担当者
③データマネジメント組織のマネージャー
御社,データマネジメント
できていますか?
→ 「できている」はず
年間・中期の経営計画で設定した
目標を達成できているのであれば,
データマネジメント「できている」
→ 経営陣へのレポーティングが遅い
→ システム開発に時間と費用がかかり過ぎる
このチュートリアルで
議論したいこと
オペレーション
機械学習
データサイエンス
AI
のためのデータマネジメント のためのデータマネジメント
データマネジメントが
「できている」組織に追加で必要なポイント
• システム
• データ
• 組織
システムのはなし
データ全部入りの DWH
DWH DWH
データマネジメント
データサイエンティスト
機械学習エンジニア
BI/レポーティング用に,
既に DWH が整備されている
「データウェアハウス
ありますか?」
機械学習で
できること
データサイエンスで
できること
回帰
分類
因果
現象を
説明
数値を予測する
例) 来月の販売数量を当てる
どちらか(何か)を予測する
例) 画像に写っている商品を当てる
結果→原因を見つける
例) TVCM は売上増に何%寄与したか?
数理モデルを見つける
例) 価格を10%下げると販売数量は?
複合
タスク
複合
タスク
人間の代わりに何かする
例) 自動運転,チャットボット
見えないルールを見つける
例) 利益を最大化する戦略づくり
どれも,過去のデータ(これまでの実績値+過去につくった予測・計画)
を利用する
例)あなたはドラッグストアの仕入れ
担当者,マスクの売上を予測したい
問. 過去何日間の販売データがあればよいか?
1) 90 日間
2) 360 日間
3) 1440 日間
機械学習・データサイエンスに必要な
データの種類
• 実績値(例: 販売実績,在庫実績)
• 計画値(例: 売上目標,展開店舗数)
• マーケティング計画(広告,チラシ,POP)
• 外部環境(天候,ニュース,事件)
その DWH 全部入りですか?
もっと重要なのは
1) データ一箇所に集っていること
2) インタフェースが提供されていること
3) 高頻度のアクセス・高負荷に耐えること
Data Lake
財務会計
販売 (POS)
在庫
物流
マーケティング
顧客
店舗
Web
アプリ
天候
イベント
経済指標
SQL API
高頻度・大量データへのアクセス
Data Lake から DWH へ
Data Lake
(初期)
Data Lake
(全部入り)
DWH
(理想)
必要なデータから揃えていく
(優先順位づけ)
Raw データでよい
(機械学習エンジニア・データ
サイエンティストが自力で何と
かする)
SQL で問合せできればよい
(プログラムからアクセスでき
ればよい)
ただし,高負荷・高頻度のアク
セスには耐える必要
データ収集の待ち時間を無くし
てスピードアップ
Raw データでよい,が,構造
化・前処理されていて,テーブ
ルデータになっていると嬉し
い
SQL で問合せできればよい,
が,高度な API があるとなお
よい
ただし,高負荷・高頻度のアク
セスには耐える必要
Data mart/cubu が用意され
ていて自分でつくる必要がない
データベースが最適化されてい
て,必要なデータを最速で取
得できる
データ品質が担保されており,
クレンジングなどの工程をス
キップできる
メタデータリポジトリが整備
されていて業務担当者に問い合
わせなくてもデータを理解で
きる
システムのまとめ
• 全部入り DWH があると最高なのだが,重要なのは DWH よりデータ。Raw
データでもよいので data lake をつくって必要なデータを集めきる。
• BI/レポーティングとは異なり, 機械学習・データサイエンスのモデリング中
は大量のデータに高頻度でアクセスする。定型処理ではないので,事前に
cube などを作って負荷を抑えることができない。 DWH とは異なるアーキテ
クチャの採用が必要。
• 内部データだけではなく,外部データの取り込みにも対応する必要。
• 長期間のデータを低コストで保存・管理する仕組みが必要。
データのはなし
機械学習エンジニア
データサイエンティストの
立場から,
データマネジメントにお願いしたいこと
データマネジメントの有無,
その仕事の品質が,機械学習・データサイエンスの成果の質,
アウトプットまでの時間に影響する。
例)One-to-one
マーケティング
ある商品の DM を送るべき人を見つけよう。
北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
顧客
販売
商品
過去5年分
例)One-to-one
マーケティング
ある商品の DM を送るべき人を見つけよう。
北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
東京都在住
1年前
顧客
販売
商品
例)One-to-one
マーケティング
ある商品の DM を送るべき人を見つけよう。
北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
モデルチェンジ
一年前
顧客
販売
商品
過去の任意の時点を
今日再現できるデータ
マスターデータマネジメントが最重要
• タイムマシン
• エンコーディングの変更 北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
顧客
販売
商品
Data Lake はあるが,。。。
財務会計
販売 (POS)
在庫
物流
マーケティング
顧客
店舗
Web
アプリ
天候
イベント
経済指標
SQL API
高頻度・大量データへのアクセス
よくある言い訳
• どこに欲しいデータがあるか分からない
• コードの定義が分からない
• データをどこまで信用してよいのか分からな
い。汚いデータでもよいのだが,さすがに全て
の項目を目視で確認していられない。
• どのようにデータが作られているか分からない
機械学習エンジニア,
データサイエンティスト向けの
セルフサービス
メタデータマネジメントが重要
• どのようにデータが生成されるか
• データ品質の定義
• ビジネスプロセス
• 検索可能なメタデータリポジトリ
仕事は RDBMS ではなく
Computing Engine (別のサーバー)で行う
DWH
ダッシュボード
帳票
BI 的な使い方 機械学習・データサイエンス
集計値だけが DWH の外に出て
Raw データはコピーされない
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー 成果物
これはとてもこわい使い方
GDPR, 個人情報保護法対応
• Data deletion
• 個人から要望があった場合に,その個人に関す
る全ての情報を確実に消去できる仕組みが必要
• 開示
• その個人に関して,どのような情報を収集し,
保有しているかを開示する義務
Data lake からコピーされて外に出たデー
タについて追跡する必要
機械学習・データサイエンス
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー 成果物
Data Linage の
仕組みを data lake
だけでなく,
機械学習・データサイエンスの
実務環境にも導入する必要
データライフサイクルマネジメント
の仕組みを導入して,確実に
不要なデータが消去される仕組み
データマネジメントまとめ
• マスターデータマネジメント
• 機械学習・データサイエンスは「過去」のデータを利用するが,これは「過去の任意の時点
を現在基準で再現する」という意味。
• メタデータマネジメント
• 機械学習エンジニア・データサイエンティストが自力でデータに関する疑問を解消できるよ
うにする
• そもそも,疑問が起きないようにして,彼らの業務をスピードアップする
• Data Linage/データライフサイクルマネジメント
• GDPR, 個人情報保護対応
• Raw データを扱う機械学習・データサイエンス業務は,個人情報が DWH/Data lake 外にコ
ピーされる。これを適切に管理する仕組み
組織のはなし
正解はないです
組織がもつべき
機能のはなし
Function
必要な機能を
どのように人員に
割り当てるかという
組織構造のはなし
Organization
データ観点だけで
正解を出せない
データ観点だけの
必要な機能
機械学習エンジニア
データサイエンティスト
観点の理想のデータ組織
データの品質に
責任をもつ
データを使える
状態にする
データを活用する
会社としての目標を明示する
データガバナンス
データ
エンジニアリング
BI
レポーティング
機械学習
データサイエンス
経営企画・戦略 データを活用したアクションの決定
データによりどれだけビジネス便益を得るのか明示
アクションを実行,
目標を達成する上
で,データのあるべ
き姿を定義
各部門の業務,シス
テムの設計・実装に
口を出して徹底
データガバナンスで
定義したあるべき姿
で,活用側にデータ
を提供
データパイプライン,
インフラの企画・開
発・保守運用
組織のまとめ
• 組織構造には正解がないが,機械学習・データサイエンスを推進する上
で必要な機能はある
• 機械学習エンジニア・データサイエンティス目線で必要な 4 つの機能
• 経営企画・戦略
• データガバナンス
• データエンジニアリング
• データ活用
• BI/レポーティング,機械学習,データサイエンス

Contenu connexe

Similaire à ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"

Similaire à ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?" (20)

Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112
 
なぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのかなぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのか
 
高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)
 
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
 
Tableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とはTableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とは
 
Introduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement DevelopmentIntroduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement Development
 
デジタル戦略とAWS
デジタル戦略とAWSデジタル戦略とAWS
デジタル戦略とAWS
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
 
データの大海原で企業が成功するには
データの大海原で企業が成功するにはデータの大海原で企業が成功するには
データの大海原で企業が成功するには
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
ITガバナンス強化
ITガバナンス強化ITガバナンス強化
ITガバナンス強化
 
経済を理解する数字の見方、上司が見たい数字の見せ方
経済を理解する数字の見方、上司が見たい数字の見せ方経済を理解する数字の見方、上司が見たい数字の見せ方
経済を理解する数字の見方、上司が見たい数字の見せ方
 
データマネジメント2014
データマネジメント2014データマネジメント2014
データマネジメント2014
 
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
 
エクセルスキル活用型Webアプリケーション作成ツール「Forguncy」のご紹介
エクセルスキル活用型Webアプリケーション作成ツール「Forguncy」のご紹介エクセルスキル活用型Webアプリケーション作成ツール「Forguncy」のご紹介
エクセルスキル活用型Webアプリケーション作成ツール「Forguncy」のご紹介
 
ビッグデータ
ビッグデータビッグデータ
ビッグデータ
 
アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
Crewja info
Crewja infoCrewja info
Crewja info
 

ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"