SlideShare une entreprise Scribd logo
1  sur  42
Télécharger pour lire hors ligne
データアナリシスを
もっと知ろう!
〜データ活用型の業務形態へ〜
野田隆広 - JDMC 特別研究員 - 2023年2月15日 - JFPUG “語らいの夕べ"
本日話題にする「データアナリシス」の範囲
企業経営観点の
データ分析・手法
(会社・事業・商売)
含む
芸術・政策・医療・教育など
企業経営観点から外れる
データ分析・手法
2022年の話題
Stable Di
ff
usion (text-to-image)
Chat GPT
自動運転・ドローン
含まない
「データ分析」の生息域
会社・経営
目的
利益
のために
を産み続ける
方針
実行
を決めて
する
目的: 最近は「パーパス」と呼ばれたりします。(参考)名和高史「パーパス経営: 30年先の視点から現在を捉える」東洋経済新報社,2021.
意思決定
自動化
データ分析
意思決定
意思決定とは?
方針 意思決定
自動化
データ分析
不完全,かつ,
限られた情報をもとに,
経営者が即断・即決
=経営者の役割
データ分析が無い場合でも,
経営者は即断・即決しなければならない
→ データ分析は経営に必須ではない
意思決定のパターン
選択
数量
例.
柔軟剤の新商品を発売したい。これまでより,柔軟効果を高めた新商品を開発
するのか,それとも,防臭効果を追加した新商品を開発するのか?
例.
来年度の主力商品の生産・販売個数を決めたい。今年並みの数量とするのか,
それとも,増産・拡販するのか。増産するとすれば300万個か450万個か?
意思決定でデータ分析が登場する理由
• 意思決定を加速したい(経営者が即決できない)
• 意思決定できない(経営者としての資質,権限の移譲)
• 意思決定精度の向上(誤りを減らす。リスクマネジメント)
• データ分析の目的化(なんとなく流行りだから)
意思決定におけるデータ分析のパターン
集計
視覚化
介入効果
予測
帳票・レポーティング
ダッシュボード・BI
例. 前日の売上・客数をエリア別に集計する。売上 top 20レポート。在庫レポート。財務分析
例. 前日の売上が予算未達であれば赤色で警告。欠品が生じているエリアを地図で表示
例. 消臭機能をもつ柔軟剤を市場に投入した際の初年度の売上予測
例. 新規顧客獲得キャンペーンでクーポンを配布した場合の3年度累計の収益改善効果
???
???
意思決定におけるデータ分析のパターン
集計
視覚化
介入効果
予測
帳票・レポーティング
ダッシュボード・BI
???
???
}
}
かなりの企業で活用されている
相当程度 IT システムで支援
活用していない企業が多い
人力で頑張っている
人手で頑張る「データ分析」活用
集計
視覚化
介入効果
予測
帳票・レポーティング
ダッシュボード・BI
???
???
Excel で毎週つくる定型レポート
PowerPoint でつくるダッシュボード
予測モデルではなくフェルミ推定
データサインティストが頑張る
データ分析をしてモデルをつくったのではなく,勘と経験でつくっ
た秘伝のExcelファイルで数字をつくっている。
社内会議のたびに,PowerPoint で毎回それっぽいダッシュボード
を描いている。
毎回同じレイアウトで表をつくっているが,この表を出力できる社
内システムがなく,データをかき集めて作る。
データ分析 =「未システム化データ活用」
• データ分析のシステム化を意思決定できない
• 意思決定のコスト(CEO/CFOは意思決定のコストを正確に把握しているのか?)
• 経営者の報酬
• システム投資予算超過を「データ分析」の人力化で補う
• 予算超過時に人が頑張ればできる部分はシステム化が見送られる
• システム企画の際に正しく費用(開発規模)を見積れない
• 「予測」「介入効果」につきまとう精度の問題。費用をかければ精度を上げることはできるが,どこまで精度を上
げるのにどの程度の費用が必要か?
• 意思決定案件だけ単独で見積ると費用が高額に(データマネジメント・データ戦略=後述)
• システム開発費用 + モデリング費用(データサイエンティストによる分析・研究稼動)
ITシステムによる支援の少ないデータ活用のことを「データ分析」と呼ぶようになった?
集計・可視化については比較的精度高い見積。予測・介入効果推定
での課題(JFPUG・定量化手法への今後の期待)
意思決定の事例③:
デジタルマーケティング
Web上の行動データをビッグデータ
として利用できるので,データ分析
と相性が良い
最近はプライバシー強化の流れで制
約が大きくなってきている
広告媒体の選択
ターゲティング広告
広告媒体毎に介入効果を推定。どの媒体に出稿するのが
最適か,媒体の貢献度をもとに意思決定
サイトの閲覧履歴・サービスの利用履歴に応じて,最も
効果の高いと推定される顧客に広告を出稿
意思決定に対してどのような手法があるのか
(データ分析でできることの例)
回帰
数量を予測する。過去データ(表形式になっているものが望ましい)から予測モデルを作成。予
測モデルに新しいパラメータを入力することで,未知の事象の数値を予測する。過去データに存
在しない事象,モデル作成時に存在しないパラメータが影響すると予測が外れることがある。
例. 売上予測(プロ野球の優勝記念セール)
A/Bテスト
ある施策を実施 (A) した際に,その施策を実施しないグループ (B) を意図的に用意。A/B 両グルー
プを比較することで,その施策の効果があったのかを推定する。A/Bテストはデータサイエンティ
ストにとって設計・実施が難しく,意外と正しくテストできている例は少ない。
例. お得意様へのノベルティ配布により客単価・買い上げ率は上昇したのか?
介入効果推定
ある施策を実施した際に,その施策を実施しなかった(と想定した場合)との差がどの程度あっ
たのか介入効果として推定する。計量経済学で開発されてきた手法で,ここ数年ライブラリが整
備されてきてデータサイエンティストが使えるようになってきた。
例. マーケティングキャンペーンを実施したところ実施前週と比較して,売上が15%上昇した。
マーケティングキャンペーンの効果はあったといえるか? あったとすれば何%に相当する効果か?
自動化
自動化とは?
実行
意思決定
自動化
データ分析
人手で行なっていた作業を
ITシステムで代替(自動化)
あるいは,
一部をシステム化(省力化)
自動化の効果(データ分析によって得られる)
• 作業水準の向上
• 担当者毎にバラツキのあった水準を高い水準で統一
• リードタイム短縮
• 人手で数日かかっていた作業を一瞬で完了
• 働き方改革
• 繰り返し作業からの解放。生産性の高い業務により多くの時間を使えるように
• コスト削減
• 削減できた人件費を新たな領域に投資
自動化に対してどのような手法があるのか
(データ分析でできることの例)
回帰
(意思決定で使える手法と同じ)
分類
ある入力(表形式データ,メディア(動画・画像・音声),文章)に対して,予め用意しておいた
複数の分類先のどれに該当するのかを識別して分類するモデルを開発する。入力=正解の組み合わ
せ(学習データ)を大量に用意し,機械学習モデルに学習させる。
例. 災害で被害に遭った家屋の写真を読み込み,全壊・半壊・被害なし・その他に分類
ルール作成
決定木という手法を使う。表形式の入力(以下説明変数)に対して,分類するモデルを樹形状の
モデルとして作成。作成したモデルはルールベースのモデルとして自動化システムに組込み
例. どの顧客にダイレクトメールを送るのか?, 簡易な売上予測デル
数理最適化
過去データを元に統計的にモデルを作成する上記の方法とは異なり,データ・ルールが決まって
いる制約の元で,最適(に近い)解を求める手法。
例. 病棟看護師のシフト作成(看護師配置基準・休暇希望・年収の壁・労働基準法)。複数工場で
の生産計画(どの工場で何を生産すると,最も安く生産でき早く顧客に届けることができか?)
自動化への「データ分析」の進出
• 計算機資源の大容量化・低廉化
• クラウド・大規模分散処理技術のコモディティ化(誰でも使える価格に下がってきた)
• 統計的機械学習技術のコモディティ化
• 標準的な手法・アルゴリズムのライブラリ化 (Python),クラウド事業者によるサービス化
• データ人材の増加
• 教育に力を入れる大学の増加
• 国外からの就労
• 大規模データセット + 統計的機械学習により
• 従来人手で実施していた自動化のためのルール作成を,機械学習エンジニアがモデリング
• 人手では不可能だった,多数のパラメータ・条件を扱うルールを機械学習エンジニアがモデリング
ITシステムによる自動化は特段新しいものではないが,なぜ「データ分析」が進出してきているのか
ルールベースの自動化はこれまでもあったが,以上の背景で今までできなかったことが可能に
データ活用プロジェクトでよくある課題
• データ活用でどのような課題を解決できるのか分からない
• システム開発経験 + 業務経験 + データサイエンスのスキル・経験 = 人材難
• データ活用が目的となっている
• 経営課題「発注業務の自動化」
• データ活用プロジェクト「需要予測」(発注業務を自動化しようとすれば需要予測だけではだめで,SCMや要員計画も含めて最適化する必要)
• 費用がかかりすぎる
• 「社内にある全てのデータを使いたい」「外部データを購入したい」
• 情報管理・個人情報保護
• 社外の第三者にデータを渡して分析してもらう・モデリングしてもらう際の制約
データマネジメント
の役割
データマネジメントについて
データ分析を最大限活用するために
必要なこと
回帰
A/Bテスト
介入効果推定
分類
ルール作成
数理最適化
意思決定 自動化
(数理最適化を除き)
どれも過去データ(これまでの実績値 + 過去につくった予測・計画)を利用
例)あなたはドラッグストアの仕入れ担当者,マスクの売上を予測したい
問. 過去何日間の販売データがあればよいか?
1) 90 日間
2) 360 日間
3) 1440 日間
機械学習・データサイエンスに必要な
データの種類
• 実績値(例: 販売実績,在庫実績)
• 計画値(例: 売上目標,展開店舗数)
• マーケティング計画(広告,チラシ,POP)
• 外部環境(天候,ニュース,事件)
DWH DWH
データマネジメント
データサイエンティスト
機械学習エンジニア
BI/レポーティング用に,
既に DWH が整備されている
「データウェアハウス
ありますか?」
その DWH 全部入りですか?
もっと重要なのは
1) データ一箇所に集っていること
2) インタフェースが提供されていること
3) 高頻度のアクセス・高負荷に耐えること
Data Lake
財務会計
販売 (POS)
在庫
物流
マーケティング
顧客
店舗
Web
アプリ
天候
イベント
経済指標
SQL API
高頻度・大量データへのアクセス
Data Lake から DWH へ
Data Lake
(初期)
Data Lake
(全部入り)
DWH
(理想)
必要なデータから揃えていく
(優先順位づけ)
Raw データでよい
(機械学習エンジニア・データサ
イエンティストが自力で何とか
する)
SQL で問合せできればよい
(プログラムからアクセスでき
ればよい)
ただし,高負荷・高頻度のアク
セスには耐える必要
データ収集の待ち時間を無くし
てスピードアップ
Raw データでよい,が,構造
化・前処理されていて,テーブ
ルデータになっていると嬉しい
SQL で問合せできればよい,
が,高度な API があるとなお
よい
ただし,高負荷・高頻度のアク
セスには耐える必要
Data mart/cubu が用意されて
いて自分でつくる必要がない
データベースが最適化されてい
て,必要なデータを最速で取得
できる
データ品質が担保されており,
クレンジングなどの工程をス
キップできる
メタデータリポジトリが整備さ
れていて業務担当者に問い合わ
せなくてもデータを理解できる
Data Lake/DWH の課題
• ここに書いたことを実現しようとすると投資負担が重い
• 単一のデータ分析・活用プロジェクトでは採算がとれない
• 社内でデータ戦略を作り,データ活用プロジェクト・具体的なアク
ションを全て洗い出し。戦略パッケージとして投資判断
• もちろん,単一の自動化プロジェクトで収益が見込める場合もある
ので,最初のプロジェクトも重要
機械学習エンジニア
データサイエンティストの
立場から,
データマネジメントでお願いしたいこと
データマネジメントの有無,
その仕事の品質が,機械学習・データサイエンスの成果の質,
アウトプットまでの時間に影響する。
すなわち,費用と便益に影響する。
例)One-to-one
マーケティング
ある商品の DM を送るべき人を見つけよう。
北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
顧客
販売
商品
過去5年分
例)One-to-one
マーケティング
ある商品の DM を送るべき人を見つけよう。
北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
東京都在住
1年前
顧客
販売
商品
過去の任意の時点を
今日再現できるデータ
マスターデータマネジメントが最重要
• タイムマシン
• エンコーディングの変更 北海道在住
30 代女性
過去 28-42 日
で類似購入履歴あり
顧客
販売
商品
Data Lake はあるが,。。。
財務会計
販売 (POS)
在庫
物流
マーケティン
グ
顧客
店舗
Web
アプリ
天候
イベント
経済指標
SQL API
高頻度・大量データへのアクセス
よくある言い訳
• どこに欲しいデータがあるか分からない
• コードの定義が分からない
• データをどこまで信用してよいのか分からな
い。汚いデータでもよいのだが,さすがに全て
の項目を目視で確認していられない。
• どのようにデータが作られているか分からない
機械学習エンジニア,
データサイエンティスト向けの
セルフサービス
メタデータマネジメントが重要
• どのようにデータが生成されるか
• データ品質の定義
• ビジネスプロセス
• 検索可能なメタデータリポジトリ
仕事は RDBMS ではなく
Computing Engine (別のサーバー)で行う
DWH
ダッシュボード
帳票
BI 的な使い方 機械学習・データサイエンス
集計値だけが DWH の外に出て
Raw データはコピーされない
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー
成果物
これはとてもこわい使い方
GDPR, 個人情報保護法対応
• Data deletion
• 個人から要望があった場合に,その個人に関す
る全ての情報を確実に消去できる仕組みが必要
• 開示
• その個人に関して,どのような情報を収集し,
保有しているかを開示する義務
Data lake からコピーされて外に出たデー
タについて追跡する必要
機械学習・データサイエンス
Data Lake から raw データが
外の環境(別サーバ)にコピーされる
サーバー
成果物
Data Linage の
仕組みを data lake
だけでなく,
機械学習・データサイエンスの
実務環境にも導入する必要
データライフサイクルマネジメント
の仕組みを導入して,確実に
不要なデータが消去される仕組み
データマネジメントまとめ
• マスターデータマネジメント
• 機械学習・データサイエンスは「過去」のデータを利用するが,これは「過去の任意の時点
を現在基準で再現する」という意味。
• メタデータマネジメント
• 機械学習エンジニア・データサイエンティストが自力でデータに関する疑問を解消できるよ
うにする
• そもそも,疑問が起きないようにして,彼らの業務をスピードアップする
• Data Linage/データライフサイクルマネジメント
• GDPR, 個人情報保護対応
• Raw データを扱う機械学習・データサイエンス業務は,個人情報が DWH/Data lake 外にコ
ピーされる。これを適切に管理する仕組み
おわりに
• 経営観点でのデータ活用
• 意思決定か自動化か
• データ分析で何ができるのか?
• 集計/視覚化/予測/介入効果の推定 → 意思決定
• 予測/分類/ルール作成/数理最適化 → 自動化
• データ活用の前提条件としてのデータマネジメント
• BI/レポーティングのためのDWHとデータサイエンス・機械学習のためのDWH
• マスターデータマネジメント・メタデータマネジメント・data linage/ライフライクルマネジメント
• JDMC (https://japan-dmc.org/)

Contenu connexe

Similaire à データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ

ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
Takahiro Noda
 
Markezine チラ見せ用
Markezine チラ見せ用Markezine チラ見せ用
Markezine チラ見せ用
Shinya Nakazawa
 

Similaire à データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ (20)

KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!
 
データ分析基盤について
データ分析基盤についてデータ分析基盤について
データ分析基盤について
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
 
国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう! 国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう!
 
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
 
DXの推進において企業内に求められる人材やデジタル人材の育て方
DXの推進において企業内に求められる人材やデジタル人材の育て方DXの推進において企業内に求められる人材やデジタル人材の育て方
DXの推進において企業内に求められる人材やデジタル人材の育て方
 
Markezine チラ見せ用
Markezine チラ見せ用Markezine チラ見せ用
Markezine チラ見せ用
 
高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
衆議院経済産業委員会での参考人発言レジュメ
衆議院経済産業委員会での参考人発言レジュメ衆議院経済産業委員会での参考人発言レジュメ
衆議院経済産業委員会での参考人発言レジュメ
 
datatech-jp Casual Talks #5_データ基盤の立ち位置を考えるのに チームトポロジーの概念を活用した話
datatech-jp Casual Talks #5_データ基盤の立ち位置を考えるのに チームトポロジーの概念を活用した話datatech-jp Casual Talks #5_データ基盤の立ち位置を考えるのに チームトポロジーの概念を活用した話
datatech-jp Casual Talks #5_データ基盤の立ち位置を考えるのに チームトポロジーの概念を活用した話
 
Department store CardBiz Strategy2018 Sample
Department store CardBiz Strategy2018 SampleDepartment store CardBiz Strategy2018 Sample
Department store CardBiz Strategy2018 Sample
 
日本語:近年のデータベース技術がもたらすビジネス収益 --Google-slides
日本語:近年のデータベース技術がもたらすビジネス収益 --Google-slides日本語:近年のデータベース技術がもたらすビジネス収益 --Google-slides
日本語:近年のデータベース技術がもたらすビジネス収益 --Google-slides
 
ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方
 
Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
もっとデータ可視化をカジュアルに! OSSプロジェクト「E2D3」
もっとデータ可視化をカジュアルに! OSSプロジェクト「E2D3」もっとデータ可視化をカジュアルに! OSSプロジェクト「E2D3」
もっとデータ可視化をカジュアルに! OSSプロジェクト「E2D3」
 
【マーケティング・テクノロジーフェア 大阪 2023】 データから正しい意思決定を行うために 〜全社横断で実施したデータ活用プロジェクトの取...
【マーケティング・テクノロジーフェア 大阪 2023】 データから正しい意思決定を行うために 〜全社横断で実施したデータ活用プロジェクトの取...【マーケティング・テクノロジーフェア 大阪 2023】 データから正しい意思決定を行うために 〜全社横断で実施したデータ活用プロジェクトの取...
【マーケティング・テクノロジーフェア 大阪 2023】 データから正しい意思決定を行うために 〜全社横断で実施したデータ活用プロジェクトの取...
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 

データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ