ベイズ入門

ベイズ入門

塩田圭

自己紹介
 氏名：塩田圭（しおだけ
い）
 学籍：慶應義塾大学大学院
理工学研究科開放環境科学
専攻修士2年
 所属：同櫻井研究室（島田
君と同じ）
 研究テーマ：機械学習を利用
した外国為替相場の変動に対
する早期警戒手法の提案
 趣味：旅行、散歩、コーヒー

これまで学んできた統計学
 母集団の一部分である
サンプルを調べて、母集
団の性質を推定する方
法論
母集団
 （大量の）無作為標本が
対象かつサンプルは変
化するもの
母平均
 サンプルで求めた統計母分散
量（変動するもの）などなど
標本平均
で母集団の統計量サンプル標本分散
（ただ一つ）を推定などなど

ベイズ統計学
母数サンプル

母数サンプル母集団

母数サンプル

 統計学の一流派
 未知母数は確率的に変化する
 サンプルは与えられたものとして、そのとき未知母数が
どのような値を取るかを推定する
 一回限りの事象にも適応可能

ベイズ統計学の特徴、長所

特徴長所
 ベイズの定理での操作の一貫性
 必ずベイズの定理を使う
 モデルさえ決めればすべての情
 主観確率報が利用できる
 データ以外の情報も可能
 事前情報の利用  漠然とした事前分布も可能
 未知量は確率的に変動  未知量について直接確率を求め
られる
 観測されたものは事実と  データや情報の蓄積を事前に利
して固定用
 かく乱母数の処理が容易
 推測は条件付き  母数に制約があってもよい
 例外処理は認めない  擬でない事前分布のもとでは常
に許容される

キーワード＆概念図
損失関数

最
小
化
尤度
主観確率
事後分布

事前分布

ベイズの定理

確率の考え方
 確率
 確からしさの尺度
 確率の公理を満たしていれば解釈は問題ではない
 客観説（頻度説）
 実験を行って、あることが起こった回数の％（相対頻度）を求
めたもの
 非常に多くの回数の実験が必要（無限回の極限として定義さ
れる）
 主観説
 ある人の確信の度合いを数値化したもの
 人によって異なり、比較不能
 実験できない事象についても適用可能

客観確率と主観確率

客観確率主観確率

 コイントス  コイントス
 投げた回数：１０００  ある人：表も裏も同等に出
 表の回数：５１３る
0.523

 投げた回数：１００００  別の人：表の方が出やす
 表の回数：４９３５い
0.4935
 その極限として  人によって違う
0.5
ベイス統計では主観確率を採用

条件付き確率
 ある事象Cが与えられたときに、事象Aが起こる確率：

 くだけた説明をすると、
ある出来事が起きた、あるいは、ある情報が分かっているときに、
ある事象が発生する確率

 さいころの例：
 ２が出る確率：
 偶数が出る確率：
 偶数の目が出たと分かっているときに、それが２である確率：

ベイズの定理
 あるデータDが与えられたとき、
ある仮説Hの確からしさの変化を
表わしたもの

50%
 もともと仮説Hの確からしさは決
裏ばかり。。
められるが、新しい情報データD
が得られたときには仮説Hの確
からしさは変更されるべきである
 新しく得られたヒントを使って、状
況認識をどのように更新するか、
を示している 30%

事前確率
 例：がん検診
 ある人ががん検診で「疑いあり」と言われてしまった！！

がん検診を受ける前と後で、ある人ががんである確率がどのように変わるか？

 検査前：
 その人ががんであるかどうかについての情報は何もない

 世間一般で、ある人ががんである確率を採用

尤度
 がん検診の精度についてのモデル
 対象：健康な人、がんの人
 出力：＋（陽性）、－（陰性）
 健康な人を検査をしたときの結果：

 がんの人を検査をしたときの結果：

 今回は＋の尤度だけ注目すればいいのだろうか？

確率と尤度
 確率（和が１になる）
 まだ結果が分かっていないときに、ある事象が実現する確か
らしさを表わしたもの

 まだ検査をしていない健康な人に対して、＋と判断することの
確からしさ
 尤度（和が１になるとは限らない＝確率ではない）
 結果が分かっているときに、その結果を引き起こす条件の
もっともらしさを表わしたもの

 検査結果が＋と分かったときに、検査を受けた人が健康であ
るとすることのもっともらしさ

全確率の公式
 事象Aの確率を分割して求める
 をもれなく、だぶりなく網羅する


事象
同時に起こり得ない事象（背反事
B1
A
B2 B3

象）を合わせた確率は足し算する
（和の法則）

 ポジティブになる確率を求める

事後確率
 ベイズの定理を使って計算

 事前確率と事後確率の比較
3% 7%

 大したことはない。しかし、事前確率がもっと高かったら？

統計的決定
 ベイズの定理を用いて、新しい情報を組み込みながら現
状把握することができるようになった
 がん検診で＋が出たとき、
 健康である確率：97% 93%
 がんである確率：3% 7%
 分かるのはあくまで確率分布（可能性）に過ぎない
 次にどうするべきかは教えてくれない

 どんな方策でも自由に選択することができる
 統計的に合理的な決定方法とは？

損失関数
 合理的な決定（推定）
 ある基準を決めて、複数の方策の中から一つを選ぶ
 最良の選択とそれ以外の違い：無駄、損、失敗、正確さ
 推定の誤りに対してペナルティを設ける＝損失関数
 損失関数を最小化するものを選択すればよい
絶対損失平方損失 0-1型単純損失

期待損失最小化
 損失関数の値は変動する
 得られたデータによって
 確率的に変動する母数や仮説によって
 平均して損失関数を最小化するものを選ぶべきだ（期待
損失最小化）
 データに対して最適な決定をする関数
 データについて平均：
 確率変動する母数についても平均:

ここを最小化するdを求める

例題
 重量比の異なる2枚のコイン
 偏り大、小

 一枚だけテーブルに置いてある
 何回か投げた結果を見て、どちらのコインか推定する
 試行一回当たり回投げる
 データとしては、その試行での表の回数( 回)

モデル
 それぞれのコインの確率分布
コイン1 表裏コイン2 表裏

確率 50% 50% 確率 25% 75%

 仮説
 ：コイン1である
 ：コイン2である
 コイントスのモデル（二項分布を仮定）

期待損失最小化による判別ルールの導出
 損失関数：損失関数仮説１を採用仮説２を採用
（コイン1）（コイン2）
 ０－１型
本当はコイン1 0 1
 当たり・はずれ
本当はコイン2 1 0
 期待損失

 判別ルール
 期待損失を比較して、小さい方を採用（期待損失最小化）

一回目の試行
 試行の結果  事後確率
 :表、表、裏
 事前分布
 どちらのコインが選ばれ
たか情報がないため、同
程度の確からしさと仮定
 尤度比の比較
 尤度

二回目の試行
 :裏、裏、裏
 事前分布
 一回目の試行での事
後確率を利用

 尤度

事前情報あり
 :表、表、裏
 事前分布
 どうも偏りの大きいコインら
しいという噂がある

 尤度

まとめ
 ベイズ統計
 未知母数はすべて確率変動すると仮定
 主観確率を採用
 ベイズの定理による確率更新によって、状況の変化を表現
 事前分布、尤度の設定の仕方によって、結果が大きく異なる
 モデル設定の自由度の高さと情報更新の表現力の高さが評
価されてデータ分析や自動判別等に利用されている。
 統計的決定
 取りうる選択肢と最もよい決定との差に課すペナルティを損失
関数で表現
 期待損失を最小化する選択が最適とする
 損失関数も自由に設定でき、やり方によって結果が異なる

ベイズ入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ベイズ入門

Similar to ベイズ入門 (20)

More from Zansa

More from Zansa (12)

Recently uploaded

Recently uploaded (20)

ベイズ入門