Soumettre la recherche
Mettre en ligne
距離と分類の話
•
11 j'aime
•
12,997 vues
考司 小杉
Suivre
Kazutan.R#2(Hijiyama.R#2) on 2015.05.23
Lire moins
Lire la suite
Formation
Signaler
Partager
Signaler
Partager
1 sur 41
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
距離まとめられませんでした
距離まとめられませんでした
Haruka Ozaki
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
Recommandé
距離まとめられませんでした
距離まとめられませんでした
Haruka Ozaki
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
tanutarou
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
Rで架空データの発生
Rで架空データの発生
Makoto Hirakawa
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
Stanの便利な事後処理関数
Stanの便利な事後処理関数
daiki hojo
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
スペクトラル・クラスタリング
スペクトラル・クラスタリング
Akira Miyazawa
PRML輪読#3
PRML輪読#3
matsuolab
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
第5回パターン認識勉強会
第5回パターン認識勉強会
Yohei Sato
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
Mds20190303
Mds20190303
考司 小杉
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
考司 小杉
Contenu connexe
Tendances
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
tanutarou
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
Rで架空データの発生
Rで架空データの発生
Makoto Hirakawa
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
Stanの便利な事後処理関数
Stanの便利な事後処理関数
daiki hojo
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
スペクトラル・クラスタリング
スペクトラル・クラスタリング
Akira Miyazawa
PRML輪読#3
PRML輪読#3
matsuolab
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
第5回パターン認識勉強会
第5回パターン認識勉強会
Yohei Sato
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
Tendances
(20)
グラフィカルモデル入門
グラフィカルモデル入門
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Rで架空データの発生
Rで架空データの発生
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Stan超初心者入門
Stan超初心者入門
階層ベイズとWAIC
階層ベイズとWAIC
Stanの便利な事後処理関数
Stanの便利な事後処理関数
Stanコードの書き方 中級編
Stanコードの書き方 中級編
スペクトラル・クラスタリング
スペクトラル・クラスタリング
PRML輪読#3
PRML輪読#3
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
第5回パターン認識勉強会
第5回パターン認識勉強会
EMアルゴリズム
EMアルゴリズム
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Plus de 考司 小杉
Mds20190303
Mds20190303
考司 小杉
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
考司 小杉
HCG20181212
HCG20181212
考司 小杉
20180602kosugi
20180602kosugi
考司 小杉
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
考司 小杉
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9
考司 小杉
心理統計の課題をRmdで作る
心理統計の課題をRmdで作る
考司 小杉
日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド
考司 小杉
Kandai R 入門者講習
Kandai R 入門者講習
考司 小杉
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
考司 小杉
R stan導入公開版
R stan導入公開版
考司 小杉
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
考司 小杉
Hijiyama.R Entry session
Hijiyama.R Entry session
考司 小杉
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
考司 小杉
Mplus tutorial
Mplus tutorial
考司 小杉
家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)
考司 小杉
SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料
考司 小杉
Yamadai.R#3 Function
Yamadai.R#3 Function
考司 小杉
Yamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to R
考司 小杉
Kenshu
Kenshu
考司 小杉
Plus de 考司 小杉
(20)
Mds20190303
Mds20190303
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCG20181212
HCG20181212
20180602kosugi
20180602kosugi
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9
心理統計の課題をRmdで作る
心理統計の課題をRmdで作る
日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド
Kandai R 入門者講習
Kandai R 入門者講習
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
R stan導入公開版
R stan導入公開版
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
Hijiyama.R Entry session
Hijiyama.R Entry session
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
Mplus tutorial
Mplus tutorial
家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)
SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料
Yamadai.R#3 Function
Yamadai.R#3 Function
Yamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to R
Kenshu
Kenshu
Dernier
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
yutakashikano1984
What I did before opening my business..pdf
What I did before opening my business..pdf
oganekyokoi
International Politics I - Lecture 1
International Politics I - Lecture 1
Toru Oga
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
oganekyokoi
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
shu1108hina1020
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
oganekyokoi
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
RodolfFernandez1
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
oganekyokoi
Dernier
(8)
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
What I did before opening my business..pdf
What I did before opening my business..pdf
International Politics I - Lecture 1
International Politics I - Lecture 1
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
距離と分類の話
1.
距離と分類のおはなし
2.
自己紹介 • 小杉考司(こすぎこうじ) • 山口大学教育学部 •
専門;数理社会心理学 • kosugi@yamaguchi-u.ac.jp • Twitter; @kosugitti
3.
距離のおはなし
4.
距離の公理 • 2点x とyの距離をd(x,y)とすると, •
の条件を満たせば全て「距離」。 d(x, y) 0 d(x, y) = d(y, x) x = y ) d(x, y) = 0 d(x, z) + d(z, y) d(x, y) 非負性(正定値性) 対称性 三角不等式
5.
dist関数 • にはdist関数が最初から入っている •
データ行列を与えると距離行列にして返す
6.
dist関数 A B C
D 1 # # # # 2 # # # # 3 # # # # … # # # # A B C B # C # # D # # #下三角行列に変わる
7.
dist関数 • dist関数には様々なオプション・・・ • 6種類の距離!
8.
method= euclidean • もっとも一般的な距離 •
二次元ならピタゴラスの定理で表される d(x, y) = p (x1 y1)2 + (x2 y2)2 + · · · + (xn yn)2 x y
9.
method= maximum • 二変数の差のうち,要素同士の差の絶対値が最大の ものを距離とする。 d(x,
y) = max(|xi yi|)
10.
method= manhattan • ブロック化された都市ではまっすぐ行けないよね d(x,
y) = P (|xi yi|) fig by Wikipedia
11.
method= canberra • マンハッタンとくればキャンベラ? •
マンハッタン距離の亜種,拡張,でしょうか d(x, y) = P |xi yi| |xi+yi| キャンベラ級強襲揚陸艦
12.
method= binary • 0/1データに対する距離 •
一方が1の時に他方も1であれば「近い」 • 一方が1の時に他方が0であれば「遠い」 • 一方が0の時はノーカウント
13.
method= minkowski • 一般化された距離 •
p=1ならマンハッタン • p=2ならユークリッド • pはオプションで指定可能(デフォルトは2)
14.
距離の一般化 を特に チェビシェフの距離 または 優勢次元距離という x y
15.
マハラノビス距離 x y 第一主成分 第二主成分 A B 相関を仮定した距離 心理変数に有用? 外れ値の検出にも
16.
相関や共分散も • 相関係数は類似度を表す指標(とも言える) • 相関係数はベクトルのcosθ •
1-類似度=距離(と考えることもできる) θ
17.
で計算 いつものアイリスデータ 5列目はどけておく
18.
で計算 • マハラノビス距離は関数mahalanobisを使う • 引数として中心と共分散行列が必要
19.
マハラノビス距離 x y A B colMeans(y) colMeans(x) cov(x,y)
20.
で計算 • 一対比較したい場合は,各点からの距離を教えてあげ る必要がある。 • for文で対応
21.
で計算 • StatMatchパッケージのmahalanobis.dist関数を 使うと難しいことを考えなくていいよ
22.
データから距離へ v1 v2 v3
v4 … … … … vm 1 2 3 . . . . . . N { {ケ ス を 分 類 し た い の ? 変数を分類したいの? ー m mの行列 N Nの行列 行列の 分解へ
23.
データから距離へ 相関行列なら因子分析 分散共分散行列なら PCAやSEM 距離行列なら MDSやクラスター クロス集計表なら 双対尺度法や 関係・ 関連を表 す行列
24.
分類のおはなし
25.
クラスター分析の分類 • 外的基準(教師信号)なしの分類法 • 階層的/非階層的/空間的;クラスタ同士の包含関係・ 上下関係があるかどうか •
ハード/ソフト;複数のクラスタに属することを許す かどうか
26.
クラスター分析の分類 ハード ソフト 階層的 最長距離法/最短距離法/ 群平均法/重心法/中央値法/ Ward法/McQuitty法 非階層的 k-means法 x-means法 改良k-means法 c-means法 混合分布モデル 空間的 自己組織化マップ
27.
クラスター分析の分類 ハード ソフト 階層的 hclust関数 methodオプションで指定 非階層的 e1071のcmeans() MclustのMclust() 空間的 パッケージkohonen パッケージsom
28.
分析結果にどの程度 影響するのか?[階層型編] • hclust関数の様々な手法による分類例 最短 最長 群平均 重心 中央値 ward McQ
29.
分析結果にどの程度 影響するのか?[階層型編]
30.
cf. http://d.hatena.ne.jp/hamadakoichi/20100324 分析結果にどの程度 影響するのか?[階層型編]
31.
• 明確な基準がないのでこれで決まり,とは言えない • 一般にWard法がもっともバランスが良い方法とさ れているのでオススメ •
クラスタ数も決め方にルールはない。 • 決めるときはcutreeで 分析結果にどの程度 影響するのか?[階層型編]
32.
分析結果にどの程度 影響するのか?[非階層型編] • k-means法は直感的に分かりやすく,アルゴリズ ムも簡単で,収束も早い。 • 大規模データもすぐに分類しちゃう。 •
にもデフォルト(stat)で入ってるぐらい。
33.
分析結果にどの程度 影響するのか?[非階層型編] • k-means法に代表される非階層型モデルは,当初 クラスタ数をアプリオリに定めることに批判 • 統計的基準でクラスタ数を決めるように→xmeans •
クラスタと個体との距離をマハラノビス距離で補正 するように→改良k-means
34.
分析結果にどの程度 影響するのか?[非階層型編] http://aaaazzzz036.hatenablog.com/entry/ 2013/11/27/212109
35.
分類の分類に 決まり手はない 好きにやったらいいんじゃないの?
36.
因子分析の分類 • 意外と知られていないのが因 子分析のQ-technique • 個体
項目のデータセットを 転置して因子分析 • →人の因子が出る。プロトタ イプを見つけたりするのに便 利。
37.
因子分析の分類 • 従来の項目を分類する因子分析はR-technique • 項目
時系列 → 項目因子 P-technique → 時間因子 O-technique • 個人 時系列 → 人因子 S-technique → 時間因子 T-technique
38.
v1 v2 v3
v4 … … … … vm 1 2 3 . . . . . . N v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N データの相と元 • 相mode;変数セットの種類 • 元way;変数セットの組合せ回数 v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N 変数 個人 変数 個人 二相二元データ v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N 時系列 変数 個人 時間 三相三元データ
39.
データの相と元 • 例えば個人 テレビ番組の種類
放映曜日 評定であ れば四相二元データ,というように増やしていける • それでもデータは二次元のスプレッドシートに広がっ ていく • それぞれの相に対して因子を想定するのが当世風= どこの側面の関連・潜在変数を見るかは自由
40.
因子分析の分類 • 要は多変量解析というのは • データの関連性を見る(距離でも相関でも
でも) • 見るときにどっちからとか気にしない • 関係性行列になったら分析はなんとでもなる!
41.
自由にやろうぜ。
Télécharger maintenant