SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
距離と分類のおはなし
自己紹介
• 小杉考司(こすぎこうじ)
• 山口大学教育学部
• 専門;数理社会心理学
• kosugi@yamaguchi-u.ac.jp
• Twitter; @kosugitti
距離のおはなし
距離の公理
• 2点x とyの距離をd(x,y)とすると,
• の条件を満たせば全て「距離」。
d(x, y) 0
d(x, y) = d(y, x)
x = y ) d(x, y) = 0
d(x, z) + d(z, y) d(x, y)
非負性(正定値性)
対称性
三角不等式
dist関数
•   にはdist関数が最初から入っている
• データ行列を与えると距離行列にして返す
dist関数
A B C D
1 # # # #
2 # # # #
3 # # # #
… # # # #
A B C
B #
C # #
D # # #下三角行列に変わる
dist関数
• dist関数には様々なオプション・・・
• 6種類の距離!
method= euclidean
• もっとも一般的な距離
• 二次元ならピタゴラスの定理で表される
d(x, y) =
p
(x1 y1)2 + (x2 y2)2 + · · · + (xn yn)2
x
y
method= maximum
• 二変数の差のうち,要素同士の差の絶対値が最大の
ものを距離とする。
d(x, y) = max(|xi yi|)
method= manhattan
• ブロック化された都市ではまっすぐ行けないよね
d(x, y) =
P
(|xi yi|)
fig by Wikipedia
method= canberra
• マンハッタンとくればキャンベラ?
• マンハッタン距離の亜種,拡張,でしょうか
d(x, y) =
P |xi yi|
|xi+yi|
キャンベラ級強襲揚陸艦
method= binary
• 0/1データに対する距離
• 一方が1の時に他方も1であれば「近い」
• 一方が1の時に他方が0であれば「遠い」
• 一方が0の時はノーカウント
method= minkowski
• 一般化された距離
• p=1ならマンハッタン
• p=2ならユークリッド
• pはオプションで指定可能(デフォルトは2)
距離の一般化
を特に
チェビシェフの距離
または
優勢次元距離という
x
y
マハラノビス距離
x
y
第一主成分
第二主成分
A
B
相関を仮定した距離
心理変数に有用?
外れ値の検出にも
相関や共分散も
• 相関係数は類似度を表す指標(とも言える)
• 相関係数はベクトルのcosθ
• 1-類似度=距離(と考えることもできる)
θ
で計算
いつものアイリスデータ
5列目はどけておく
で計算
• マハラノビス距離は関数mahalanobisを使う
• 引数として中心と共分散行列が必要
マハラノビス距離
x
y
A
B
colMeans(y)
colMeans(x)
cov(x,y)
で計算
• 一対比較したい場合は,各点からの距離を教えてあげ
る必要がある。
• for文で対応
で計算
• StatMatchパッケージのmahalanobis.dist関数を
使うと難しいことを考えなくていいよ
データから距離へ
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
{
{ケ
ス
を
分
類
し
た
い
の
?
変数を分類したいの?
ー
m mの行列
N Nの行列
行列の
分解へ
データから距離へ
相関行列なら因子分析
分散共分散行列なら
PCAやSEM
距離行列なら
MDSやクラスター
クロス集計表なら
双対尺度法や
関係・
関連を表
す行列
分類のおはなし
クラスター分析の分類
• 外的基準(教師信号)なしの分類法
• 階層的/非階層的/空間的;クラスタ同士の包含関係・
上下関係があるかどうか
• ハード/ソフト;複数のクラスタに属することを許す
かどうか
クラスター分析の分類
ハード ソフト
階層的
最長距離法/最短距離法/
群平均法/重心法/中央値法/
Ward法/McQuitty法
非階層的
k-means法
x-means法
改良k-means法
c-means法
混合分布モデル
空間的 自己組織化マップ
クラスター分析の分類
ハード ソフト
階層的
hclust関数
methodオプションで指定
非階層的
e1071のcmeans()
MclustのMclust()
空間的
パッケージkohonen
パッケージsom
分析結果にどの程度
影響するのか?[階層型編]
• hclust関数の様々な手法による分類例
最短
最長
群平均
重心
中央値
ward
McQ
分析結果にどの程度
影響するのか?[階層型編]
cf. http://d.hatena.ne.jp/hamadakoichi/20100324
分析結果にどの程度
影響するのか?[階層型編]
• 明確な基準がないのでこれで決まり,とは言えない
• 一般にWard法がもっともバランスが良い方法とさ
れているのでオススメ
• クラスタ数も決め方にルールはない。
• 決めるときはcutreeで
分析結果にどの程度
影響するのか?[階層型編]
分析結果にどの程度
影響するのか?[非階層型編]
• k-means法は直感的に分かりやすく,アルゴリズ
ムも簡単で,収束も早い。
• 大規模データもすぐに分類しちゃう。
•    にもデフォルト(stat)で入ってるぐらい。
分析結果にどの程度
影響するのか?[非階層型編]
• k-means法に代表される非階層型モデルは,当初
クラスタ数をアプリオリに定めることに批判
• 統計的基準でクラスタ数を決めるように→xmeans
• クラスタと個体との距離をマハラノビス距離で補正
するように→改良k-means
分析結果にどの程度
影響するのか?[非階層型編]
http://aaaazzzz036.hatenablog.com/entry/
2013/11/27/212109
分類の分類に
決まり手はない
好きにやったらいいんじゃないの?
因子分析の分類
• 意外と知られていないのが因
子分析のQ-technique
• 個体 項目のデータセットを
転置して因子分析
• →人の因子が出る。プロトタ
イプを見つけたりするのに便
利。
因子分析の分類
• 従来の項目を分類する因子分析はR-technique
• 項目 時系列 → 項目因子 P-technique
       → 時間因子 O-technique
• 個人 時系列 → 人因子  S-technique
       → 時間因子 T-technique
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
データの相と元
• 相mode;変数セットの種類
• 元way;変数セットの組合せ回数
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
変数
個人
変数 個人
二相二元データ
v1 v2 v3 v4 … … … … vm
1
2
3
.
.
.
.
.
.
N
時系列
変数 個人 時間
三相三元データ
データの相と元
• 例えば個人 テレビ番組の種類 放映曜日 評定であ
れば四相二元データ,というように増やしていける
• それでもデータは二次元のスプレッドシートに広がっ
ていく
• それぞれの相に対して因子を想定するのが当世風=
どこの側面の関連・潜在変数を見るかは自由
因子分析の分類
• 要は多変量解析というのは
• データの関連性を見る(距離でも相関でも  でも)
• 見るときにどっちからとか気にしない
• 関係性行列になったら分析はなんとでもなる!
自由にやろうぜ。

Contenu connexe

Tendances

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnetNagi Teramo
 
多項式あてはめで眺めるベイズ推定 ~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定 ~今日からきみもベイジアン~ tanutarou
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生Makoto Hirakawa
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数daiki hojo
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学Ken'ichi Matsui
 
第5回パターン認識勉強会
第5回パターン認識勉強会第5回パターン認識勉強会
第5回パターン認識勉強会Yohei Sato
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いwada, kazumi
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 

Tendances (20)

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
多項式あてはめで眺めるベイズ推定 ~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
多項式あてはめで眺めるベイズ推定 ~今日からきみもベイジアン~
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
第5回パターン認識勉強会
第5回パターン認識勉強会第5回パターン認識勉強会
第5回パターン認識勉強会
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 

Plus de 考司 小杉

HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方考司 小杉
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法考司 小杉
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9考司 小杉
 
心理統計の課題をRmdで作る
心理統計の課題をRmdで作る心理統計の課題をRmdで作る
心理統計の課題をRmdで作る考司 小杉
 
日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド考司 小杉
 
Kandai R 入門者講習
Kandai R 入門者講習Kandai R 入門者講習
Kandai R 入門者講習考司 小杉
 
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)考司 小杉
 
R stan導入公開版
R stan導入公開版R stan導入公開版
R stan導入公開版考司 小杉
 
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ考司 小杉
 
Hijiyama.R Entry session
Hijiyama.R Entry sessionHijiyama.R Entry session
Hijiyama.R Entry session考司 小杉
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について考司 小杉
 
家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)考司 小杉
 
SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料考司 小杉
 
Yamadai.R#3 Function
Yamadai.R#3 FunctionYamadai.R#3 Function
Yamadai.R#3 Function考司 小杉
 
Yamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to RYamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to R考司 小杉
 

Plus de 考司 小杉 (20)

Mds20190303
Mds20190303Mds20190303
Mds20190303
 
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方HCGシンポジウム2018;心理学における新しい統計学との付き合い方
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
 
HCG20181212
HCG20181212HCG20181212
HCG20181212
 
20180602kosugi
20180602kosugi20180602kosugi
20180602kosugi
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9
 
心理統計の課題をRmdで作る
心理統計の課題をRmdで作る心理統計の課題をRmdで作る
心理統計の課題をRmdで作る
 
日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド日本教育心理学会2016WSスライド
日本教育心理学会2016WSスライド
 
Kandai R 入門者講習
Kandai R 入門者講習Kandai R 入門者講習
Kandai R 入門者講習
 
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
 
R stan導入公開版
R stan導入公開版R stan導入公開版
R stan導入公開版
 
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
 
Hijiyama.R Entry session
Hijiyama.R Entry sessionHijiyama.R Entry session
Hijiyama.R Entry session
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
 
Mplus tutorial
Mplus tutorialMplus tutorial
Mplus tutorial
 
家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)家族データに対する非対称MDSの応用(2)
家族データに対する非対称MDSの応用(2)
 
SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料SappoRo.R #2 初心者向けWS資料
SappoRo.R #2 初心者向けWS資料
 
Yamadai.R#3 Function
Yamadai.R#3 FunctionYamadai.R#3 Function
Yamadai.R#3 Function
 
Yamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to RYamadai.R #1 Introduction to R
Yamadai.R #1 Introduction to R
 
Kenshu
KenshuKenshu
Kenshu
 

Dernier

レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...yutakashikano1984
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1Toru Oga
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイントshu1108hina1020
 
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...oganekyokoi
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrRodolfFernandez1
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 

Dernier (8)

レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
 
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 

距離と分類の話