Murpy's Machine Learing: 10. Directed Graphical Model

10.1 Introduction
• 이 장에 다룰 내용
• joint distribution p(x|θ)을 어떻게 컴팩트하게 표현할 수 있을까?
• Chain rule
• Conditional Independence(CI)
• Graphical Model
• 특정 변수가 주어졌을 때, 다른 변수를 어떻게 효율적으로 추론할 수 있을까?
• maginalization
• 분포의 파라메터들을 어떻게 효율적으로 학습할 수 있을까?
• Factorized posterior

10.1.2 Conditional independence
바로 이전에만 영향을 받는다고 가정하면

10.1.3 Graphical models
• graphical model (GM)은 Cl 가정으로 joint distribution을 표현하는 것이다.
• 그래프의 node들은 랜덤 변수를 표현한다.
• edge의 부재는 Cl 가정을 표현한다.

10.1.4 Graph terminology
Descendent
Ancestor
Parent
X
Y1 Y2
Non-descendent

10.1.5 Directed graphical models
• directed graphical mode = DGM = DAG = Bayesian networks = belief networks = causal networks
• The key property of DAGs: topological ordering = 부모는 자식 전에 나온다 =부모의 순서가 자식보다 먼저다
• 이러한 순서가 주어졌을 때 다음과 같은 ordered Markov property를 정의할 수 있다.
• 노드는 단지 부모한테만 영향을 받는다(부모가 아닌 조상들은 영향을 끼치지 않는다.)
• Graphical model을 조인트 확률로 바꾸는 방법
• 부모가 없을 경우, 그냥 확률 써주고
• 부모가 있을 경우, 조건부에 기입해준다
p(x|G) emphasize
that this equation only holds if the CI assumptions encoded in DAG G are correct

• 앞에 처럼 그래프  분포로 변환하는 방법에 대한 이론적 근거? d-separated 개념이 필요

10.2.2 Markov and hidden Markov models

Case study, Deep learning(RBM) for Collaborative Filtering
likelihood
learning= MLE w.r.t W
학습 자세히는 MCMC랑 gibbs sampling 배우고 난 뒤
h= 0 또는 1
V = [0 0 1 0 0] //평점 3이면

• GM은 결합 확률 분포(joint probability distribution)를 정의하는 간단한 방식을 제공
• 결합 분포가 주어졌을 때, 무엇을 할 수 있을까? 확률적 추론
• HMM의 예를 들면, 관찰(speech signal)로부터 hidden state (word)를 추론하는 것이 하나의 목표이다.
결합 분포 p(x1:V|θ)와 같이 연관된 랜덤 변수의 집합이 있자고 하자
볼수 있는(visible) 변수 xv
숨겨진( hidden) 변수, 토
• 알고 있는 것이 주어졌을 때, 모르는 것의 posterior의 계산은 다음과 같다:
• 때로는 숨겨진 변수 중 일부만을 추론하고 싶을수도 있다.
• query variables, xq: value we wish to know
nuisance variables xn: 관심 밖 변수
• nuisance 변수를 marginalize함으로써 쿼리 변수를 알수 있다
•
10.3 Inference

P(x1=w)p(x2=sal|x1=winter)p(x3=m|x2=sal)p(x4=th|x2=sal)
= 0.25*0.9*0.33*0.6 = 0.4455

10.4 Learning
Structure learning : DGM의 구조를 학습 = 변수 간의 연관관계가 있냐 없냐를 학습, chapter 26
베이지안은 파라메터들도 다 그래프에 넣어버린다.
LDA

부모조합
tck: t번째 노드의 c번째 부모조합의 k번째 state
c 번째 부모조합이 주어졌을 때 t노드의 상태가 k였던 횟수
θtck의 hyperparamter
multinomial(θtc)
multinomial-dirichlet 모델에 의해서 factorized된 posterior는 dirichlet 분포를 따르고 posterior의 기대값은
노드 4번에 대한 CPT 테이블
변수간의 관계를 DGM으로 그림
트레이닝 셋

짚고 넘어갈 것
• theta를 알아내는 것이 graphical model(=joint distribution의 그래프 표현)의 learning
• joint distribution을 표현하기 위해 필요한 모든 CPT를 구해야 한다.
• 베이지안 프레임웍을 사용해서 graphical model의 learning을 쉽게 했다(factorized posterior)

10.4.3 learning with missing and/or latent variables
• 데이터에 missing 변수이나 latent 변수가 있다면, likelihood는 더 이상 분해되지도 않고 더 이상 convex해지지
도 않는다(11.3에서 자세히)
• 즉 local optimal한 MLE나 MAP을 구할 수밖에 없다.
• parameters의 베이지안 추정은 더 어려워진다. 후에 근사 추론에 대해서 다룬다.
•

10.5 Conditional independence properties of DGMs
CI 조건은 그래프 상에서 edge의 부재이다(ci조건이 많을수록 그래프는 sparse해진다)
어떤 변수들의 진짜 분포 p(최대로 sparse한 그래프)가 있고, 변수간의 어떤 연관 관계가 있다
그러한 진짜 분포의 ci조건 중 일부를 갖는 그래프 G(p보다는 덜 sparse한 그래프)가 있으면, 그 그래프로 실제 분
포 p를 표현할 수 있다.
I(p) 비해 모자라는 ci조건은 수식을 더 복잡하게 하지만, 분포 p 정보의 삭제는 아니다
즉 G가 p의 imap이라는 것은 G로 p를 graphical model로 표현할 수 있다는 것이다
CI조건없이 Chain rule만으로도 실제분포를 표현가능

X1
X3
X2
X4
Minimal I-Map Example
• If is a minimal I-Map
• Then, these are not I-Maps:
X1
X3
X2
X4
X1
X3
X2
X4
이 CI는 true분포 p와 일치하는 CI가 아니다

10.5.1 d-separation and the Bayes Ball algorithm (global Markov properties)

The Bayes ball algorithm(Shachter 1998)
• E가 주어졌을 때, A는 B로부터 d-분리임을 판별하는 간단한 방법
• A의 각 노드에 공을 놓고, 어떤 규칙에 의해서 튕기고, 모든 볼이 B의 어떤 노드에 도착함을 판별

조건부 없이 독립

10.5.2 Other Markov properties of DGMs
자손
자손
노드t
자손부모
독립
From the d-separation criterion, one can conclude that

ordered Markov property,
topological ordering에서 노드t보다 이전 숫자를
가진 노드
독립

짚고 넘어가기
• 그래프에서 변수(노드)간 독립(엣지 지움)을 표시하는 세가지 법칙이 있었음
• global Markov property G
• the ordered Markov property O
• directed local Markov property L
• d-separated 판별법에 이해서 G가 유도되고 사실 G <->L <-> O 이다(Koller and Friedman 2009)
• G가 true p의 i-map이면 분포 p는 그래프 G에 의해 다음과 같이 factorize 될 수 있다 (F조건)
• F = O ((Koller and Friedman 2009) for the proof), 즉 G = L = O = F
• d-separated -> G -> O -> L -> F 로 이어진 후, 그래프 상에서 표현되는 엣지가 CI 조건을 잘 표현함을 보장한 후
• 즉 그래프 G가 우리가 알고자하는 분포 p의 ci조건을 일부분 가지고 있다면 compact하게 factorize할 수 있다라
는 결론을 이끌어낸 듯(확실치 않음 ㅠㅠ)
그래프분포 할 수 있는 theorem

10.5.3 Markov blanket and full conditionals
d-분리로 확인해 볼 수 있겠죠? 마코프 블랭킷도 d-분리 개념에서 나온듯?

즉 full conditional posterior는 마코프 블랭킷만 보면 된다

Murpy's Machine Learing: 10. Directed Graphical Model

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Murpy's Machine Learing: 10. Directed Graphical Model