SlideShare une entreprise Scribd logo
1  sur  36
ML study
4th
10.1 Introduction
• 이 장에 다룰 내용
• joint distribution p(x|θ)을 어떻게 컴팩트하게 표현할 수 있을까?
• Chain rule
• Conditional Independence(CI)
• Graphical Model
• 특정 변수가 주어졌을 때, 다른 변수를 어떻게 효율적으로 추론할 수 있을까?
• maginalization
• 분포의 파라메터들을 어떻게 효율적으로 학습할 수 있을까?
• Factorized posterior
10.1.1 Chain rule
10.1.2 Conditional independence
바로 이전에만 영향을 받는다고 가정하면
10.1.3 Graphical models
• graphical model (GM)은 Cl 가정으로 joint distribution을 표현하는 것이다.
• 그래프의 node들은 랜덤 변수를 표현한다.
• edge의 부재는 Cl 가정을 표현한다.
10.1.4 Graph terminology
Descendent
Ancestor
Parent
X
Y1 Y2
Non-descendent
10.1.5 Directed graphical models
• directed graphical mode = DGM = DAG = Bayesian networks = belief networks = causal networks
• The key property of DAGs: topological ordering = 부모는 자식 전에 나온다 =부모의 순서가 자식보다 먼저다
• 이러한 순서가 주어졌을 때 다음과 같은 ordered Markov property를 정의할 수 있다.
• 노드는 단지 부모한테만 영향을 받는다(부모가 아닌 조상들은 영향을 끼치지 않는다.)
• Graphical model을 조인트 확률로 바꾸는 방법
• 부모가 없을 경우, 그냥 확률 써주고
• 부모가 있을 경우, 조건부에 기입해준다
p(x|G) emphasize
that this equation only holds if the CI assumptions encoded in DAG G are correct
• 앞에 처럼 그래프  분포로 변환하는 방법에 대한 이론적 근거? d-separated 개념이 필요
10.2 Examples
10.2.2 Markov and hidden Markov models
10.2.2 Markov and hidden Markov models
Case study, Deep learning(RBM) for Collaborative Filtering
likelihood
learning= MLE w.r.t W
학습 자세히는 MCMC랑 gibbs sampling 배우고 난 뒤
h= 0 또는 1
V = [0 0 1 0 0] //평점 3이면
• GM은 결합 확률 분포(joint probability distribution)를 정의하는 간단한 방식을 제공
• 결합 분포가 주어졌을 때, 무엇을 할 수 있을까? 확률적 추론
• HMM의 예를 들면, 관찰(speech signal)로부터 hidden state (word)를 추론하는 것이 하나의 목표이다.
결합 분포 p(x1:V|θ)와 같이 연관된 랜덤 변수의 집합이 있자고 하자
볼수 있는(visible) 변수 xv
숨겨진( hidden) 변수, 토
• 알고 있는 것이 주어졌을 때, 모르는 것의 posterior의 계산은 다음과 같다:
• 때로는 숨겨진 변수 중 일부만을 추론하고 싶을수도 있다.
• query variables, xq: value we wish to know
nuisance variables xn: 관심 밖 변수
• nuisance 변수를 marginalize함으로써 쿼리 변수를 알수 있다
•
10.3 Inference
P(x1=w)p(x2=sal|x1=winter)p(x3=m|x2=sal)p(x4=th|x2=sal)
= 0.25*0.9*0.33*0.6 = 0.4455
10.4 Learning
Structure learning : DGM의 구조를 학습 = 변수 간의 연관관계가 있냐 없냐를 학습, chapter 26
베이지안은 파라메터들도 다 그래프에 넣어버린다.
LDA
10.4.1 Plate notation
변수 별로
부모조합
tck: t번째 노드의 c번째 부모조합의 k번째 state
c 번째 부모조합이 주어졌을 때 t노드의 상태가 k였던 횟수
θtck의 hyperparamter
multinomial(θtc)
multinomial-dirichlet 모델에 의해서 factorized된 posterior는 dirichlet 분포를 따르고 posterior의 기대값은
노드 4번에 대한 CPT 테이블
변수간의 관계를 DGM으로 그림
트레이닝 셋
짚고 넘어갈 것
• theta를 알아내는 것이 graphical model(=joint distribution의 그래프 표현)의 learning
• joint distribution을 표현하기 위해 필요한 모든 CPT를 구해야 한다.
• 베이지안 프레임웍을 사용해서 graphical model의 learning을 쉽게 했다(factorized posterior)
10.4.3 learning with missing and/or latent variables
• 데이터에 missing 변수이나 latent 변수가 있다면, likelihood는 더 이상 분해되지도 않고 더 이상 convex해지지
도 않는다(11.3에서 자세히)
• 즉 local optimal한 MLE나 MAP을 구할 수밖에 없다.
• parameters의 베이지안 추정은 더 어려워진다. 후에 근사 추론에 대해서 다룬다.
•
10.5 Conditional independence properties of DGMs
CI 조건은 그래프 상에서 edge의 부재이다(ci조건이 많을수록 그래프는 sparse해진다)
어떤 변수들의 진짜 분포 p(최대로 sparse한 그래프)가 있고, 변수간의 어떤 연관 관계가 있다
그러한 진짜 분포의 ci조건 중 일부를 갖는 그래프 G(p보다는 덜 sparse한 그래프)가 있으면, 그 그래프로 실제 분
포 p를 표현할 수 있다.
I(p) 비해 모자라는 ci조건은 수식을 더 복잡하게 하지만, 분포 p 정보의 삭제는 아니다
즉 G가 p의 imap이라는 것은 G로 p를 graphical model로 표현할 수 있다는 것이다
CI조건없이 Chain rule만으로도 실제분포를 표현가능
X1
X3
X2
X4
Minimal I-Map Example
• If is a minimal I-Map
• Then, these are not I-Maps:
X1
X3
X2
X4
X1
X3
X2
X4
이 CI는 true분포 p와 일치하는 CI가 아니다
10.5.1 d-separation and the Bayes Ball algorithm (global Markov properties)
The Bayes ball algorithm(Shachter 1998)
• E가 주어졌을 때, A는 B로부터 d-분리임을 판별하는 간단한 방법
• A의 각 노드에 공을 놓고, 어떤 규칙에 의해서 튕기고, 모든 볼이 B의 어떤 노드에 도착함을 판별
The Bayes ball algorithm(Shachter 1998)
The Bayes ball algorithm(Shachter 1998)
조건부 없이 독립
10.5.2 Other Markov properties of DGMs
자손
자손
노드t
자손부모
독립
From the d-separation criterion, one can conclude that
ordered Markov property,
topological ordering에서 노드t보다 이전 숫자를
가진 노드
독립
짚고 넘어가기
• 그래프에서 변수(노드)간 독립(엣지 지움)을 표시하는 세가지 법칙이 있었음
• global Markov property G
• the ordered Markov property O
• directed local Markov property L
• d-separated 판별법에 이해서 G가 유도되고 사실 G <->L <-> O 이다(Koller and Friedman 2009)
• G가 true p의 i-map이면 분포 p는 그래프 G에 의해 다음과 같이 factorize 될 수 있다 (F조건)
• F = O ((Koller and Friedman 2009) for the proof), 즉 G = L = O = F
• d-separated -> G -> O -> L -> F 로 이어진 후, 그래프 상에서 표현되는 엣지가 CI 조건을 잘 표현함을 보장한 후
• 즉 그래프 G가 우리가 알고자하는 분포 p의 ci조건을 일부분 가지고 있다면 compact하게 factorize할 수 있다라
는 결론을 이끌어낸 듯(확실치 않음 ㅠㅠ)
그래프분포 할 수 있는 theorem
10.5.3 Markov blanket and full conditionals
d-분리로 확인해 볼 수 있겠죠? 마코프 블랭킷도 d-분리 개념에서 나온듯?
즉 full conditional posterior는 마코프 블랭킷만 보면 된다

Contenu connexe

En vedette

3 Generative models for discrete data
3 Generative models for discrete data3 Generative models for discrete data
3 Generative models for discrete dataJungkyu Lee
 
Eigenvalues of regular graphs
Eigenvalues of regular graphsEigenvalues of regular graphs
Eigenvalues of regular graphsJungkyu Lee
 
Jensen's inequality, EM 알고리즘
Jensen's inequality, EM 알고리즘 Jensen's inequality, EM 알고리즘
Jensen's inequality, EM 알고리즘 Jungkyu Lee
 
ThinkBayes: Chapter 9 two_dimensions
ThinkBayes: Chapter 9 two_dimensionsThinkBayes: Chapter 9 two_dimensions
ThinkBayes: Chapter 9 two_dimensionsJungkyu Lee
 
Murpy's Machine Learning 9. Generalize Linear Model
Murpy's Machine Learning 9. Generalize Linear ModelMurpy's Machine Learning 9. Generalize Linear Model
Murpy's Machine Learning 9. Generalize Linear ModelJungkyu Lee
 
Murpy's Machine Learning:14. Kernel
Murpy's Machine Learning:14. KernelMurpy's Machine Learning:14. Kernel
Murpy's Machine Learning:14. KernelJungkyu Lee
 
파이널 판타지 3 루트 공략
파이널 판타지 3 루트 공략파이널 판타지 3 루트 공략
파이널 판타지 3 루트 공략Jungkyu Lee
 
머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical ModelJungkyu Lee
 
ThinkBayes: chapter 13  simulation
ThinkBayes: chapter 13  simulationThinkBayes: chapter 13  simulation
ThinkBayes: chapter 13  simulationJungkyu Lee
 
머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear ModelJungkyu Lee
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGJungkyu Lee
 
머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear ModelJungkyu Lee
 
머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear ModelJungkyu Lee
 
4. Gaussian Model
4. Gaussian Model4. Gaussian Model
4. Gaussian ModelJungkyu Lee
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발Jungkyu Lee
 
머피's 머신러닝, Mixture model and EM algorithm
머피's 머신러닝, Mixture model and EM algorithm머피's 머신러닝, Mixture model and EM algorithm
머피's 머신러닝, Mixture model and EM algorithmJungkyu Lee
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical modelsJong Wook Kim
 
From A Neural Probalistic Language Model to Word2vec
From A Neural Probalistic Language Model to Word2vecFrom A Neural Probalistic Language Model to Word2vec
From A Neural Probalistic Language Model to Word2vecJungkyu Lee
 
Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Jungkyu Lee
 
8. Logistic Regression
8. Logistic Regression8. Logistic Regression
8. Logistic RegressionJungkyu Lee
 

En vedette (20)

3 Generative models for discrete data
3 Generative models for discrete data3 Generative models for discrete data
3 Generative models for discrete data
 
Eigenvalues of regular graphs
Eigenvalues of regular graphsEigenvalues of regular graphs
Eigenvalues of regular graphs
 
Jensen's inequality, EM 알고리즘
Jensen's inequality, EM 알고리즘 Jensen's inequality, EM 알고리즘
Jensen's inequality, EM 알고리즘
 
ThinkBayes: Chapter 9 two_dimensions
ThinkBayes: Chapter 9 two_dimensionsThinkBayes: Chapter 9 two_dimensions
ThinkBayes: Chapter 9 two_dimensions
 
Murpy's Machine Learning 9. Generalize Linear Model
Murpy's Machine Learning 9. Generalize Linear ModelMurpy's Machine Learning 9. Generalize Linear Model
Murpy's Machine Learning 9. Generalize Linear Model
 
Murpy's Machine Learning:14. Kernel
Murpy's Machine Learning:14. KernelMurpy's Machine Learning:14. Kernel
Murpy's Machine Learning:14. Kernel
 
파이널 판타지 3 루트 공략
파이널 판타지 3 루트 공략파이널 판타지 3 루트 공략
파이널 판타지 3 루트 공략
 
머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model
 
ThinkBayes: chapter 13  simulation
ThinkBayes: chapter 13  simulationThinkBayes: chapter 13  simulation
ThinkBayes: chapter 13  simulation
 
머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
 
머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model머피's 머신러닝: Latent Linear Model
머피's 머신러닝: Latent Linear Model
 
머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model머피의 머신러닝 13 Sparse Linear Model
머피의 머신러닝 13 Sparse Linear Model
 
4. Gaussian Model
4. Gaussian Model4. Gaussian Model
4. Gaussian Model
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
머피's 머신러닝, Mixture model and EM algorithm
머피's 머신러닝, Mixture model and EM algorithm머피's 머신러닝, Mixture model and EM algorithm
머피's 머신러닝, Mixture model and EM algorithm
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical models
 
From A Neural Probalistic Language Model to Word2vec
From A Neural Probalistic Language Model to Word2vecFrom A Neural Probalistic Language Model to Word2vec
From A Neural Probalistic Language Model to Word2vec
 
Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어
 
8. Logistic Regression
8. Logistic Regression8. Logistic Regression
8. Logistic Regression
 

Murpy's Machine Learing: 10. Directed Graphical Model

  • 2. 10.1 Introduction • 이 장에 다룰 내용 • joint distribution p(x|θ)을 어떻게 컴팩트하게 표현할 수 있을까? • Chain rule • Conditional Independence(CI) • Graphical Model • 특정 변수가 주어졌을 때, 다른 변수를 어떻게 효율적으로 추론할 수 있을까? • maginalization • 분포의 파라메터들을 어떻게 효율적으로 학습할 수 있을까? • Factorized posterior
  • 4. 10.1.2 Conditional independence 바로 이전에만 영향을 받는다고 가정하면
  • 5. 10.1.3 Graphical models • graphical model (GM)은 Cl 가정으로 joint distribution을 표현하는 것이다. • 그래프의 node들은 랜덤 변수를 표현한다. • edge의 부재는 Cl 가정을 표현한다.
  • 7. 10.1.5 Directed graphical models • directed graphical mode = DGM = DAG = Bayesian networks = belief networks = causal networks • The key property of DAGs: topological ordering = 부모는 자식 전에 나온다 =부모의 순서가 자식보다 먼저다 • 이러한 순서가 주어졌을 때 다음과 같은 ordered Markov property를 정의할 수 있다. • 노드는 단지 부모한테만 영향을 받는다(부모가 아닌 조상들은 영향을 끼치지 않는다.) • Graphical model을 조인트 확률로 바꾸는 방법 • 부모가 없을 경우, 그냥 확률 써주고 • 부모가 있을 경우, 조건부에 기입해준다 p(x|G) emphasize that this equation only holds if the CI assumptions encoded in DAG G are correct
  • 8. • 앞에 처럼 그래프  분포로 변환하는 방법에 대한 이론적 근거? d-separated 개념이 필요
  • 10. 10.2.2 Markov and hidden Markov models
  • 11. 10.2.2 Markov and hidden Markov models
  • 12. Case study, Deep learning(RBM) for Collaborative Filtering likelihood learning= MLE w.r.t W 학습 자세히는 MCMC랑 gibbs sampling 배우고 난 뒤 h= 0 또는 1 V = [0 0 1 0 0] //평점 3이면
  • 13. • GM은 결합 확률 분포(joint probability distribution)를 정의하는 간단한 방식을 제공 • 결합 분포가 주어졌을 때, 무엇을 할 수 있을까? 확률적 추론 • HMM의 예를 들면, 관찰(speech signal)로부터 hidden state (word)를 추론하는 것이 하나의 목표이다. 결합 분포 p(x1:V|θ)와 같이 연관된 랜덤 변수의 집합이 있자고 하자 볼수 있는(visible) 변수 xv 숨겨진( hidden) 변수, 토 • 알고 있는 것이 주어졌을 때, 모르는 것의 posterior의 계산은 다음과 같다: • 때로는 숨겨진 변수 중 일부만을 추론하고 싶을수도 있다. • query variables, xq: value we wish to know nuisance variables xn: 관심 밖 변수 • nuisance 변수를 marginalize함으로써 쿼리 변수를 알수 있다 • 10.3 Inference
  • 14.
  • 16. 10.4 Learning Structure learning : DGM의 구조를 학습 = 변수 간의 연관관계가 있냐 없냐를 학습, chapter 26 베이지안은 파라메터들도 다 그래프에 넣어버린다. LDA
  • 18.
  • 20. 부모조합 tck: t번째 노드의 c번째 부모조합의 k번째 state c 번째 부모조합이 주어졌을 때 t노드의 상태가 k였던 횟수 θtck의 hyperparamter multinomial(θtc) multinomial-dirichlet 모델에 의해서 factorized된 posterior는 dirichlet 분포를 따르고 posterior의 기대값은 노드 4번에 대한 CPT 테이블 변수간의 관계를 DGM으로 그림 트레이닝 셋
  • 21. 짚고 넘어갈 것 • theta를 알아내는 것이 graphical model(=joint distribution의 그래프 표현)의 learning • joint distribution을 표현하기 위해 필요한 모든 CPT를 구해야 한다. • 베이지안 프레임웍을 사용해서 graphical model의 learning을 쉽게 했다(factorized posterior)
  • 22. 10.4.3 learning with missing and/or latent variables • 데이터에 missing 변수이나 latent 변수가 있다면, likelihood는 더 이상 분해되지도 않고 더 이상 convex해지지 도 않는다(11.3에서 자세히) • 즉 local optimal한 MLE나 MAP을 구할 수밖에 없다. • parameters의 베이지안 추정은 더 어려워진다. 후에 근사 추론에 대해서 다룬다. •
  • 23. 10.5 Conditional independence properties of DGMs CI 조건은 그래프 상에서 edge의 부재이다(ci조건이 많을수록 그래프는 sparse해진다) 어떤 변수들의 진짜 분포 p(최대로 sparse한 그래프)가 있고, 변수간의 어떤 연관 관계가 있다 그러한 진짜 분포의 ci조건 중 일부를 갖는 그래프 G(p보다는 덜 sparse한 그래프)가 있으면, 그 그래프로 실제 분 포 p를 표현할 수 있다. I(p) 비해 모자라는 ci조건은 수식을 더 복잡하게 하지만, 분포 p 정보의 삭제는 아니다 즉 G가 p의 imap이라는 것은 G로 p를 graphical model로 표현할 수 있다는 것이다 CI조건없이 Chain rule만으로도 실제분포를 표현가능
  • 24. X1 X3 X2 X4 Minimal I-Map Example • If is a minimal I-Map • Then, these are not I-Maps: X1 X3 X2 X4 X1 X3 X2 X4 이 CI는 true분포 p와 일치하는 CI가 아니다
  • 25. 10.5.1 d-separation and the Bayes Ball algorithm (global Markov properties)
  • 26. The Bayes ball algorithm(Shachter 1998) • E가 주어졌을 때, A는 B로부터 d-분리임을 판별하는 간단한 방법 • A의 각 노드에 공을 놓고, 어떤 규칙에 의해서 튕기고, 모든 볼이 B의 어떤 노드에 도착함을 판별
  • 27. The Bayes ball algorithm(Shachter 1998)
  • 28. The Bayes ball algorithm(Shachter 1998) 조건부 없이 독립
  • 29.
  • 30.
  • 31.
  • 32. 10.5.2 Other Markov properties of DGMs 자손 자손 노드t 자손부모 독립 From the d-separation criterion, one can conclude that
  • 33. ordered Markov property, topological ordering에서 노드t보다 이전 숫자를 가진 노드 독립
  • 34. 짚고 넘어가기 • 그래프에서 변수(노드)간 독립(엣지 지움)을 표시하는 세가지 법칙이 있었음 • global Markov property G • the ordered Markov property O • directed local Markov property L • d-separated 판별법에 이해서 G가 유도되고 사실 G <->L <-> O 이다(Koller and Friedman 2009) • G가 true p의 i-map이면 분포 p는 그래프 G에 의해 다음과 같이 factorize 될 수 있다 (F조건) • F = O ((Koller and Friedman 2009) for the proof), 즉 G = L = O = F • d-separated -> G -> O -> L -> F 로 이어진 후, 그래프 상에서 표현되는 엣지가 CI 조건을 잘 표현함을 보장한 후 • 즉 그래프 G가 우리가 알고자하는 분포 p의 ci조건을 일부분 가지고 있다면 compact하게 factorize할 수 있다라 는 결론을 이끌어낸 듯(확실치 않음 ㅠㅠ) 그래프분포 할 수 있는 theorem
  • 35. 10.5.3 Markov blanket and full conditionals d-분리로 확인해 볼 수 있겠죠? 마코프 블랭킷도 d-분리 개념에서 나온듯?
  • 36. 즉 full conditional posterior는 마코프 블랭킷만 보면 된다