SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
Journal Review 2017-2
Why Does Deep and Cheap Learning Work So Well?
Jinseob Kim
Sep 12, 2017
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 1 / 38
1 Introduction
2 Expressibility and Efficiency of Shallow Neural Networks
3 Why Deep?
4 Conclusions
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 2 / 38
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 3 / 38
https://arxiv.org/abs/1608.08225
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 4 / 38
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 5 / 38
https://www.technologyreview.com/s/602344/
the-extraordinary-link-between-deep-neural-networks-and-the-n
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 6 / 38
Introduction
Introduction
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 7 / 38
Introduction
Why DL work well: Math perspective
Universal approximation theorem
변수들간의 어떤 관계도 Hidden Layer 1개의 신경망으로 결국 근사할
수 있다.
https://www.slideshare.net/theeluwin/
universal-approximation-theorem-70937339
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 8 / 38
Introduction
This paper: Physics perspective
How can neural networks approximate functions well in practice?
Expressibility: What class of functions can the neural network express?
Efficiency: How many resources (neurons, parameters, etc) does the
neural network require to approximate a given function?
Learnability: How rapidly can the neural network learn good parameters
for approximating a function?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 9 / 38
Expressibility and Efficiency of Shallow Neural Networks
Expressibility and Efficiency of Shallow Neural
Networks
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 10 / 38
Expressibility and Efficiency of Shallow Neural Networks
Summary
1 곱셈 f : (x, y) → xy 를 간단히 구현할 수 있다.
2 Low polynomial: 물리학에서 다루는 에너지함수들은 대부분 4
차이하의 다항식, DL도 마찬가지.
정규분포: e−x2
- 2차식
3 Locality: 국소 상호작용이 대부분, 대부분 2개 변수의 interaction
까지만..
4 Symmetry: 대칭적인 함수가 대부분- parameter가 줄어든다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 11 / 38
Expressibility and Efficiency of Shallow Neural Networks
Notation: Physics vs ML
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 12 / 38
Expressibility and Efficiency of Shallow Neural Networks
Hamiltonian: 에너지
H(x) = −ln p(x)
p(x) = e−H(x)
예) 정규분포
p(x) =
1
√
2π
e−x2/2
H(x) =
x2
2
+ ln
√
2π
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 13 / 38
Expressibility and Efficiency of Shallow Neural Networks
Ex) Boltzman distribution
기체에서 입자가 특정 에너지를 가질 확률
p(E) ∝ e− E
kT
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 14 / 38
Expressibility and Efficiency of Shallow Neural Networks
Example: Restricted Boltzman Machine(RBM)
E(v, h) = −
i
ai vi −
j
bjhj −
i j
vi wi,jhj
P(v, h) =
1
Z
e−E(v,h)
P(v) = 1
Z h e−E(v,h)를 최대화 하는 ai , bj, wi,j들을 구한다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 15 / 38
Expressibility and Efficiency of Shallow Neural Networks
Multiplication Gate: Easy
σ(u) = σ0 + σ1u + σ2
u2
2
+ O(n3
)
m(u, v) ≡
σ(u + v) + σ(−u − v) − σ(u − v) − σ(−u + v)
4σ2
= uv[1 + O(u2
+ v2
)]
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 16 / 38
Expressibility and Efficiency of Shallow Neural Networks
Low polynomial
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
최신 물리학의 표준모형(Standard Model)조차 차수가 4밖에 안됨.
중심극한정리: 정규분포와 비슷한것들이 대부분, 정규분포는 차수 2
H(x) = h +
i
hi xi +
i<j
hijxi xj
2개의 곱셈은 신경망으로 쉽게 구현.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 17 / 38
Expressibility and Efficiency of Shallow Neural Networks
Locality
물리학의 기본 원리
근처에만 직접작용한다. 멀리 떨어진 것끼리 상호작용 X
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
대부분의 h값은 0일 것으로 예상.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 18 / 38
Expressibility and Efficiency of Shallow Neural Networks
Symmetry: Law of Nature
병진운동대칭: 운동량보존법칙
회전운동대칭: 각운동량보존법칙
시간대칭: 에너지보존법칙
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
h들 중 같은 값들이 많을 것. (ex: CNN)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 19 / 38
Why Deep?
Why Deep?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 20 / 38
Why Deep?
Summary: Layer 수는 많아야 한다
Hierarchical Processess
대부분의 현상
No flattening theorem
Layer 갯수 줄이면 필요한 parameter수가 오히려 늘어날 수 있다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 21 / 38
Why Deep?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 22 / 38
Why Deep?
1 인공위성에서 우주 마이크로파 배경복사(CMB) 데이터 측정
그림 데이터
2 신호 Frequency별 분해: noise제거
고양이와 배경으로 분해
3 CMB SKY MAP : 빨간색일수록 고온
고양이 그림 데이터
4 파워스펙트럼: 얼룩 크기별 분포
색깔, 모양, 자세. . .
5 우주상수 계산
고양이 vs 개 결정
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 23 / 38
Why Deep?
Sufficient Statistics and Hierarchies
Sufficient Statistics T(x)
P(y|x) = P(y|T(x))
y에 필요한 x의 정보는 T(x)에 전부 포함되어 있음.
예: P(y|x) = −ey−¯x 일 때, T(x) = ¯x
x의 평균만 필요함.
마코프과정에서는 T(x)가 보존됨.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 24 / 38
Why Deep?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 25 / 38
Why Deep?
Renormalization Group Theory
기본입자들로 현실의 이론을 만들 순 없다.
무한히 많은 입자. 무한히 많은 상호작용.
Elementary Particle → atom → gas, liquid, solid (F = ma)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 26 / 38
Why Deep?
Example: Block Spin renormalization
다수결로 Grouping
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 27 / 38
Why Deep?
Example: Network renormalization
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 28 / 38
Why Deep?
Example: Box counting renormalization
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 29 / 38
Why Deep?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 30 / 38
Why Deep?
No flattening theorem
Layer 수를 줄이면 필요한 parameter수는 오히려 늘어날 수 있다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 31 / 38
Why Deep?
곱셈: 1 layer & 4 nodes
일반화- n개 숫자의 곱셈
1 1 layer: 2n nodes 필요
2 n layer: 4n nodes 필요
2n > 4n
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 32 / 38
Why Deep?
Example: 행렬곱셈
0,1로만 이루어지고 1일 확률이 p인 n × n행렬을 상상하자.
행렬 F를 그냥 표현하는 것과 두 행렬의 곱 AB로 나타내는 것 중
어떤 방법이 1이 적게 나올까?
1이 적게 나오는 쪽이 효율적임.
p는 충분히 작다는 조건.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 33 / 38
Why Deep?
AB의 두 행렬로 표현
A의 1의 갯수: n2 × p
B의 1의 갯수: n2 × p
F = AB에서 1의 갯수: 2n2p
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 34 / 38
Why Deep?
F 하나로 표현
Fij = k AikBkj가 0일 확률: (1 − p2)n
Fij = k AikBkj가 1일 확률: 1 − (1 − p2)n
F의 1의 갯수: n2 × (1 − (1 − p2)n)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 35 / 38
Why Deep?
비교
1개 표현
2개 표현
=
n2(1 − (1 − p2)n)
2n2p
=
1 − (1 − p2)n
2p
n이 충분히 커지면 이 값은
1
2p
에 가까워지고 1보다 크다. 따라서 1개 행렬로 표현하는 것이 더
비효율적이다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 36 / 38
Conclusions
Conclusions
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 37 / 38
Conclusions
Swallow Neural Network의 성공
데이터의 Log(p)가 자연과 마찬가지로 symmetry, low polynomial,
locality를 갖기 때문.
Deep Neural Network의 성공
대부분이 Hierarchial Process
No flattening theorem
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 38 / 38

Contenu connexe

Plus de Jinseob Kim

Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...
Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...
Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...Jinseob Kim
 
Fst, selection index
Fst, selection indexFst, selection index
Fst, selection indexJinseob Kim
 
괴델(Godel)의 불완전성 정리 증명의 이해.
괴델(Godel)의 불완전성 정리 증명의 이해.괴델(Godel)의 불완전성 정리 증명의 이해.
괴델(Godel)의 불완전성 정리 증명의 이해.Jinseob Kim
 
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...Jinseob Kim
 
가설검정의 심리학
가설검정의 심리학 가설검정의 심리학
가설검정의 심리학 Jinseob Kim
 
Win Above Replacement in Sabermetrics
Win Above Replacement in SabermetricsWin Above Replacement in Sabermetrics
Win Above Replacement in SabermetricsJinseob Kim
 
Regression Basic : MLE
Regression  Basic : MLERegression  Basic : MLE
Regression Basic : MLEJinseob Kim
 
iHS calculation in R
iHS calculation in RiHS calculation in R
iHS calculation in RJinseob Kim
 
Selection index population_genetics
Selection index population_geneticsSelection index population_genetics
Selection index population_geneticsJinseob Kim
 
질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010Jinseob Kim
 
Case-crossover study
Case-crossover studyCase-crossover study
Case-crossover studyJinseob Kim
 
Generalized Additive Model
Generalized Additive Model Generalized Additive Model
Generalized Additive Model Jinseob Kim
 
Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)Jinseob Kim
 
Machine Learning Introduction
Machine Learning IntroductionMachine Learning Introduction
Machine Learning IntroductionJinseob Kim
 
Deep learning by JSKIM
Deep learning by JSKIMDeep learning by JSKIM
Deep learning by JSKIMJinseob Kim
 
Multilevel study
Multilevel study Multilevel study
Multilevel study Jinseob Kim
 

Plus de Jinseob Kim (20)

Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...
Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...
Unsupervised Deep Learning Applied to Breast Density Segmentation and Mammogr...
 
Fst, selection index
Fst, selection indexFst, selection index
Fst, selection index
 
괴델(Godel)의 불완전성 정리 증명의 이해.
괴델(Godel)의 불완전성 정리 증명의 이해.괴델(Godel)의 불완전성 정리 증명의 이해.
괴델(Godel)의 불완전성 정리 증명의 이해.
 
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...
New Epidemiologic Measures in Multilevel Study: Median Risk Ratio, Median Haz...
 
가설검정의 심리학
가설검정의 심리학 가설검정의 심리학
가설검정의 심리학
 
Win Above Replacement in Sabermetrics
Win Above Replacement in SabermetricsWin Above Replacement in Sabermetrics
Win Above Replacement in Sabermetrics
 
Regression Basic : MLE
Regression  Basic : MLERegression  Basic : MLE
Regression Basic : MLE
 
iHS calculation in R
iHS calculation in RiHS calculation in R
iHS calculation in R
 
Fst in R
Fst in R Fst in R
Fst in R
 
Selection index population_genetics
Selection index population_geneticsSelection index population_genetics
Selection index population_genetics
 
질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010
 
DALY & QALY
DALY & QALYDALY & QALY
DALY & QALY
 
Case-crossover study
Case-crossover studyCase-crossover study
Case-crossover study
 
Generalized Additive Model
Generalized Additive Model Generalized Additive Model
Generalized Additive Model
 
Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)
 
Machine Learning Introduction
Machine Learning IntroductionMachine Learning Introduction
Machine Learning Introduction
 
Tree advanced
Tree advancedTree advanced
Tree advanced
 
Deep learning by JSKIM
Deep learning by JSKIMDeep learning by JSKIM
Deep learning by JSKIM
 
Main result
Main result Main result
Main result
 
Multilevel study
Multilevel study Multilevel study
Multilevel study
 

Why Does Deep and Cheap Learning Work So Well

  • 1. Journal Review 2017-2 Why Does Deep and Cheap Learning Work So Well? Jinseob Kim Sep 12, 2017 Jinseob Kim Journal Review 2017-2 Sep 12, 2017 1 / 38
  • 2. 1 Introduction 2 Expressibility and Efficiency of Shallow Neural Networks 3 Why Deep? 4 Conclusions Jinseob Kim Journal Review 2017-2 Sep 12, 2017 2 / 38
  • 3. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 3 / 38
  • 4. https://arxiv.org/abs/1608.08225 Jinseob Kim Journal Review 2017-2 Sep 12, 2017 4 / 38
  • 5. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 5 / 38
  • 7. Introduction Introduction Jinseob Kim Journal Review 2017-2 Sep 12, 2017 7 / 38
  • 8. Introduction Why DL work well: Math perspective Universal approximation theorem 변수들간의 어떤 관계도 Hidden Layer 1개의 신경망으로 결국 근사할 수 있다. https://www.slideshare.net/theeluwin/ universal-approximation-theorem-70937339 Jinseob Kim Journal Review 2017-2 Sep 12, 2017 8 / 38
  • 9. Introduction This paper: Physics perspective How can neural networks approximate functions well in practice? Expressibility: What class of functions can the neural network express? Efficiency: How many resources (neurons, parameters, etc) does the neural network require to approximate a given function? Learnability: How rapidly can the neural network learn good parameters for approximating a function? Jinseob Kim Journal Review 2017-2 Sep 12, 2017 9 / 38
  • 10. Expressibility and Efficiency of Shallow Neural Networks Expressibility and Efficiency of Shallow Neural Networks Jinseob Kim Journal Review 2017-2 Sep 12, 2017 10 / 38
  • 11. Expressibility and Efficiency of Shallow Neural Networks Summary 1 곱셈 f : (x, y) → xy 를 간단히 구현할 수 있다. 2 Low polynomial: 물리학에서 다루는 에너지함수들은 대부분 4 차이하의 다항식, DL도 마찬가지. 정규분포: e−x2 - 2차식 3 Locality: 국소 상호작용이 대부분, 대부분 2개 변수의 interaction 까지만.. 4 Symmetry: 대칭적인 함수가 대부분- parameter가 줄어든다. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 11 / 38
  • 12. Expressibility and Efficiency of Shallow Neural Networks Notation: Physics vs ML Jinseob Kim Journal Review 2017-2 Sep 12, 2017 12 / 38
  • 13. Expressibility and Efficiency of Shallow Neural Networks Hamiltonian: 에너지 H(x) = −ln p(x) p(x) = e−H(x) 예) 정규분포 p(x) = 1 √ 2π e−x2/2 H(x) = x2 2 + ln √ 2π Jinseob Kim Journal Review 2017-2 Sep 12, 2017 13 / 38
  • 14. Expressibility and Efficiency of Shallow Neural Networks Ex) Boltzman distribution 기체에서 입자가 특정 에너지를 가질 확률 p(E) ∝ e− E kT Jinseob Kim Journal Review 2017-2 Sep 12, 2017 14 / 38
  • 15. Expressibility and Efficiency of Shallow Neural Networks Example: Restricted Boltzman Machine(RBM) E(v, h) = − i ai vi − j bjhj − i j vi wi,jhj P(v, h) = 1 Z e−E(v,h) P(v) = 1 Z h e−E(v,h)를 최대화 하는 ai , bj, wi,j들을 구한다. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 15 / 38
  • 16. Expressibility and Efficiency of Shallow Neural Networks Multiplication Gate: Easy σ(u) = σ0 + σ1u + σ2 u2 2 + O(n3 ) m(u, v) ≡ σ(u + v) + σ(−u − v) − σ(u − v) − σ(−u + v) 4σ2 = uv[1 + O(u2 + v2 )] Jinseob Kim Journal Review 2017-2 Sep 12, 2017 16 / 38
  • 17. Expressibility and Efficiency of Shallow Neural Networks Low polynomial H(x) = h + i hi xi + i<j hijxi xj + i<j<k hijkxi xjxk + · · · 최신 물리학의 표준모형(Standard Model)조차 차수가 4밖에 안됨. 중심극한정리: 정규분포와 비슷한것들이 대부분, 정규분포는 차수 2 H(x) = h + i hi xi + i<j hijxi xj 2개의 곱셈은 신경망으로 쉽게 구현. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 17 / 38
  • 18. Expressibility and Efficiency of Shallow Neural Networks Locality 물리학의 기본 원리 근처에만 직접작용한다. 멀리 떨어진 것끼리 상호작용 X H(x) = h + i hi xi + i<j hijxi xj + i<j<k hijkxi xjxk + · · · 대부분의 h값은 0일 것으로 예상. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 18 / 38
  • 19. Expressibility and Efficiency of Shallow Neural Networks Symmetry: Law of Nature 병진운동대칭: 운동량보존법칙 회전운동대칭: 각운동량보존법칙 시간대칭: 에너지보존법칙 H(x) = h + i hi xi + i<j hijxi xj + i<j<k hijkxi xjxk + · · · h들 중 같은 값들이 많을 것. (ex: CNN) Jinseob Kim Journal Review 2017-2 Sep 12, 2017 19 / 38
  • 20. Why Deep? Why Deep? Jinseob Kim Journal Review 2017-2 Sep 12, 2017 20 / 38
  • 21. Why Deep? Summary: Layer 수는 많아야 한다 Hierarchical Processess 대부분의 현상 No flattening theorem Layer 갯수 줄이면 필요한 parameter수가 오히려 늘어날 수 있다. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 21 / 38
  • 22. Why Deep? Jinseob Kim Journal Review 2017-2 Sep 12, 2017 22 / 38
  • 23. Why Deep? 1 인공위성에서 우주 마이크로파 배경복사(CMB) 데이터 측정 그림 데이터 2 신호 Frequency별 분해: noise제거 고양이와 배경으로 분해 3 CMB SKY MAP : 빨간색일수록 고온 고양이 그림 데이터 4 파워스펙트럼: 얼룩 크기별 분포 색깔, 모양, 자세. . . 5 우주상수 계산 고양이 vs 개 결정 Jinseob Kim Journal Review 2017-2 Sep 12, 2017 23 / 38
  • 24. Why Deep? Sufficient Statistics and Hierarchies Sufficient Statistics T(x) P(y|x) = P(y|T(x)) y에 필요한 x의 정보는 T(x)에 전부 포함되어 있음. 예: P(y|x) = −ey−¯x 일 때, T(x) = ¯x x의 평균만 필요함. 마코프과정에서는 T(x)가 보존됨. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 24 / 38
  • 25. Why Deep? Jinseob Kim Journal Review 2017-2 Sep 12, 2017 25 / 38
  • 26. Why Deep? Renormalization Group Theory 기본입자들로 현실의 이론을 만들 순 없다. 무한히 많은 입자. 무한히 많은 상호작용. Elementary Particle → atom → gas, liquid, solid (F = ma) Jinseob Kim Journal Review 2017-2 Sep 12, 2017 26 / 38
  • 27. Why Deep? Example: Block Spin renormalization 다수결로 Grouping Jinseob Kim Journal Review 2017-2 Sep 12, 2017 27 / 38
  • 28. Why Deep? Example: Network renormalization Jinseob Kim Journal Review 2017-2 Sep 12, 2017 28 / 38
  • 29. Why Deep? Example: Box counting renormalization Jinseob Kim Journal Review 2017-2 Sep 12, 2017 29 / 38
  • 30. Why Deep? Jinseob Kim Journal Review 2017-2 Sep 12, 2017 30 / 38
  • 31. Why Deep? No flattening theorem Layer 수를 줄이면 필요한 parameter수는 오히려 늘어날 수 있다. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 31 / 38
  • 32. Why Deep? 곱셈: 1 layer & 4 nodes 일반화- n개 숫자의 곱셈 1 1 layer: 2n nodes 필요 2 n layer: 4n nodes 필요 2n > 4n Jinseob Kim Journal Review 2017-2 Sep 12, 2017 32 / 38
  • 33. Why Deep? Example: 행렬곱셈 0,1로만 이루어지고 1일 확률이 p인 n × n행렬을 상상하자. 행렬 F를 그냥 표현하는 것과 두 행렬의 곱 AB로 나타내는 것 중 어떤 방법이 1이 적게 나올까? 1이 적게 나오는 쪽이 효율적임. p는 충분히 작다는 조건. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 33 / 38
  • 34. Why Deep? AB의 두 행렬로 표현 A의 1의 갯수: n2 × p B의 1의 갯수: n2 × p F = AB에서 1의 갯수: 2n2p Jinseob Kim Journal Review 2017-2 Sep 12, 2017 34 / 38
  • 35. Why Deep? F 하나로 표현 Fij = k AikBkj가 0일 확률: (1 − p2)n Fij = k AikBkj가 1일 확률: 1 − (1 − p2)n F의 1의 갯수: n2 × (1 − (1 − p2)n) Jinseob Kim Journal Review 2017-2 Sep 12, 2017 35 / 38
  • 36. Why Deep? 비교 1개 표현 2개 표현 = n2(1 − (1 − p2)n) 2n2p = 1 − (1 − p2)n 2p n이 충분히 커지면 이 값은 1 2p 에 가까워지고 1보다 크다. 따라서 1개 행렬로 표현하는 것이 더 비효율적이다. Jinseob Kim Journal Review 2017-2 Sep 12, 2017 36 / 38
  • 37. Conclusions Conclusions Jinseob Kim Journal Review 2017-2 Sep 12, 2017 37 / 38
  • 38. Conclusions Swallow Neural Network의 성공 데이터의 Log(p)가 자연과 마찬가지로 symmetry, low polynomial, locality를 갖기 때문. Deep Neural Network의 성공 대부분이 Hierarchial Process No flattening theorem Jinseob Kim Journal Review 2017-2 Sep 12, 2017 38 / 38