8. Introduction
Why DL work well: Math perspective
Universal approximation theorem
변수들간의 어떤 관계도 Hidden Layer 1개의 신경망으로 결국 근사할
수 있다.
https://www.slideshare.net/theeluwin/
universal-approximation-theorem-70937339
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 8 / 38
9. Introduction
This paper: Physics perspective
How can neural networks approximate functions well in practice?
Expressibility: What class of functions can the neural network express?
Efficiency: How many resources (neurons, parameters, etc) does the
neural network require to approximate a given function?
Learnability: How rapidly can the neural network learn good parameters
for approximating a function?
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 9 / 38
10. Expressibility and Efficiency of Shallow Neural Networks
Expressibility and Efficiency of Shallow Neural
Networks
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 10 / 38
11. Expressibility and Efficiency of Shallow Neural Networks
Summary
1 곱셈 f : (x, y) → xy 를 간단히 구현할 수 있다.
2 Low polynomial: 물리학에서 다루는 에너지함수들은 대부분 4
차이하의 다항식, DL도 마찬가지.
정규분포: e−x2
- 2차식
3 Locality: 국소 상호작용이 대부분, 대부분 2개 변수의 interaction
까지만..
4 Symmetry: 대칭적인 함수가 대부분- parameter가 줄어든다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 11 / 38
12. Expressibility and Efficiency of Shallow Neural Networks
Notation: Physics vs ML
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 12 / 38
14. Expressibility and Efficiency of Shallow Neural Networks
Ex) Boltzman distribution
기체에서 입자가 특정 에너지를 가질 확률
p(E) ∝ e− E
kT
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 14 / 38
15. Expressibility and Efficiency of Shallow Neural Networks
Example: Restricted Boltzman Machine(RBM)
E(v, h) = −
i
ai vi −
j
bjhj −
i j
vi wi,jhj
P(v, h) =
1
Z
e−E(v,h)
P(v) = 1
Z h e−E(v,h)를 최대화 하는 ai , bj, wi,j들을 구한다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 15 / 38
17. Expressibility and Efficiency of Shallow Neural Networks
Low polynomial
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
최신 물리학의 표준모형(Standard Model)조차 차수가 4밖에 안됨.
중심극한정리: 정규분포와 비슷한것들이 대부분, 정규분포는 차수 2
H(x) = h +
i
hi xi +
i<j
hijxi xj
2개의 곱셈은 신경망으로 쉽게 구현.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 17 / 38
18. Expressibility and Efficiency of Shallow Neural Networks
Locality
물리학의 기본 원리
근처에만 직접작용한다. 멀리 떨어진 것끼리 상호작용 X
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
대부분의 h값은 0일 것으로 예상.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 18 / 38
19. Expressibility and Efficiency of Shallow Neural Networks
Symmetry: Law of Nature
병진운동대칭: 운동량보존법칙
회전운동대칭: 각운동량보존법칙
시간대칭: 에너지보존법칙
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
h들 중 같은 값들이 많을 것. (ex: CNN)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 19 / 38
21. Why Deep?
Summary: Layer 수는 많아야 한다
Hierarchical Processess
대부분의 현상
No flattening theorem
Layer 갯수 줄이면 필요한 parameter수가 오히려 늘어날 수 있다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 21 / 38
23. Why Deep?
1 인공위성에서 우주 마이크로파 배경복사(CMB) 데이터 측정
그림 데이터
2 신호 Frequency별 분해: noise제거
고양이와 배경으로 분해
3 CMB SKY MAP : 빨간색일수록 고온
고양이 그림 데이터
4 파워스펙트럼: 얼룩 크기별 분포
색깔, 모양, 자세. . .
5 우주상수 계산
고양이 vs 개 결정
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 23 / 38
24. Why Deep?
Sufficient Statistics and Hierarchies
Sufficient Statistics T(x)
P(y|x) = P(y|T(x))
y에 필요한 x의 정보는 T(x)에 전부 포함되어 있음.
예: P(y|x) = −ey−¯x 일 때, T(x) = ¯x
x의 평균만 필요함.
마코프과정에서는 T(x)가 보존됨.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 24 / 38
26. Why Deep?
Renormalization Group Theory
기본입자들로 현실의 이론을 만들 순 없다.
무한히 많은 입자. 무한히 많은 상호작용.
Elementary Particle → atom → gas, liquid, solid (F = ma)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 26 / 38
31. Why Deep?
No flattening theorem
Layer 수를 줄이면 필요한 parameter수는 오히려 늘어날 수 있다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 31 / 38
32. Why Deep?
곱셈: 1 layer & 4 nodes
일반화- n개 숫자의 곱셈
1 1 layer: 2n nodes 필요
2 n layer: 4n nodes 필요
2n > 4n
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 32 / 38
33. Why Deep?
Example: 행렬곱셈
0,1로만 이루어지고 1일 확률이 p인 n × n행렬을 상상하자.
행렬 F를 그냥 표현하는 것과 두 행렬의 곱 AB로 나타내는 것 중
어떤 방법이 1이 적게 나올까?
1이 적게 나오는 쪽이 효율적임.
p는 충분히 작다는 조건.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 33 / 38
34. Why Deep?
AB의 두 행렬로 표현
A의 1의 갯수: n2 × p
B의 1의 갯수: n2 × p
F = AB에서 1의 갯수: 2n2p
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 34 / 38
35. Why Deep?
F 하나로 표현
Fij = k AikBkj가 0일 확률: (1 − p2)n
Fij = k AikBkj가 1일 확률: 1 − (1 − p2)n
F의 1의 갯수: n2 × (1 − (1 − p2)n)
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 35 / 38
36. Why Deep?
비교
1개 표현
2개 표현
=
n2(1 − (1 − p2)n)
2n2p
=
1 − (1 − p2)n
2p
n이 충분히 커지면 이 값은
1
2p
에 가까워지고 1보다 크다. 따라서 1개 행렬로 표현하는 것이 더
비효율적이다.
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 36 / 38
38. Conclusions
Swallow Neural Network의 성공
데이터의 Log(p)가 자연과 마찬가지로 symmetry, low polynomial,
locality를 갖기 때문.
Deep Neural Network의 성공
대부분이 Hierarchial Process
No flattening theorem
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 38 / 38