Why Does Deep and Cheap Learning Work So Well

Journal Review 2017-2
Why Does Deep and Cheap Learning Work So Well?
Jinseob Kim
Sep 12, 2017
Jinseob Kim Journal Review 2017-2 Sep 12, 2017 1 / 38

1 Introduction
2 Expressibility and Eﬃciency of Shallow Neural Networks
3 Why Deep?
4 Conclusions

https://arxiv.org/abs/1608.08225

https://www.technologyreview.com/s/602344/
the-extraordinary-link-between-deep-neural-networks-and-the-n

Introduction
Introduction

Introduction
Why DL work well: Math perspective
Universal approximation theorem
변수들간의 어떤 관계도 Hidden Layer 1개의 신경망으로 결국 근사할
수 있다.
https://www.slideshare.net/theeluwin/
universal-approximation-theorem-70937339

Introduction
This paper: Physics perspective
How can neural networks approximate functions well in practice?
Expressibility: What class of functions can the neural network express?
Eﬃciency: How many resources (neurons, parameters, etc) does the
neural network require to approximate a given function?
Learnability: How rapidly can the neural network learn good parameters
for approximating a function?

Expressibility and Eﬃciency of Shallow Neural Networks
Expressibility and Eﬃciency of Shallow Neural
Networks

Summary
1 곱셈 f : (x, y) → xy 를 간단히 구현할 수 있다.
2 Low polynomial: 물리학에서 다루는 에너지함수들은 대부분 4
차이하의 다항식, DL도 마찬가지.
정규분포: e−x2
- 2차식
3 Locality: 국소 상호작용이 대부분, 대부분 2개 변수의 interaction
까지만..
4 Symmetry: 대칭적인 함수가 대부분- parameter가 줄어든다.

Notation: Physics vs ML

Hamiltonian: 에너지
H(x) = −ln p(x)
p(x) = e−H(x)
예) 정규분포
p(x) =
1
√
2π
e−x2/2
H(x) =
x2
2
+ ln
√
2π

Ex) Boltzman distribution
기체에서 입자가 특정 에너지를 가질 확률
p(E) ∝ e− E
kT

Example: Restricted Boltzman Machine(RBM)
E(v, h) = −
i
ai vi −
j
bjhj −
i j
vi wi,jhj
P(v, h) =
1
Z
e−E(v,h)
P(v) = 1
Z h e−E(v,h)를 최대화 하는 ai , bj, wi,j들을 구한다.

Multiplication Gate: Easy
σ(u) = σ0 + σ1u + σ2
u2
2
+ O(n3
)
m(u, v) ≡
σ(u + v) + σ(−u − v) − σ(u − v) − σ(−u + v)
4σ2
= uv[1 + O(u2
+ v2
)]

Low polynomial
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
hijkxi xjxk + · · ·
최신 물리학의 표준모형(Standard Model)조차 차수가 4밖에 안됨.
중심극한정리: 정규분포와 비슷한것들이 대부분, 정규분포는 차수 2
H(x) = h +
i
hi xi +
i<j
hijxi xj
2개의 곱셈은 신경망으로 쉽게 구현.

Locality
물리학의 기본 원리
근처에만 직접작용한다. 멀리 떨어진 것끼리 상호작용 X
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
대부분의 h값은 0일 것으로 예상.

Symmetry: Law of Nature
병진운동대칭: 운동량보존법칙
회전운동대칭: 각운동량보존법칙
시간대칭: 에너지보존법칙
H(x) = h +
i
hi xi +
i<j
hijxi xj +
i<j<k
h들 중 같은 값들이 많을 것. (ex: CNN)

Why Deep?
Why Deep?

Why Deep?
Summary: Layer 수는 많아야 한다
Hierarchical Processess
대부분의 현상
No ﬂattening theorem
Layer 갯수 줄이면 필요한 parameter수가 오히려 늘어날 수 있다.

Why Deep?

Why Deep?
1 인공위성에서 우주 마이크로파 배경복사(CMB) 데이터 측정
그림 데이터
2 신호 Frequency별 분해: noise제거
고양이와 배경으로 분해
3 CMB SKY MAP : 빨간색일수록 고온
고양이 그림 데이터
4 파워스펙트럼: 얼룩 크기별 분포
색깔, 모양, 자세. . .
5 우주상수 계산
고양이 vs 개 결정

Why Deep?
Suﬃcient Statistics and Hierarchies
Suﬃcient Statistics T(x)
P(y|x) = P(y|T(x))
y에 필요한 x의 정보는 T(x)에 전부 포함되어 있음.
예: P(y|x) = −ey−¯x 일 때, T(x) = ¯x
x의 평균만 필요함.
마코프과정에서는 T(x)가 보존됨.

Why Deep?

Why Deep?
Renormalization Group Theory
기본입자들로 현실의 이론을 만들 순 없다.
무한히 많은 입자. 무한히 많은 상호작용.
Elementary Particle → atom → gas, liquid, solid (F = ma)

Why Deep?
Example: Block Spin renormalization
다수결로 Grouping

Why Deep?
Example: Network renormalization

Why Deep?
Example: Box counting renormalization

Why Deep?

Why Deep?
Layer 수를 줄이면 필요한 parameter수는 오히려 늘어날 수 있다.

Why Deep?
곱셈: 1 layer & 4 nodes
일반화- n개 숫자의 곱셈
1 1 layer: 2n nodes 필요
2 n layer: 4n nodes 필요
2n > 4n

Why Deep?
Example: 행렬곱셈
0,1로만 이루어지고 1일 확률이 p인 n × n행렬을 상상하자.
행렬 F를 그냥 표현하는 것과 두 행렬의 곱 AB로 나타내는 것 중
어떤 방법이 1이 적게 나올까?
1이 적게 나오는 쪽이 효율적임.
p는 충분히 작다는 조건.

Why Deep?
AB의 두 행렬로 표현
A의 1의 갯수: n2 × p
B의 1의 갯수: n2 × p
F = AB에서 1의 갯수: 2n2p

Why Deep?
F 하나로 표현
Fij = k AikBkj가 0일 확률: (1 − p2)n
Fij = k AikBkj가 1일 확률: 1 − (1 − p2)n
F의 1의 갯수: n2 × (1 − (1 − p2)n)

Why Deep?
비교
1개 표현
2개 표현
=
n2(1 − (1 − p2)n)
2n2p
=
1 − (1 − p2)n
2p
n이 충분히 커지면 이 값은
1
2p
에 가까워지고 1보다 크다. 따라서 1개 행렬로 표현하는 것이 더
비효율적이다.

Conclusions
Conclusions

Conclusions
Swallow Neural Network의 성공
데이터의 Log(p)가 자연과 마찬가지로 symmetry, low polynomial,
locality를 갖기 때문.
Deep Neural Network의 성공
대부분이 Hierarchial Process

Why Does Deep and Cheap Learning Work So Well

Recommandé

Recommandé

Contenu connexe

Plus de Jinseob Kim

Plus de Jinseob Kim (20)

Why Does Deep and Cheap Learning Work So Well