6. 프로그래밍으로 풀려면
if() then {
} else if() then {
} else if() then {
} else if() then { } else if() then { } else if() then { } else if() then {
….
가능한 모든 경우에 대비
그래도 예외 상황은 생긴다
33. 다층 퍼셉트론
다층퍼셉트론으로 더 많은 문제를 해결할 수 있게 되었으나
여전히 남은 문제들
비선형 분류의 어려움
다층으로 쌓아올린 퍼셉트론의 학습방법 부재
.......
빙하기 돌입
34. 다층 퍼셉트론
Perceptrons (1969) by Marvin Minsky, founder of the MIT AI Lab
We need to use MLP, multilayer perceptrons (multilayer neural nets)
No one on earth had found a viable way to train MLPs good enough to learn such
simple functions.
43. Back Propagation
MLP의 계산값과 실제 값의 오차를 이용해서 가중치를 조정한다
어떻게?
각각의 가중치들이 결과에 얼마나 영향을 주었는가를 계산한다
각각의 가중치는 어떤 기울기를 가지고 있는가?
오차를 가중치로 미분한다
가중치가 여럿 있는 경우 각각의 가중치에 대해 편미분한다
62. Why deep learning?
은닉층의 수가 많을 수록 더 복잡한 문제를 해결할 수 있어서 hidden layer 의 수를
늘린 것을 deep neural network DNN 이라고 한다. (반대의 경우는 shallow neural
network) 따라서 DNN 을 학습시키는 것을 딥러닝이라고 한다
63. Why deep?
왜 은닉층의 수가 많을 수록 더 복잡한 문제를 해결할 수 있는가?
각 층을 지나면서 층의 출력이 다음 층의 입력이 되고 더 추상화된 데이터의
Feature 를 학습하게 된다고 한다.
전통적으로 데이터 Feature 는 통계나 데이터 전문가들에 의해 잘 선택되어 모델링
에 사용되었으나 이러한 DNN 의 feature extraction 능력 때문에 신경망이 좋은 결
과를 낸다고 한다.
69. Vanishing Gradient
너무 깊은 신경망에서 Backpropagation 이 진행될 수록 미분값이 0에 가까와지는
현상
“이 문제는 20년간 해결되지 못했다”
“또 다시 엄습한 인공지능 제 2의 빙하기”
70. Vanishing Gradient
너무 깊은 신경망에서 Backpropagation 이 진행될 수록 미분값이 0에 가까와지는
현상
“이 문제는 20년간 해결되지 못했다”
“또 다시 엄습한 인공지능 제 2의 빙하기”
인공지능 연구 영구됐 = 영구기관 특허처럼 논문 접수 자체를 거부
80. 인공지능 부흥의 요인
2.하드웨어의 개선
문자인식 학습에 최신 진
공관 컴퓨터로 얼마 걸리
겠소?
어디보자 ... 105년 11개
월 20일 4시간 50분 45초
가 필요하겠군요
81. 인공지능 부흥의 요인
특히나 GPU사용으로 획기적인 학습시간 개선
Vector, Matrix 연산에 드는 시간 대폭적인 감소
82. 하지만 뭐니뭐니 해도
“Big Data”
적은데이터로 아무리 열심히 학습해도 오버피팅(과적합) 만 발생
모든것이 데이터화되어가는 현대가 인공지능 연구의 온상
IBM 회장 "데이터는 제 21세기의 천연 자원이다"
83. 하지만 뭐니뭐니 해도
Big Data 없는 딥러닝은 생각할 수 없다
10개의 숫자 학습용 사진 - 5만5천장
딥페이스 - 얼굴사진 400만장
구글의 고양이 사진 인식 - 900만장
바꾸어 말하자면…
“인공지능 강자가 되려면 알고리즘 연구하려 하지 말고 데이터를 어떻게 확보할 것
인지를 고민해라”
85. FFN (Feed Forward Network)
지금까지 언급한 대표적 네트워크
전방향으로 계산한다고 해서 이런 이름이 붙여졌다
86. CNN (Convolutional Neurla Network)
데이터의 합성곱을 반복하여 Feature 를 추출하고 학습하는 네트워크
이미지 인식에 많이 사용 (MNIST 99%)
87. CNN (Convolutional Neurla Network)
데이터의 합성곱을 반복하여 Feature 를 추출하고 학습하는 네트워크
이미지 인식에 많이 사용 (MNIST 99%)
88. RNN (Recurrent Neural Network)
1회의 데이터가 아니라 과거의 데이터도 학습에 이용
순서를 가지는 정보(sequence), 즉 언어, 음성, 동영상 모델링에 많이 쓰임
이 모델도 vanishing gradient 문제가 있어서 lstm(long-short term memory), gru 등
으로 개량