神經網路(Python+TensorFlow+Keras)

神經網路
教師：陳志華博士

大綱-神經網路
神經網路在學什麼？
梯度下降(Gradient Descent)
線性迴歸(Linear Regression)
線性迴歸實作
邏輯迴歸(Logistic Regression)
邏輯迴歸實作
神經網路(Neural Network)
神經網路實作
神經網路應用案例
2

原始資料
結構化資料
機器學習結果
3
時間平均股價
103年2月 90.77
103年3月 92.74
103年4月 93.98
103年5月？
輸入值(x) 輸出值(y)
1 90.77
2 92.74
3 93.98
  bxwxfy 
  287.89605.1  xxfy
  707.954  fy 線性迴歸結果
資料前處理
90
91
92
93
94
95
96
103-2 103-3 103-4 103-5
平均股價
年份-月份
中華電信103年2月-4月平均股價
f(x)為一條趨勢線
深度學習主要就是
在學習「趨勢」
95.707
資料來源：個股月成交資訊，臺灣證券交易所，網址：https://goo.gl/ykB3gA
趨勢線定義：
點到線的距離最小化
中華電信103年5月
平均股價多少？
(也就是x=4代入)
95.707
f(x) = f(4)
機器人圖片來源：
Eyebot Chat Room.
Url: https://goo.gl/gpMrK9

原始資料
結構化資料
機器學習結果
4
時間平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
1 105.71
2 104.02
3 102.86
資料前處理
台灣大哥大102年4
月平均股價多少？
101.35
f(x) = f(4)
Eyebot Chat Room.
    05.107425.1  xxfy
  35.1014  fy 線性迴歸結果
101
102
103
104
105
106
107
102-1 102-2 102-3 102-4
平均股價
年份-月份
台灣大哥大102年1月-4月平均股價
101.35
學習出來的線性趨勢與
真實資料有很大的誤差
真實資料為
「非線性趨勢」

原始資料
結構化資料
機器學習結果
5
時間平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
1 105.71
2 104.02
3 102.86
資料前處理
期望可以
回答102.51
f(x) = f(4)
Eyebot Chat Room.
101
102
103
104
105
106
107
102-1 102-2 102-3 102-4
平均股價
年份-月份
期望建立一條
非線性(曲線)趨勢線
真實資料為
  ? xfy
如何讓機器學習得到
非線性(曲線)趨勢線？

原始資料
結構化資料
機器學習結果
6
時間平均股價
102年1月 105.71
102年2月 104.02
102年3月 102.86
102年4月 102.51
資料前處理
預測值0.967
再乘上105.71
回答102.222
f(x) = f(4)
Eyebot Chat Room.
0.95
0.96
0.97
0.98
0.99
1
102-1 102-2 102-3 102-4
平均股價
年份-月份
建立一條
非線性(曲線)趨勢線
真實資料為
正規化
同除以
105.71
1 1
2 0.984
3 0.973
4 0.970
    z
e
zsxfy
bxwz




1
1
 
    967.0
1
1
37.34
275.5476.0
37.3





e
sfy
xz
經由S型函式得到
非線性(曲線)結果
邏輯迴歸結果

線性迴歸 vs. 邏輯迴歸
線性迴歸和邏輯迴歸的限制
◦ 假設參數之間互相獨立
◦ 當參數有交互影響時將會不準
◦ 不適合的例子─XOR (互斥或)計算
7
線性迴歸邏輯迴歸
輸入值 x x
輸出值
核心函式線性函式 S型函式
    z
e
zsxfy
bxwz




1
1
X1 X2 Y 估計值
0 0 0 0.5
0 1 1 0.5
1 0 1 0.5
1 1 0 0.5
w
機器學習無法學會
XOR，所以權重皆接
近為0，全部猜0.5
5.0
1
1
0




e
估計值
輸入層輸出層
輸入層輸出層

原始資料
8
月份遠傳台灣大中華電
102年2月跌跌跌
102年3月跌跌跌
102年4月漲跌漲
102年5月漲漲漲
102年6月漲跌跌
102年7月漲漲漲
102年8月跌跌跌
102年9月跌跌漲
102年10月跌跌跌
102年11月跌漲跌
102年12月跌跌漲
103年1月跌跌跌
電信三雄的股價漲跌狀況
月份
遠傳
(當月)
(X1)
台灣大
( 當月)
(X2)
中華電
(次月)
(Y)
102年2月 0 0 0
102年3月 0 0 1
102年4月 1 0 1
102年5月 1 1 0
102年6月 1 0 1
102年7月 1 1 0
102年8月 0 0 1
102年9月 0 0 0
102年10月 0 0 0
102年11月 0 1 1
102年12月 0 0 0
103年1月 0 0 0
運用「遠傳和台灣大漲跌」預測「中華電漲跌」跌為0、漲為1
電信三雄股價是XOR現象
12個月份中有10個月份符合
XOR的現象
用線性迴歸或邏輯迴歸預
測會不準，必需要使用
「神經網路」

預測結果
9
月份
遠傳
(當月)
台灣大
( 當月)
中華電
(次月)
真實值
中華電
(次月)
估計值
102年2月 0 0 0 0
102年3月 0 0 1 0
102年4月 1 0 1 1
102年5月 1 1 0 0
102年6月 1 0 1 1
102年7月 1 1 0 0
102年8月 0 0 1 0
102年9月 0 0 0 0
102年10月 0 0 0 0
102年11月 0 1 1 1
102年12月 0 0 0 0
103年1月 0 0 0 0
預測準確度為 10/12 = 83%
兩筆誤判
其他正確
h1
h2
輸入層隱藏層輸出層
加入隱藏層
學「深」一點
分析因子相依性
神經網路
多層迴歸
 當參數有交互影響時，只有一層迴歸函式(即input直接對到
output)將會不準
 可以多加入一層隱藏層，隱藏層中有2個神經元，透過隱藏層
神經元來分析input參數之間的交互關係
 輸入層和隱藏層之間可採用邏輯迴歸計算，隱藏層和輸出層
之間可採用邏輯迴歸計算

深度學習定義
◦ 包含一層隱藏層以上的「神經網路」
深度學習目標
◦ 學習資料的「趨勢」
深度學習優勢
◦ 經由「隱藏層」分析因子間的相依性
適用情境
運算時間
◦ 線性迴歸 < 邏輯迴歸 < 神經網路
10
適用情境線性迴歸邏輯迴歸神經網路
線性問題
非線性問題
因子間獨立
因子間相依
資料來源： Yann LeCun, Yoshua Bengio,
Geoffrey Hinton, “Deep learning,” Nature,
no. 521, pp. 436–444, 2015
加深一層來學習因子相依性

11
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
梯度下降
如何找曲線的相對低點？
如何讓w值向相對低點邁進？
   
25.0
5.0
2
2


ww
wwF
12 


w
w
F
目標函式
函式切線斜率
w=0.5時，
F函式相對低點
對w微分
F函式之一階導函數
Iteration w F
1 0.000 0.250 -0.100
2 0.100 0.160 -0.080
3 0.180 0.102 -0.064
4 0.244 0.066 -0.051
5 0.295 0.042 -0.041
6 0.336 0.027 -0.033
7 0.369 0.017 -0.026
8 0.395 0.011 -0.021
9 0.416 0.007 -0.017
10 0.433 0.005 -0.013
 12 w
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
當w=0時，斜率為-1
當w=1時，斜率為1
斜率絕對值越大，則
所需修正幅度越大
當w=0.25時，斜率為-0.5
所需修正幅度較小
 12 



ww
w
F
ww


為學習率
避免一次跳太遠

 
1.0
1021.00

w
 
18.0
11.021.01.0

w
Iteration 2的w值
Iteration 3的w值
1.0
當經過63個Interation
後，w值將修正為0.5，
並且不需再修正(收斂)
用前一個Iteration
的w值減去斜率為
新的w值
當w=0.5時，斜率為0
斜率為0時，代表為相
對低點，不需修正

梯度下降
學習率的作用？
12
Iteration w F
1 0.000 0.250 -1.000
2 1.000 0.250 1.000
3 0.000 0.250 -1.000
4 1.000 0.250 1.000
5 0.000 0.250 -1.000
6 1.000 0.250 1.000
7 0.000 0.250 -1.000
8 1.000 0.250 1.000
9 0.000 0.250 -1.000
10 1.000 0.250 1.000
Iteration w F
1 0.000 0.250 -0.900
2 0.900 0.160 0.720
3 0.180 0.102 -0.576
4 0.756 0.066 0.461
5 0.295 0.042 -0.369
6 0.664 0.027 0.295
7 0.369 0.017 -0.236
8 0.605 0.011 0.189
9 0.416 0.007 -0.151
10 0.567 0.005 0.121
學習率為0.9
 12 w
 12 w

學習率為1
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
 12  www
學習率過大，
w在0和1兩個值之
間擺盪，無法收斂
0
0.05
0.1
0.15
0.2
0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
F
w
 129.0  www
學習率大時，擺盪
幅度較大
在複雜的情境中可
能錯過全域最佳解
經過63個Interation
後收斂

梯度下降
多個參數之目標函式
13
   
22
2
2
,
bwbw
bwbwF


目標函式 bw
w
F
22 


函式切線斜率(對w偏微分)
bw
b
F
22 


函式切線斜率(對b偏微分)
w修正方式 b修正方式
 bww
w
F
ww 22 


   bwb
b
F
bb 22 


 
w+b=0時，
F函式相對低點
0
0.5
1
1.5
2
2.5
3
3.5
4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1F
w
 
 bwbb
bwww
221.0
221.0


後收斂
w=0且b=0
Iteration w b F
1 1.000 1.000 4.000 0.400
2 0.600 0.600 1.440 0.240
3 0.360 0.360 0.518 0.144
4 0.216 0.216 0.187 0.086
5 0.130 0.130 0.067 0.052
6 0.078 0.078 0.024 0.031
7 0.047 0.047 0.009 0.019
8 0.028 0.028 0.003 0.011
9 0.017 0.017 0.001 0.007
10 0.010 0.010 0.000 0.004
 bw 22 
學習率為0.1

0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1F
w
 
 bwbb
bwww
221.0
221.0


後收斂
w=0.9且b=-0.9
梯度下降
多個參數之目標函式
14
   
22
2
2
,
bwbw
bwbwF


目標函式 bw
w
F
22 


函式切線斜率(對w偏微分)
bw
b
F
22 


函式切線斜率(對b偏微分)
w修正方式 b修正方式
 bww
w
F
ww 22 


   bwb
b
F
bb 22 


 
Iteration w b F
1 1.000 -0.800 0.040 0.040
2 0.960 -0.840 0.014 0.024
3 0.936 -0.864 0.005 0.014
4 0.922 -0.878 0.002 0.009
5 0.913 -0.887 0.001 0.005
6 0.908 -0.892 0.000 0.003
7 0.905 -0.895 0.000 0.002
8 0.903 -0.897 0.000 0.001
9 0.902 -0.898 0.000 0.001
10 0.901 -0.899 0.000 0.000
 bw 22 
 w+b=0有無限多組解：
• w = 0, b = 0
• w = 0.9, b = -0.9
• w = 1, b = -1
學習率為0.1

線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項
15
bxwy 
線性迴歸函式
(真值)
bxwy ˆˆˆ 
   2
ˆˆ,ˆ yybwF 
  
   
      
 12
ˆ
ˆˆ
ˆ2
ˆ
ˆ
ˆ2
ˆ
ˆ
ˆ
2













b
bxwbxw
yy
b
yy
yy
b
yy
b
F
函式切線斜率(對偏微分) 函式切線斜率(對偏微分)
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
修正方式修正方式wˆ bˆ
  xw
w
F
ww 


  2ˆ
ˆ
ˆˆ   12ˆ
ˆ
ˆˆ 


  b
b
F
bb
令    yy ˆ 令    yy ˆ
  
   
      
 x
w
bxwbxw
yy
w
yy
yy
w
yy
w
F












2
ˆ
ˆˆ
ˆ2
ˆ
ˆ
ˆ2
ˆ
ˆ
ˆ
2
w

線性迴歸
16
bxwy 
線性迴歸函式
(真值)
   
2
2
ˆˆ,ˆ

 yybwF
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
  xw
w
F
ww 


  2ˆ
ˆ
ˆˆ   12ˆ
ˆ
ˆˆ 


  b
b
F
bb
     
 x
x
w
y
y
F
w
F

















2
12
ˆ
ˆ
ˆˆ
令    yy ˆ
     
 12
112
ˆ
ˆ
ˆˆ
















 b
y
y
F
b
F
w

線性迴歸
17
Iteration x w b y F
1 0.10 1.00 0.00 0.10 0.50 0.50 0.55 0.20 0.06 0.63
2 0.20 1.00 0.00 0.20 0.44 -0.13 -0.04 0.06 -0.07 -0.34
3 0.30 1.00 0.00 0.30 0.50 0.21 0.36 0.00 0.03 0.09
4 0.40 1.00 0.00 0.40 0.48 0.12 0.32 0.01 -0.05 -0.12
5 0.50 1.00 0.00 0.50 0.53 0.24 0.51 0.00 0.00 0.01
6 0.10 1.00 0.00 0.10 0.52 0.23 0.29 0.03 0.03 0.26
7 0.20 1.00 0.00 0.20 0.50 -0.03 0.07 0.02 -0.04 -0.18
8 0.30 1.00 0.00 0.30 0.53 0.15 0.31 0.00 0.00 0.02
9 0.40 1.00 0.00 0.40 0.53 0.14 0.35 0.00 -0.03 -0.07
10 0.50 1.00 0.00 0.50 0.56 0.21 0.49 0.00 -0.01 -0.02
yˆwˆ bˆ
以為例01  xy
0
0.05
0.1
0.15
0.2
0.25
0.4 0.5 0.6 0.7 0.8 0.9 1
F
wwˆ
學習率為0.7
後收斂
  x 2   12 
w

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5
F
w
線性迴歸
梯度下降法應用於線性迴歸之權重和誤差項，採用mini-batch計算方式
18
Iteration x w b y
1
0.10 1.00 0.00 0.10 0.50 0.50 0.55 -0.45
0.20 1.00 0.00 0.20 0.50 0.50 0.60 -0.40
0.30 1.00 0.00 0.30 0.50 0.50 0.65 -0.35
0.40 1.00 0.00 0.40 0.50 0.50 0.70 -0.30
0.50 1.00 0.00 0.50 0.50 0.50 0.75 -0.25 -0.35 0.25 0.49
2
0.10 1.00 0.00 0.10 0.26 0.01 0.04 0.06
0.20 1.00 0.00 0.20 0.26 0.01 0.06 0.14
0.30 1.00 0.00 0.30 0.26 0.01 0.09 0.21
0.40 1.00 0.00 0.40 0.26 0.01 0.11 0.29
0.50 1.00 0.00 0.50 0.26 0.01 0.14 0.36 0.21 -0.15 -0.30
yˆwˆ bˆ
以為例01  xy
wˆ
學習率為0.7
經過11個Interation後
收斂
  x 2   12 
經過11個Interation後，
為0.35，為0.2wˆ bˆ
 
假設mini-batch為5
在此案例中，mini-batch可以加速
收斂，但卻陷入區域最佳解
採用mini-batch，則計算完每個batch後，再修正權重組合
w

線性迴歸
19
bxwy 
線性迴歸函式
(真值)
   
2
2
2
1
ˆ
2
1ˆ,ˆ

 yybwF
線性迴歸函式
(估計值)
目標函式
wˆ bˆ
 xw
w
F
ww 


  ˆ
ˆ
ˆˆ   


 b
b
F
bb ˆ
ˆ
ˆˆ
     
x
x
w
y
y
F
w
F

















1
ˆ
ˆ
ˆˆ
改為    yyˆ
     

















11
ˆ
ˆ
ˆˆ b
y
y
F
b
F
除以1/2
簡化計算的巧思
w

線性迴歸實作
資料分佈呈現線性分佈
線性迴歸
◦ 線性函式
◦ 機器學習後結果
20
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7 0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
想像有一條迴歸線(以紅色表示)的存在，
可以讓每個點(以藍色表示)到迴歸線之間的
距離最小
bxwy ˆ
2.01ˆ  xy
迴歸線(以紅色表示)為
2.01  xy

線性迴歸實作
#引用tensorflow函式庫
import tensorflow
#引用keras函式庫
import keras
#引用csv函式庫
import csv
#引用numpy函式庫
import numpy
#引用pyplot函式庫
import matplotlib.pyplot as plot
21
使用深度學習套件
「tensorflow」和
「keras」訓練模型

線性迴歸實作
#讀取訓練資料
dataset = numpy.loadtxt("../資料
集/案例1.csv", delimiter=",")
X = dataset[:,0:1]
Y = dataset[:,1]
22
讀取訓練資料
X: 1個維度
Y: 1個維度

線性迴歸實作
#設定亂數種子
numpy.random.seed(0)
#設定神經網路結構
model =
keras.models.Sequential()
model.add(keras.layers.Dense(1,
input_dim = 1, activation =
'linear'))
23
輸入參數: 1個,
輸出參數: 1個,
線性函式
設定固定的亂數種子，
讓權重初始值可以一致

線性迴歸實作
#設定神經網路學習目標
model.compile(
loss='mean_squared_error',
optimizer = 'sgd',
metrics = ['mae'])
24
學習目標為最小平方誤差
最佳化方法為梯度下降法
評量指標為平均絕對誤差

線性迴歸實作
#宣告繪製結果圖形之函式
def show_train_history(train_history,
x1, x2):
plot.plot(train_history.history[x1])
plot.title('Train History')
plot.ylabel('train')
plot.xlabel('Epoch')
plot.legend([x1, x2], loc = 'upper
right')
plot.show()
25
後續可呼叫
show_train_history函式
輸出訓練結果圖形

線性迴歸實作
#訓練神經網路
train_history =
model.fit(
X, #輸入參數
Y, #輸出參數
epochs = 3000, #訓練回合數
batch_size = 1) #逐筆修正權重
26
設定輸入參數為X
設定輸出參數為Y
訓練回合數為3000
採用逐筆修正權重的方式

線性迴歸實作
#顯示訓練過程
show_train_history(train_history,
'loss', 'mean_absolute_error')
#顯示訓練錯誤率
scores = model.evaluate(X, Y)
print("n%s: %.2f%%" %
(model.metrics_names[1],
scores[1]*100))
#顯示神經網路權重值
print(model.get_weights())
27
權重組合

線性迴歸實作
#將測試資料代入模型進行預測,
並取得預測結果
predictions = model.predict(X)
print(predictions)
28
輸入資料進行估計
估計結果
權重組合
0.997

邏輯迴歸
梯度下降法應用於邏輯迴歸之權重和誤差項
29
bxwz 
邏輯迴歸函式
(真值)
bxwz ˆˆˆ 
   
2
2
2
1
ˆ
2
1ˆ,ˆ

 yybwF
邏輯迴歸函式
(估計值)
目標函式
wˆ bˆ
      
  xzsw
xzszsw
w
F
ww





ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ



令    yyˆ
     
           
     
  xzs
xzszs
xzszs
x
z
y
w
z
z
y
y
F
w
F





















ˆ
ˆ1ˆ
ˆ1ˆ1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ






  z
e
zsy 


1
1
  z
e
zsy ˆ
1
1
ˆˆ 


      
  zsw
zszsw
w
F
ww
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ








     
         
     
 zs
zszs
zszs
z
y
w
z
z
y
y
F
w
F
ˆ
ˆ1ˆ
ˆ1ˆ1
1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ



























w
採用S型函式

邏輯迴歸
S型函式微分
30
   
 
           
     
      zszs
ee
e
zs
e
e
zsezszs
ezszsee
z
s
z
s
zs
e
e
zs
zz
z
z
z
z
zzz
z
z
ˆ1ˆ
1
1
1
1
ˆ
1
ˆˆˆ
ˆˆ
ˆˆ
ˆ
1
1
1
ˆ
ˆˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ11ˆ2
11ˆ
ˆ






































3.986
邏輯迴歸實作
線性迴歸
◦ 線性函式
31
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7
 
  z
zSigmoid
xSigmoidy



1
194.1986.3
 
  z
e
zSigmoid
bxwSigmoidy




1
1
0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
迴歸線(以紅色表示)為
邏輯迴歸也能得到
接近線性的解
 
  z
e
zSigmoid
xSigmoidy




1
1
194.1986.3

邏輯迴歸實作
import tensorflow
import keras
#引用csv函式庫
import csv
import numpy
32
「tensorflow」和

邏輯迴歸實作
#讀取訓練資料
X = dataset[:,0:1]
Y = dataset[:,1]
33
讀取訓練資料
X: 1個維度
Y: 1個維度

邏輯迴歸實作
#設定亂數種子
model =
'sigmoid'))
34
輸入參數: 1個,
輸出參數: 1個,
S型函式
主要把
activation改為
sigmoid

邏輯迴歸實作
model.compile(
optimizer = 'sgd',
metrics = ['mae'])
35

邏輯迴歸實作
x1, x2):
right')
plot.show()
36
後續可呼叫

邏輯迴歸實作
#訓練神經網路
train_history =
model.fit(
X, #輸入參數
Y, #輸出參數
37

邏輯迴歸實作
#顯示訓練過程
print("n%s: %.2f%%" %
scores[1]*100))
38
權重組合

邏輯迴歸實作
print(predictions)
39
估計結果
權重組合
3.962

神經網路(線性函式)
40
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項採用線性函式
 
212
2112
bzw
bbxwwy


神經網路函式
(真值)
    22
2
1
ˆ
2
1ˆ,ˆ  yybwF
神經網路函式
(估計值)
目標函式
 
111
212
2112
ˆˆˆ
ˆˆˆ
ˆˆˆˆˆ
bxwz
bzw
bbxwwy



函式切線斜率(對偏微分) 函式切線斜率(對偏微分)2
ˆw 2
ˆb
修正方式修正方式2
ˆw 2
ˆb
 12
2
22 ˆˆ
ˆ
ˆˆ zw
w
F
ww 


    


 2
2
22
ˆ
ˆ
ˆˆ b
b
F
bb
     
1
1
22
ˆ
ˆ1
ˆ
ˆ
ˆˆ
z
z
w
y
y
F
w
F

















     

















11
ˆ
ˆ
ˆˆ
22 b
y
y
F
b
F

神經網路(線性函式)
41
X
w2w1 Y
 
212
2112
bzw
bbxwwy


神經網路函式
(真值)
    22
2
1
ˆ
2
神經網路函式
(估計值)
目標函式
 
111
212
2112
ˆˆˆ
ˆˆˆ
ˆˆˆˆˆ
bxwz
bzw
bbxwwy



ˆw 1
ˆb
ˆw 1
ˆb
 xww
w
F
ww 


 21
1
11
ˆˆ
ˆ
ˆˆ   22
1
11
ˆˆ
ˆ
ˆˆ wb
b
F
bb 


 
       
xw
xw
w
z
z
y
y
F
w
F
















2
2
1
1
11
ˆ
ˆ1
ˆ
ˆ
ˆ
ˆ
ˆˆ




       
2
2
1
1
11
ˆ
1ˆ1
ˆ
ˆ
ˆ
ˆ
ˆˆ
w
w
b
z
z
y
y
F
b
F





















神經網路(S型函式)
42
X
w2w1 Y
梯度下降法應用於神經網路之權重和誤差項採用S型函式
  
    
  z
e
zs
zsbzsws
bbxwswsy





1
1
2212
2112
神經網路函式
(真值)
    22
2
1
ˆ
2
神經網路函式
(估計值)
目標函式
ˆw 2
ˆb
ˆw 2
ˆb
       
    122
1222
2
22
ˆˆˆ
ˆˆ1ˆˆ
ˆ
ˆˆ
zszsw
zszszsw
w
F
ww








     
  22
222
2
22
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
zsb
zszsb
b
F
bb








      
            
      
   12
122
122
1
2
2
2
22
ˆˆ
ˆˆ1ˆ
ˆˆ1ˆ1
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
zszs
zszszs
zszszs
zs
z
y
w
z
z
y
y
F
w
F



























  
    2212
2112
ˆˆˆˆ
ˆˆˆˆˆ
zsbzsws
bbxwswsy


     
           
    
 2
22
22
2
2
2
22
ˆ
ˆ1ˆ
1ˆ1ˆ1
1
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆˆ
zs
zszs
zszs
z
y
b
z
z
y
y
F
b
F




























神經網路(S型函式)
43
X
w2w1 Y
  
    
  z
e
zs
zsbzsws
bbxwswsy





1
1
2212
2112
神經網路函式
(真值)
    22
2
1
ˆ
2
神經網路函式
(估計值)
目標函式
ˆw 1
ˆb
ˆw 1
ˆb
          
    xzswzsw
xzszswzszsw
w
F
ww





1221
112221
1
11
ˆˆˆˆ
ˆ1ˆˆˆ1ˆˆ
ˆ
ˆˆ



          
    1221
112221
1
11
ˆˆˆˆ
ˆ1ˆˆˆ1ˆˆ
ˆ
ˆˆ
zswzsb
zszswzszsb
b
F
bb








 
 
         
                   
         
    xzswzs
xzszswzszs
xzszswzszs
x
z
zs
w
z
y
w
z
z
zs
zs
z
z
y
y
F
w
F






























122
11222
11222
1
1
2
2
1
1
1
1
1
2
21
ˆˆˆ
ˆ1ˆˆˆ1ˆ
ˆ1ˆˆˆ1ˆ1
ˆ
ˆ
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ






  
    2212
2112
ˆˆˆˆ
ˆˆˆˆˆ
zsbzsws
bbxwswsy


 
 
         
                   
         
   122
11222
11222
1
1
2
2
1
1
1
1
1
2
21
ˆˆˆ
ˆ1ˆˆˆ1ˆ
1ˆ1ˆˆˆ1ˆ1
1
ˆ
ˆ
ˆ
ˆ
ˆ
1
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
zswzs
zszswzszs
zszswzszs
z
zs
w
z
y
b
z
z
zs
zs
z
z
y
y
F
b
F





































神經網路(多個輸入參數)
44
w1 Y
bxwy
i
ii 





 
2
1
神經網路函式
(真值)
    22
2
1
ˆ
2
神經網路函式
(估計值)
目標函式
bz
bxwy
i
ii
ˆˆ
ˆˆˆ
2
1







 
函式切線斜率(對偏微分)1
ˆw
修正方式1
ˆw
 11
1
11
ˆ
ˆ
ˆˆ xw
w
F
ww 


 
       
1
1
11
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F




















X2
X1
w2
ˆw
       
2
2
22
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F




















函式切線斜率(對偏微分)bˆ
       




















111
ˆ
ˆ
ˆ
ˆ
ˆˆ b
z
z
y
y
F
b
F
修正方式2
ˆw
 22
2
22
ˆ
ˆ
ˆˆ xw
w
F
ww 


 
修正方式bˆ
  


 b
b
F
bb ˆ
ˆ
ˆˆ

神經網路(多個輸入參數)
45
w1 Y
  z
i
ii
e
zsy
bxwz










 
1
1
2
1
神經網路函式
(真值)
    22
2
1
ˆ
2
神經網路函式
(估計值)
目標函式
ˆw
修正方式1
ˆw
     
  11
11
1
11
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww








 
 
         
    
  1
1
1
11
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F




























X2
X1
w2
ˆw 函式切線斜率(對偏微分)bˆ
修正方式2
ˆw 修正方式bˆ
  z
i
ii
e
zsy
bxwz
ˆ
2
1
1
1
ˆˆ
ˆˆˆˆ










 
 
 
         
    
  2
2
2
22
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F



























  
 
         
    
 zs
zszs
z
zs
b
z
z
zs
zs
y
y
F
b
F
ˆ
ˆ1ˆ
1
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ




























     
  22
22
2
22
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww








     
  zsb
zszsb
b
F
bb
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ









神經網路與神經元
神經網路(一般化表示)
46
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
 l
z1
 l
z2
 l
iz
 l
sl
z
1
+
 l
a1
 l
a2
 l
ia
 l
sl
a
 l
jw ,1
 l
jiw ,
 l
jw ,2
 l
jSl
w ,
 l
jb
 1l
jz  1l
ja
第l層第l+1層
第l+1層zj值(加權總和後)
       l
i
s
i
l
i
l
ji
l
j bawz
l






 

1
,
1
第l+1層aj值(激活函式計算後)
       












 
 l
i
s
i
l
i
l
ji
l
j bawga
l
1
,
1
激活函式(activation function)可為
線性、S型函式、或其他
  xxg 
  x
e
xg 


1
1
 






0if,0
0if,
x
xx
xg
線性函式
S型函式
線性整流函數
(Rectified
Linear Unit,
ReLU)
換個表示方式

監督式學習目標為最小化估計值與真實值之間的誤差(損失)
◦ 假設損失函式(loss function)為
◦ 為真實值，為估計值
◦ 最小化損失函式，計算方式為對損失函式微分
由於損失函式為多參數組成之函式，故分別對不同參數做偏微分
◦ 對值計算偏微分，取得第l層最小誤差
◦ 對值計算偏微分，取得第l層最小誤差之最佳值
◦ 對值計算偏微分，取得第l層最小誤差之最佳值
對值計算偏微分之數學證明
47
y yˆ
 l
iz
 l
jiw ,
 l
jb
 l
iz
 
 
 
 
 
   
 
   
     
 
 
     

 










































1
1
1
1
1
,
1
1,
1
1
1
l
l l
l
s
j
l
j
l
ji
l
i
s
j
l
j
l
j
s
k
l
k
l
jkl
i
l
i
l
i
s
j
l
j
l
i
l
j
l
i
l
i
l
i
l
i
wzg
z
F
baw
az
a
z
F
a
z
z
a
z
F


 l
jiw ,
 l
jb
 yyF ˆ,
損失函式示意圖
誤
差
或
損
失
全域最佳解
區域最佳解
 
 
 
  0and
otherwise,0
f,1
where 




 



l
i
l
j
l
i
l
k
a
bkii
a
a

48
 
 
   
 
     
 
   1
1,
,
1
,
1
,































l
j
l
i
l
j
l
j
s
k
l
k
l
jkl
ji
l
j
l
ji
l
j
l
ji
a
z
F
baw
w
z
F
w
z
w
F
l

 
 
 
  0and
otherwise,0
f,1
where
,,
,





 



l
ji
l
j
l
ji
l
jk
w
bkii
w
w
 
 
   
 
     
 
 1
1,
1
1































l
j
l
j
l
j
s
k
l
k
l
jkl
j
l
j
l
j
l
j
l
j
z
F
baw
b
z
F
b
z
b
F
l

 
  0where
,



l
i
l
jk
b
w
 l
jb
 l
jiw ,
   
 l
ji
l
ji
l
ji
w
F
ww
,
,,


 
權重值修正
   
 l
j
l
j
l
j
b
F
bb


 
誤差項值修正
為學習率
避免一次跳太遠，
而錯過全域最佳解

為學習率
避免一次跳太遠，
而錯過全域最佳解


神經網路
◦ 線性函式
-3.189
-3.223
 
   
 
12
1
298.1223.3
557.0189.3
zSigmoidy
zSigmoidz
xz



 
 
  z
e
zSigmoid
zSigmoidy
bzSigmoidwzbxwz





1
1
,
2
2122111
神經網路實作
49
X Y
0.1 0.3
0.2 0.4
0.3 0.5
0.4 0.6
0.5 0.7 0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6
y
x
神經網路模型(以紅色表示)為
神經網路也能得到
接近線性的解
 
   
 2
12
1
298.1223.3
557.0189.3
zSigmoidy
zSigmoidz
xz




神經網路實作
import tensorflow
import keras
#引用csv函式庫
import csv
import numpy
50
「tensorflow」和

神經網路實作
#讀取訓練資料
X = dataset[:,0:1]
Y = dataset[:,1]
51
讀取訓練資料
X: 1個維度
Y: 1個維度

神經網路實作
#設定亂數種子
model =
'linear'))
activation = 'linear'))
52
主要多加入一層
隱藏層輸入層: 輸入參數: 1個, 輸出參數: 1個, 線性函式
隱藏層: 輸入參數: 1個, 輸出參數: 1個, 線性函式

神經網路實作
model.compile(
optimizer = 'sgd',
metrics = ['mae'])
53

神經網路實作
x1, x2):
right')
plot.show()
54
後續可呼叫

神經網路實作
#訓練神經網路
train_history =
model.fit(
X, #輸入參數
Y, #輸出參數
55

神經網路實作
#顯示訓練過程
print("n%s: %.2f%%" %
scores[1]*100))
56
權重組合

神經網路實作
print(predictions)
57
估計結果
權重組合
1.000 0.996

開放資料-臺灣證券交易所
◦ 網址：
http://www.twse.com.tw/zh/page/trading/ex
change/FMTQIK.html
資料集服務分類
◦ 盤後資訊
◦ 臺灣跨市場指數
◦ TWSE自行編製指數
◦ 與FTSE合作編製指數
◦ 與銳聯合作編製指數
◦ 與S&PDJI合作編製指數
◦ 升降幅度/首五日無漲跌幅
◦ 當日沖銷交易標的及統計
◦ 融資融券與可借券賣出額度
58

選擇資料日期和股票代碼
本例資料日期以2017年為例
挑選電信業者股票代碼
◦ 2412中華電
◦ 3045台灣大
◦ 3682亞太電
◦ 4904遠傳
59

將目標個股每個月的加權平均價存到Excel
依漲跌情況，漲以1表示，跌以0表示，編碼為0、1二元表，
60
個股每個月加權平均價個股漲跌二元表
漲以1表示，跌以0表示

將個股漲跌二元表存成CSV檔
作為神經網路學習的訓練資料
61

import tensorflow
import keras
#引用csv函式庫
import csv
import numpy
62
「tensorflow」和

#讀取訓練資料
集/電信股價漲跌資料集.csv",
delimiter=",")
X = dataset[:,0:3]
Y = dataset[:,3]
63
讀取訓練資料
X: 3個維度
Y: 1個維度

#設定亂數種子
model =
'linear'))
activation = 'linear'))
64
主要多加入一層
隱藏層輸入層: 輸入參數: 3個, 輸出參數: 2個, 線性函式
隱藏層: 輸入參數: 2個, 輸出參數: 1個, 線性函式

model.compile(
optimizer = 'sgd',
metrics = ['mae'])
65

x1, x2):
right')
plot.show()
66
後續可呼叫

#訓練神經網路
train_history =
model.fit(
X, #輸入參數
Y, #輸出參數
67

#顯示訓練過程
print("n%s: %.2f%%" %
scores[1]*100))
68
權重組合

print(predictions)
69
估計結果
權重組合

神經網路實驗結果
70
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
中華電_跌中華電_漲
中華電_跌 5 1
中華電_漲 1 4
%83
6
5
Precision 


FPTP
TP
%83
6
5
Recall 


FNTP
TP

線性迴歸實驗結果
71
正確答案為
「目標類別」
正確答案為
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
機器答案為
False Negative (FN)
True Negative (TN)
中華電_跌 5 1
中華電_漲 1 4
%83
6
5
Precision 


FPTP
TP
%83
6
5
Recall 


FNTP
TP

邏輯迴歸實驗結果
72
正確答案為
「目標類別」
正確答案為
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
機器答案為
False Negative (FN)
True Negative (TN)
中華電_跌 5 1
中華電_漲 1 4
%83
6
5
Precision 


FPTP
TP
%83
6
5
Recall 


FNTP
TP

神經網路(Python+TensorFlow+Keras)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 神經網路(Python+TensorFlow+Keras)

Similaire à 神經網路(Python+TensorFlow+Keras) (7)

Plus de Fuzhou University

Plus de Fuzhou University (20)

神經網路(Python+TensorFlow+Keras)