44. 神經網路(多個輸入參數)
44
w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用線性函式
bxwy
i
ii
2
1
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
bz
bxwy
i
ii
ˆˆ
ˆˆˆ
2
1
函式切線斜率(對 偏微分)1
ˆw
修正方式1
ˆw
11
1
11
ˆ
ˆ
ˆˆ xw
w
F
ww
1
1
11
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F
X2
X1
w2
函式切線斜率(對 偏微分)2
ˆw
2
2
22
11
ˆ
ˆ
ˆ
ˆ
ˆˆ
x
x
w
z
z
y
y
F
w
F
函式切線斜率(對 偏微分)bˆ
111
ˆ
ˆ
ˆ
ˆ
ˆˆ b
z
z
y
y
F
b
F
修正方式2
ˆw
22
2
22
ˆ
ˆ
ˆˆ xw
w
F
ww
修正方式bˆ
b
b
F
bb ˆ
ˆ
ˆˆ
45. 神經網路(多個輸入參數)
45
w1 Y
梯度下降法應用於神經網路之權重和誤差項 採用S型函式
z
i
ii
e
zsy
bxwz
1
1
2
1
神經網路函式
(真值)
22
2
1
ˆ
2
1ˆ,ˆ yybwF
神經網路函式
(估計值)
目標函式
函式切線斜率(對 偏微分)1
ˆw
修正方式1
ˆw
11
11
1
11
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww
1
1
1
11
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F
X2
X1
w2
函式切線斜率(對 偏微分)2
ˆw 函式切線斜率(對 偏微分)bˆ
修正方式2
ˆw 修正方式bˆ
z
i
ii
e
zsy
bxwz
ˆ
2
1
1
1
ˆˆ
ˆˆˆˆ
2
2
2
22
ˆ
ˆ1ˆ
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
xzs
xzszs
x
z
zs
w
z
z
zs
zs
y
y
F
w
F
zs
zszs
z
zs
b
z
z
zs
zs
y
y
F
b
F
ˆ
ˆ1ˆ
1
ˆ
ˆ
11
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆˆ
22
22
2
22
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
xzsw
xzszsw
w
F
ww
zsb
zszsb
b
F
bb
ˆˆ
ˆ1ˆˆ
ˆ
ˆˆ
46. 神經網路與神經元
神經網路(一般化表示)
46
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
‧
l
z1
l
z2
l
iz
l
sl
z
1
+
l
a1
l
a2
l
ia
l
sl
a
l
jw ,1
l
jiw ,
l
jw ,2
l
jSl
w ,
l
jb
1l
jz 1l
ja
第l層 第l+1層
第l+1層zj值(加權總和後)
l
i
s
i
l
i
l
ji
l
j bawz
l
1
,
1
第l+1層aj值(激活函式計算後)
l
i
s
i
l
i
l
ji
l
j bawga
l
1
,
1
激活函式(activation function)可為
線性、S型函式、或其他
xxg
x
e
xg
1
1
0if,0
0if,
x
xx
xg
線性函式
S型函式
線性整流函數
(Rectified
Linear Unit,
ReLU)
換個表示方式
47. 神經網路(一般化表示)
監督式學習目標為最小化估計值與真實值之間的誤差(損失)
◦ 假設損失函式(loss function)為
◦ 為真實值, 為估計值
◦ 最小化損失函式,計算方式為對損失函式微分
由於損失函式為多參數組成之函式,故分別對不同參數做偏微分
◦ 對 值計算偏微分,取得第l層最小誤差
◦ 對 值計算偏微分,取得第l層最小誤差之最佳 值
◦ 對 值計算偏微分,取得第l層最小誤差之最佳 值
對 值計算偏微分之數學證明
47
y yˆ
l
iz
l
jiw ,
l
jb
l
iz
1
1
1
1
1
,
1
1,
1
1
1
l
l l
l
s
j
l
j
l
ji
l
i
s
j
l
j
l
j
s
k
l
k
l
jkl
i
l
i
l
i
s
j
l
j
l
i
l
j
l
i
l
i
l
i
l
i
wzg
z
F
baw
az
a
z
F
a
z
z
a
z
F
l
jiw ,
l
jb
yyF ˆ,
損失函式示意圖
誤
差
或
損
失
全域最佳解
區域最佳解
0and
otherwise,0
f,1
where
l
i
l
j
l
i
l
k
a
bkii
a
a
48. 神經網路(一般化表示)
對 值計算偏微分之數學證明
對 值計算偏微分之數學證明
48
1
1,
,
1
,
1
,
l
j
l
i
l
j
l
j
s
k
l
k
l
jkl
ji
l
j
l
ji
l
j
l
ji
a
z
F
baw
w
z
F
w
z
w
F
l
0and
otherwise,0
f,1
where
,,
,
l
ji
l
j
l
ji
l
jk
w
bkii
w
w
1
1,
1
1
l
j
l
j
l
j
s
k
l
k
l
jkl
j
l
j
l
j
l
j
l
j
z
F
baw
b
z
F
b
z
b
F
l
0where
,
l
i
l
jk
b
w
l
jb
l
jiw ,
l
ji
l
ji
l
ji
w
F
ww
,
,,
權重值修正
l
j
l
j
l
j
b
F
bb
誤差項值修正
為學習率
避免一次跳太遠,
而錯過全域最佳解
為學習率
避免一次跳太遠,
而錯過全域最佳解