ニューラルネットワークについて

1. ニューラルネットワークについて 1. 概要 2. パーセプトロン 3. パーセプトロンとは何か 4. AND関数とOR関数 5. 教師付き学習 6. パーセプトロンの限界 7. シグモイドニューロン 8. XOR関数を実現する 9. シグモイドニューロンの種類 10. 誤差逆伝播法 11. 誤差逆伝播法の課題 12. 再起型ニューラルネットワーク

2. ニューラルネットワークについて 1. 概要 2. パーセプトロン 3. パーセプトロンとは何か 4. AND関数とOR関数 5. 教師付き学習 6. パーセプトロンの限界 7. シグモイドニューロン 8. XOR関数を実現する 9. シグモイドニューロンの種類 10. 誤差逆伝播法 11. 誤差逆伝播法の課題 12. 再起型ニューラルネットワーク

3. 1.概要

4. ニューラルネットワークとは何かニューラルネットワークは、人間の脳を模倣したアルゴリズムの一式のこと。人間に代わってデータをクラスタリングし、分類し、パターン認識をするように設計されている。 1. 概要

5. 1. 概要 (補足) パターン認識(pattern recognition)とは認識対象がいくつかの概念に分類できる時、まず認識対象から何らかの複数の特徴量を計測(抽出)し、観測されたパターンをそれらの概念のうちのひとつに対応させる処理のこと。クラスタリング(clustering)とはクラスター（cluster）：ひとまとまりの集合体のこと。クラスタリング(clustering)：データの全体集合をいくつかの集合体に分類する動作、手法のこと。

6. ２．パーセプトロン 1. パーセプトロンとは何か 2. AND関数とOR関数 3. 教師付き学習 4. パーセプトロンの限界

7. 2. パーセプトロン：パーセプトロンとは何かパーセプトロンについて ● 複数のパーセプトロンがニューラルネットワークを構成している。 ● パーセプトロンは複数の二進数x1,x2,…を入力にとり、１個の二進数を出力する。

8. 具体的に n 個の入力信号 x1 , x2 , … , xn に対して、1個の出力信号out が決定される。それぞれの入力が出力に及ぼす影響の大きさを表す実数を重みwと表現すると、生体のニューロンの膜電位に相当する量net は net = w1 x1 + w2 x2 + … + wn xn 重みwの絶対値が大きい⇒入力信号が増幅されて伝わるので net に与える影響も大きくなる。重みwの絶対値が小さい⇒net に与える影響も小さくなる。 2. パーセプトロン：パーセプトロンとは何か

9. ニューロンの出力out 得るには、「net からニューロンが興奮するかしないかの閾値θを引いた値」を活性化関数f(x)に代入する。 out = f (net - θ) 活性化関数f(x)は、以下のようなステップ関数で表され、膜電位を表す量net が閾値θを超えた場合、 1 を出力(ニューロンは興奮する ) 膜電位を表す量net が閾値θを超えなかった場合、 0 を出力(何も起こらない) 2. パーセプトロン：パーセプトロンとは何か

10. ここまでのまとめパーセプトロンの出力が0になるか1になるかは、入力×重みの和と閾値の大小比較で決まる。つまり、ニューロンの重みと閾値を決定することで、そのニューロンの入力と出力の関係が決まる。学習：ニューロンが、自動で重みと閾値を形成していくこと。 2. パーセプトロン：パーセプトロンとは何か

11. 実際に、ニューロンモデルの出力を計算してみる。この図のニューロンモデルの重みと閾値は次のような値になっている。 w1 = 1.0 , w2 = 1.0 , θ = 1.5 x1 , x2 はそれぞれ 1 か 0 の値をとり、その組み合わせが4通り。 2. パーセプトロン：AND関数とOR関数

12. w1 = 1.0 , w2 = 1.0 , θ = 1.5 1. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 0.0 = 0.0 out = f (net - θ) = f (0.0 - 1.5) = f (-1.5) = 0.0 2. x1 = 0 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 1.0 = 1.0 out = f (net - θ) = f (1.0 - 1.5) = f (-0.5) = 0.0 3. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 0.0 = 1.0 out = f (net - θ) = f (1.0 - 1.5) = f (-0.5) = 0.0 4. x1 = 1 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 1.0 = 2.0 out = f (net - θ) = f (2.0 - 1.5) = f (0.5) = 1.0 2. パーセプトロン：AND関数とOR関数

13. 1. x1 = 0 かつ x2 = 0 のとき => out = 0 2. x1 = 0 かつ x2 = 1 のとき => out = 0 3. x1 = 0 かつ x2 = 0 のとき => out = 0 4. x1 = 1 かつ x2 = 1 のとき => out = 1 AND関数(論理積)とよばれる論理関数が成立する。このニューロンモデルはAND関数を計算できることがわかる。 2. パーセプトロン：AND関数とOR関数

14. 逆のアプローチを試してみる。 1. x1 = 0 または x2 = 0 のとき => out = 0 2. x1 = 0 または x2 = 1 のとき => out = 1 3. x1 = 0 または x2 = 0 のとき => out = 1 4. x1 = 1 または x2 = 1 のとき => out = 1 ...のような OR関数とよばれる論理関数を成立させたい！ =>重みと閾値を決めていこう 2. パーセプトロン：AND関数とOR関数

15. 閾値θを0.5に設定してみる！ w1 = 1.0 , w2 = 1.0 , θ = 0.5 1. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 0.0 = 0.0 out = f (net - θ) = f (0.0 - 0.5) = f (-0.5) = 0.0 2. x1 = 0 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 1.0 = 1.0 out = f (net - θ) = f (1.0 - 0.5) = f (0.5) = 1.0 3. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 0.0 = 1.0 out = f (net - θ) = f (1.0 - 0.5) = f (0.5) = 1.0 4. x1 = 1 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 1.0 = 2.0 out = f (net - θ) = f (2.0 - 0.5) = f (1.5) = 1.0 2. パーセプトロン：AND関数とOR関数

16. 最初の目的のとおり 1. x1 = 0 または x2 = 0 のとき => out = 0 2. x1 = 0 または x2 = 1 のとき => out = 1 3. x1 = 0 または x2 = 0 のとき => out = 1 4. x1 = 1 または x2 = 1 のとき => out = 1 ...のような OR関数が成立！ ※必ずしも重みや閾値が今回のような値でないといけないということは決してなく、他の値でもOR関数を実現できることに注意。 2. パーセプトロン：AND関数とOR関数

17. 誤り訂正学習法で教師つき学習を体験する ! ※この学習法では複数のニューロンから構成されるネットワークに対しては学習を行えないことに注意用意するもの・入力信号：xp1 , xp2 , … , xpn ・それに対する理想的な出力信号(教師信号) ：yp 入力の数を n 、入力信号と教師信号の組の数を P とする。前頁のOR関数とAND関数の場合は、入力の数が n = 2 、入力信号と教師信号の組の数が、P = 4 となっている。 2. パーセプトロン：教師付き学習

18. 誤り訂正学習法では、入力信号が与えられるごとに、閾値と全ての重みに対して、教師信号とニューロンの出力との誤差に基づいて、次式のように重みを修正していく。 wi new = wi old + η(yp - out ) xpi (1≦ i ≦n ) wi new ：修正された後の新しい重み wi old ：修整される前の古い重み η ：学習率(通常 1 以下の値に設定される正の小さな定数) yp = 1 にもかかわらず、out = 0 を出力する場合、out = 1 になるように、重みを ηxi だけ増加させる。 yp = 0 にもかかわらず、out = 1 を出力する場合、out = 0 になるように、重みを ηxi だけ減少させる。これを P 個全ての入力信号に対して、重み wi が変化しなくなるまで繰り返す。 yp - out = 1 (yp = 1, out = 0 のとき) -1 (yp = 0, out = 1 のとき) 0 (yp = out のとき) 2. パーセプトロン：教師付き学習

19. ところで、便宜上、ニューロンモデルを別の表現で表すことにする。 out = f (net - θ)なので、netから先にθを引いておく(net’とする)。閾値θの代わりに、常に 1 を与える入力 x0 = 1 と、x0に対する重み w0 = -θとすると net’ = -θ・1.0 + w1 x1 + w2 x2 + … + wn xn = w0 x0 + w1 x1 + w2 x2 + … + wn xn out = f (net’) と表すことができる。 …それでは次のページで計算する。 2. パーセプトロン：教師付き学習

20. 学習の結果、重み： w1 = 1, w2 = 1, 閾値： θ = -1 と設定すると、理想の結果が得られることがわかる。 ’ 学習前の重みは全て 0 net = 0 のときには 1 を出力するようにしている。 2. パーセプトロン：教師付き学習

21. ただし、1個のニューロンの能力には限界がある... ! XOR関数とよばれる論理関数は、1個のニューロンでは絶対に実現できない。 ※活性化関数 f (net’) の効果によって、ニューロンは、net’ が 0 より大きいときに 1 を出力し、 net’ が 0 より小さいときに 0 を出力するため。ココどうしよう？？ 2. パーセプトロン：パーセプトロンの限界

22. ニューロンが 1 を出力するか、0 を出力するかの境界線は、次式のように表すことができる。 net = w0 x0 + w1 x1 + w2 x2 = 0 AND関数やOR関数の場合、 0 を出力すべき点と 1 を出力すべき点を、上式の直線によって分けることができる。=> 線形分離可能な問題 2. パーセプトロン：パーセプトロンの限界

23. XOR関数の場合、 0 を出力すべき点と 1 を出力すべき点を、前述の直線によって分けることができないことがわかる。=> 線形分離不可能な問題 >>>1個のニューロンによって実現できる論理関数と実現できない論理関数がある。 2. パーセプトロン：パーセプトロンの限界

24. 1個のニューロンによって実現できない論理関数を実現するためには、複数のニューロンを結合し、ネットワークを構成する必要がある。 2. パーセプトロン：パーセプトロンの限界

25. ３．シグモイドニューロン (多層パーセプトロン) 1. XOR関数を実現する 2. シグモイドニューロンの種類 3. 誤差逆伝播法 4. 誤差逆伝播法の課題 5. 再起型ニューラルネットワーク

26. XOR関数に3個のニューロンを使ってリベンジする。 x1 = 0, x2 = 0のとき -0.5 + 0*1 + 0*(-1) = 0 => 0 -0.5 + 0*(-1) + 0*1 = 0 => 0 -0.5 + 0*1 + 0*1 = 0 => 0 x1 = 0 x2 = 1のとき -0.5 + 0*1 + 1*(-1) = -1.5 => 0 -0.5 + 0*(-1) + 1*1 = 0.5 => 1 -0.5 + 0*1 + 1*1 = 0.5 =>1 x1 = 1, x2 = 0のとき -0.5 + 1*1 + 0*(-1) = 0.5 => 0 -0.5 + 1*(-1) + 0*1 = -1.5 => 0 -0.5 + 1*1 + 0*1 = 0.5 =>1 x1= 1, x2 = 1のとき -0.5 + 1*1 + 1(-1) = -0.5 => 0 -0.5 + 1*(-1) + 1*1 = -0.5 => 0 -0.5 + 0*1 + 0*1 = -0.5 => 0 ちょっと悩んだこと。。。重みはそのニューロンごとに変えてもいいか悩んだ。 1番目のニューロンではx1の重みは1.0で2番目のニューロンではx1の重みは-1.0になってる。でも、個々のニューロンとみれば勿論ニューロンごとに重みを変えてもいいのかと結論に至る。 3. シグモイドニューロン：XOR関数を実現する

27. 複数のニューロンの構成の仕方は様々で大きく2つにわけることができる。 3. シグモイドニューロン：シグモイドニューロンの種類階層型ニューラルネットワーク (フィードフォワード(順伝播型)ニューラルネットワーク(feedforward neural networks)) 相互結合型ニューラルネットワーク

28. 複数のニューロンの構成の仕方は様々。 3. シグモイドニューロン：シグモイドニューロンの種類再帰型ニューラルネットワーク ( RNN : Recurrent Neural Network ) 畳み込みニューラルネットワーク (CNN : Convolutional Neural Network)

29. パーセプトロンで行った誤り訂正学習法は、複数のニューロンから構成されるネットワークに対しては学習を行えない。そこで、ニューラルネットワークの種類と、そのニューラルネットワークで行わせたい情報処理の目的に合わせた学習法がいろいろと提案されている。階層型ニューラルネットワークに対する教師付き学習法として誤差逆伝播法がある。大まかな流れ ①入力信号を与えてネットワ－クの出力を計算する ②ネットワ－クの出力と教師信号との誤差を計算する ③それを利用して重みを更新する 3. シグモイドニューロン：誤差逆伝播法

30. 第n 層のニューロンの数を Ln 個第 p 番目の入力信号：xp1, xp2, xp3, … xpL1 第 p 番目の教師信号：yp1, yp2, yp3, … ypLN <各ニューロンの出力> outj n：第 n 層、第 j 番目のニューロンの出力入力層のニューロンは入力信号を中間層に伝えるだけで、何の処理も行われない。 out j1 = xj (1≦j ≦ L 1) 各層の0番目のニューロンは、次の層のニューロンへ常に 1 を出力する。 out0 n = 1 (1≦n ≦ N -1) 他のニューロンの出力信号：第 n 層 j 番目と第 n -1 層 i 番目のニューロンの間の重み 3. シグモイドニューロン：誤差逆伝播法

31. 誤差逆伝播法では活性化関数は次式のシグモイド関数よばれる関数になる。どれだけ出力層の出力が教師信号に近づいてるのかを表す尺度として、2乗誤差 E を定義する。この E が 0 に近づけば近づくほど、出力層の出力が教師信号に近づくことになる。 >>>誤差逆伝播法の目的：2乗誤差 E を 0 に近づけるように重み wj n i n -1を決めること。 3. シグモイドニューロン：誤差逆伝播法

32. 誤差逆伝播法も勾配法に基づいて学習が行う。誤差逆伝播法の原理 w ：横軸をある1つの重み E ：縦軸を2乗誤差 wopt : E が最小となるような重み wold : 現在の重み学習によって wold から wopt へ近づくように重みの更新を行う。 wold の地点での傾きから、変更量 ⊿w を求める。新たな重み wnew を求める。 wnew = wold + ⊿w 3. シグモイドニューロン：誤差逆伝播法

33. w のみを変数として E を微分する(偏微分する)と傾きの符号が正のとき w を減少(変更量が負)させ、負のときは w を増加させる。変更量は係数ηを使って、これを繰り返すことで、wopt に近づいていく。 3. シグモイドニューロン：誤差逆伝播法

34. 重みwj n i n -1のとき wj n i n -1(new) = wj n i n -1(old) + ⊿wj n i n -1 wnew = wold + ⊿w 3. シグモイドニューロン：誤差逆伝播法

35. n = N のとき、 n ＜ N のとき、 n = N のとき、のとき δj n = -(y p j - out j N ) out j N (1 - out j N ) 3. シグモイドニューロン：誤差逆伝播法

36. n ＜ N のとき、 δj n は、教師信号とネットワークの出力である y p i , out i N を使って計算できる。 n ＜ N のとき、δj n を求めるには、δj n +1 を求めておく必要がある。 3. シグモイドニューロン：誤差逆伝播法

37. 誤差信号 δj n は出力層から入力層へ向かって、通常の信号の流れとは逆向きに伝播していく。 3. シグモイドニューロン：誤差逆伝播法

38. 誤差逆伝播法の流れ ※学習が終了しネットワークを使用する段階では、手順4から7までの操作は行われないことに注意 ① 初期値として、全ての重みを乱数によって -0.1～0.1 程度の範囲の小さな値に設定する。さらに、学習率 η (0＜η≦1) を設定する。 ② 入力信号 x p i (1≦i ≦L 1) をネットワークに入力する。 ③ 入力層から出力層に向けて、各ニューロンの出力を計算する。 ④ 出力層の出力 out j N と教師信号 y p j の誤差から、δj N を計算する。具体的には、以下の式を計算する。 δj n = -(y p j - out j N ) out j N (1 - out j N ) ⑤ ④で求めた、δj N を使って、中間層の誤差信号 δj n (n ＜ N ) を計算する。具体的には、以下の式を計算する。 ⑥ ④⑤で求めた δj n を使って、以下の式のように重みを更新する。 ⊿w j n i n -1 = -η δj n out j n -1 ⑦ 全パターンに対する2乗誤差 E が十分に小さくなったと判断したら、学習は終了する。そうでなければ、全パターンについて手順2から手順6までの操作を繰り返す。 3. シグモイドニューロン：誤差逆伝播法

39. 誤差逆伝播法の問題点局所解の問題誤差逆伝播法は勾配法を基本にしているため、常に2乗誤差 E が減少するように重みが変更されるが、図のようにくぼみの部分に落ち込んでしまうと、そこからは抜け出ることができずに、そこで学習がストップしてしまう。このようなくぼみを局所解とよぶ。 3. シグモイドニューロン：誤差逆伝播法の課題

40. 誤差逆伝播法の問題点過学習の問題あまりにも学習時の2乗誤差 E にこだわりすぎて、学習をさせすぎると、サンプルに対してはよくあてはまるモデルは構築される一方で，未知のサンプルに対する予測の精度が極めて悪化するという現象が起こる。黒丸の教師信号で学習を行ったネットワークで、実線と破線の2つのような入出力関係が得られたとする。実線は、教師信号と教師信号との間で出力に激しい変化が存在しない、一方で、破線では、教師信号と教師信号との間では存在する。要するに、訓練データに対して学習されているが、未知のデータに対して適合できていない状態のこと。 3. シグモイドニューロン：誤差逆伝播法の課題

41. 誤差逆伝播法の問題点ネットワークの構造を決定する方法が存在しないという問題誤差逆伝播法では、学習開始時から終了時まで、そのネットワークの構造が変化しない。ただ、ある入力信号と教師信号に対して、中間層のニューロン数を決定する方法が確立していない。 3. シグモイドニューロン：誤差逆伝播法の課題

42. 次はRNN(再帰型ニューラルネットワーク)の話フィードフォワードは、前方への一方向のみに情報を通過させる。（同じノードを再び通過することはない） ex)必ずしも最初に処理した写真が、次に処理する写真の分類に関連するわけではない。 ...に対して、RNNは、 ● 情報を繰り返しループ状に通過させる。 ● 現在と近い過去の2か所から情報を受け取り、それらを組み合わせて新しい情報をどう処理するかを決める。情報が連続体であるとき、記憶能力を使うとフィードフォワードネットワークだと不可能なタスクを再帰型であれば行うことができる。最大の特徴文章など一続きの連続した情報を利用することができるという点。 ex)５語からなる文章があるとすると、再帰型ニューラルネットワークでは1層1語という形で5層のニューラルネットワークを構成する。 3. シグモイドニューロン：再起型ニューラルネットワーク

43. 3. シグモイドニューロン：再起型ニューラルネットワーク同じネットワークの複数のコピーであり、それぞれが後続のネットワークにメッセージを渡すイメージ。

44. 何が嬉しい...？ ● 次の言葉を予測したい場合、その前の言葉が何だったのかを知っておくべきで、 RNNは直前の計算に左右されずに、連続的な要素ごとに同じ作業を行わせることができる。 ● 予測変換のように、直前の言葉を利用して次の言葉の出現確率を予測するということができるようになる。 ● 機械翻訳や文章生成などを行うことができるようになる。 ● テキストとして記載されたデータばかりでなく、音声を聞き取るスピーチ認識をすることも可能になり、前後のつながりがある動画なども認識が可能になる。 3. シグモイドニューロン：再起型ニューラルネットワーク

45. 訳す際、入力サイズと出力サイズが固定されず、可変になる。ニューラル翻訳は、Encoder Decoder モデルを基本としている。 Encoder Decoderモデルは2種類の RNNで構成されている。下部のEncoder部分のRNNで可変長の翻訳元文から状態に出力し、上部のDecoder部分で可変長の翻訳後の文を生成。 *Encoder：データの形式を変換する * Decoder：変換したのを戻す 3. シグモイドニューロン：再起型ニューラルネットワーク

46. 機械翻訳 GoogleのNeural Machine Translationは、さらにAttentionと8層のResidual Connectionを導入したLSTMを使った強力なモデルになっており、それはRNNの拡張。入力と出力が可変のLSTMが多層になっていて、Residual Connectionがあるところが異なるが、基本は同様のモデルだということが分かる。 3. シグモイドニューロン：再起型ニューラルネットワーク

47. 音声認識音声認識も同様に、入力が可変長の音声で、出力が可変長の認識後のテキストになる。 ↑スタンフォード大学のDeep Neural Networkを使った音声認識の研究の画像音声を画像と見立てて、入力にConvolution層を使って、出力がRNNになっている。 3. シグモイドニューロン：再起型ニューラルネットワーク

48. 画像の概要生成入力を画像にして、ニューラルネットワークに画像の説明をさせることができる。逆に、説明文から画像も出力することができる。 3. シグモイドニューロン：再起型ニューラルネットワーク

49. RNNの種類 ■ Simple RNN ■ LSTM □ GRU □ Bi-directional RNN □ Attention RNN 3. シグモイドニューロン：再起型ニューラルネットワーク

50. Simple RNN(Simple Recurrent Network(単純再帰型ネットワーク)) 隠れ層が隠れ層自身に接続して、ある時点での状態を次の状態の入力値として使うことができる。適切に訓練さえされていれば、時間的な情報を受け渡すことができる。ある時点 t での入力値 xtと前回時点での状態 st-1 から新しい st に状態が遷移する。状態 st から出力値の yt が出力される。 Simple RNNは次のように定義することができる。 3. シグモイドニューロン：再起型ニューラルネットワーク

51. LSTM(Long short-term memory) Simple RNNの問題点 => 理論上は上手くいくことが、現実ではかなり前の古い情報を考慮するようには学習されなかった。勾配消失(局所解)の問題が原因。 LSTMは、従来のRNNセルでは長期依存が必要なタスクを学習することができなかった問題を解決したモデルで、長期的な依存関係を学習することのできる、RNNの特別な一種「the clouds are in the sky,」 >skyを予測できる。「 I grew up in France………………………... I speak fluent French. 」 >関連する情報との距離が遠くなるに従い、RNNは情報を関連づけて学習することができなくなる。 3. シグモイドニューロン：再起型ニューラルネットワーク

52. LSTMの画期的な特徴は、「ゲート」と呼ばれる情報の取捨選択をできるところ！各ゲートでの情報の取捨選択は、シグモイド関数で行われる。出力が0であれば、ゲートを通さず、 1であれば全て通す。仮に忘却ゲートを1にして、入力ゲートを0にすると、状態は永久に保持され続ける。忘却ゲートのおかげで、言語モデルの例では、「彼は…」と続く文が終わったときに、主語が彼であるという状態を忘れるといったことができるようになる。時系列データでは季節の変わり目や日付の変更に対応できる。 3. シグモイドニューロン：再起型ニューラルネットワーク

53. もう少し詳しく... それぞれの線は、ベクトル全体を、一つのノードの出力から他のノードの入力に運ぶ。ピンクの円は、ベクトルの加算のような、一点の操作を表し、黄色のボックスは、学習されるニューラルネットワークの層を表す。合流している線は連結を意味し、分岐している線は内容がコピーされ、そのコピーが別の場所に行くことを表す。 simple RNN LSTM 3. シグモイドニューロン：再起型ニューラルネットワーク

54. LSTMはRNNの中間層のユニットのLSTM block、そして3つのゲートで実現されている。 LSTM block 拡大 3. シグモイドニューロン：再起型ニューラルネットワーク

55. セル状態は一種のコンベア・ベルトのようなもので、線形相互作用のみでできている。セル状態に対し情報を削除したり追加する操作はゲートと呼ばれる構造により制御される。シグモイドニューラルネット層が行う。 0は「何も通さない」 1は「全てを通す」 3. シグモイドニューロン：再起型ニューラルネットワーク

56. ３つのゲート、その１セル状態から捨てる情報を判定するこの判定は「忘却ゲート層」と呼ばれるシグモイド層によって行われる。 ht−1 と xt を見て、セル状態 Ct−1 の中の各数値のために 0 と 1 の間の数値を出力する。 1 は「完全に維持する」を表し、 0 は「完全に取り除く」を表す。使い時：既に出てきた単語に基づいて次の単語を予測するとき、代名詞の箱に入れるものを変える必要がある。ex) Aは走る。彼(A)は転ぶ。Bは走る。彼(B)は転ばない。 3. シグモイドニューロン：再起型ニューラルネットワーク

57. ３つのゲート、その2 セル状態で保存する新たな情報を判定する「入力ゲート層」と呼ばれるシグモイド層は、どの値を更新するかを判定する。 tanh 層は、セル状態に加えられる新たな候補値のベクトルを作成し、状態を更新するために、これら2つを組み合わせる。使い時：先の例の続きで、彼(A) → 彼(B)に置き換える 3. シグモイドニューロン：再起型ニューラルネットワーク

58. 忘れたいとき ft = 0が出力されるので古い値は消える新しい値に更新！：各状態値を更新すると決定した割合でスケーリングされた、新たな候補値 3. シグモイドニューロン：再起型ニューラルネットワーク

59. ３つのゲート、その3 出力するものを判定するまず、セル状態のどの部分を出力するかを判定するため、シグモイド層を実行する。判定された部分のみ出力するため、セル状態に tanh(非常に単純な層)を適用し、それにシグモイドゲートの出力を掛ける。使い時：主語の後に、動詞がくる場合、動詞に関連する主語を出力することが求められる可能性がある。例えば、英語で主語が単数か複数かを出力すると、動詞が後につづく場合、どの活用形であるべきかわかる。 3. シグモイドニューロン：再起型ニューラルネットワーク

60. 3. シグモイドニューロン：畳み込みニューラルネットワーク全結合 → θ → y_ ⇔ y パラメータの最適化を逆伝播 softmax 出力正解入力 (28, 28, 1) 第 1 層 (28, 28, 32) (14, 14, 32) 第 2 層 (14, 14, 64) (7, 7, 64) 畳み込み (5, 5, 1, 32) プーリング畳み込み (5, 5, 32, 64) プーリング誤差最小化一致なら正解不一致なら不正解全体の流れ

61. 3. シグモイドニューロン：畳み込みニューラルネットワーク畳み込みフィルター 0 0 0 0 1 0 0 0 1 0*1 1*1 1 0 0 0 0 0 1 0 1 0*1 0 0 0 0 0 0 1 0 0 ⇨ ⇨ ⇨ ストライド ⇩ ⇩ ⇩ 2 2 3 2 3 1 1 行目の畳み込み処理 2 3 1 1 2 3 1 1 4 2 3 1 1 4 1 2 3 1 1 4 1 3 2 3 1 1 4 1 3 4 2 3 1 1 4 1 3 4 3 2 行目の畳み込み処理 3 行目の畳み込み処理畳み込む (convolve)

62. 3. シグモイドニューロン：畳み込みニューラルネットワーク

63. 3. シグモイドニューロン：畳み込みニューラルネットワークストライドストライド 1 のときストライド 2 のとき

64. 3. シグモイドニューロン：畳み込みニューラルネットワークゼロパディング(Zero Padding) … 入力の特徴マップの周辺を0で埋めること。畳み込み層とプーリング層で出力サイズは次第に小さくなる。 ⇩（ゼロパディングによって）サイズを増やしたりすると層の数を増やすことができる。何が嬉しい？・端のデータに対する畳み込み回数が増えるので端の特徴も考慮されるようになる。・畳み込み演算の回数が増えるのでパラメーターの更新が多く実行される。・カーネルのサイズや、層の数を調整できる。

65. 3. シグモイドニューロン：畳み込みニューラルネットワークプーリング処理 … 情報を圧縮すること何が嬉しい？・微小な位置変化に対して頑健となる・ある程度過学習を抑制する・計算コストを下げる平均プーリングもある

66. 3. シグモイドニューロン：畳み込みニューラルネットワーク活性化関数（w*x を 0 か 1 かにする関数、 Activation Function）恒等関数ステップ関数シグモイド関数 ReLU関数ソフトマックス関数 Hyperbolic Tangent

67. 3. シグモイドニューロン：畳み込みニューラルネットワーク ReLU関数画像認識やニューラルネットワークで多用されている。

68. ソフトマックス関数全ての出力値が 1 になるように変換する。 ⇨入力値を確率の値に変換する。 3. シグモイドニューロン：畳み込みニューラルネットワーク n : outputのレイヤー数

69. 3. シグモイドニューロン：畳み込みニューラルネットワークトレーニングデータセット 60,000件のうち、今回使用するのは55,000件！ラベルデータ（正解）その画像が何の数字を与えられているか＝正解データ＝ラベル文字データ（28 * 28px） 784個の数字で構成されている。

70. 3. シグモイドニューロン：畳み込みニューラルネットワーク多次元の行列(tensor)が流れていくから tensorflow

71. ニューラルネットワークと深層学習 http://nnadl-ja.github.io/nnadl_site_ja/chap1.html 愛媛大学村上研究室 http://ipr20.cs.ehime-u.ac.jp/column/neural/index.html 高卒でもわかる機械学習 http://hokuts.com/2016/05/29/bp1/ 静岡理工大学 https://www.sist.ac.jp/~suganuma/kougi/other_lecture/SE/net/net.htm#4 Quiita http://qiita.com/KojiOhki/items/89cd7b69a8a6239d67ca http://qiita.com/miyamotok0105/items/3435930cc04650bce54d DeepAge https://deepage.net/deep_learning/2017/05/23/recurrent-neural-networks.html

73. 1.概要

74. ニューラルネットワークとは何かニューラルネットワークは、人間の脳を模倣したアルゴリズムの一式のこと。人間に代わってデータをクラスタリングし、分類し、パターン認識をするように設計されている。 1. 概要

75. 1. 概要 (補足) パターン認識(pattern recognition)とは認識対象がいくつかの概念に分類できる時、まず認識対象から何らかの複数の特徴量を計測(抽出)し、観測されたパターンをそれらの概念のうちのひとつに対応させる処理のこと。クラスタリング(clustering)とはクラスター（cluster）：ひとまとまりの集合体のこと。クラスタリング(clustering)：データの全体集合をいくつかの集合体に分類する動作、手法のこと。

76. ２．パーセプトロン 1. パーセプトロンとは何か 2. AND関数とOR関数 3. 教師付き学習 4. パーセプトロンの限界

77. 2. パーセプトロン：パーセプトロンとは何かパーセプトロンについて ● 複数のパーセプトロンがニューラルネットワークを構成している。 ● パーセプトロンは複数の二進数x1,x2,…を入力にとり、１個の二進数を出力する。

78. 具体的に n 個の入力信号 x1 , x2 , … , xn に対して、1個の出力信号out が決定される。それぞれの入力が出力に及ぼす影響の大きさを表す実数を重みwと表現すると、生体のニューロンの膜電位に相当する量net は net = w1 x1 + w2 x2 + … + wn xn 重みwの絶対値が大きい⇒入力信号が増幅されて伝わるので net に与える影響も大きくなる。重みwの絶対値が小さい⇒net に与える影響も小さくなる。 2. パーセプトロン：パーセプトロンとは何か

79. ニューロンの出力out 得るには、「net からニューロンが興奮するかしないかの閾値θを引いた値」を活性化関数f(x)に代入する。 out = f (net - θ) 活性化関数f(x)は、以下のようなステップ関数で表され、膜電位を表す量net が閾値θを超えた場合、 1 を出力(ニューロンは興奮する ) 膜電位を表す量net が閾値θを超えなかった場合、 0 を出力(何も起こらない) 2. パーセプトロン：パーセプトロンとは何か

80. ここまでのまとめパーセプトロンの出力が0になるか1になるかは、入力×重みの和と閾値の大小比較で決まる。つまり、ニューロンの重みと閾値を決定することで、そのニューロンの入力と出力の関係が決まる。学習：ニューロンが、自動で重みと閾値を形成していくこと。 2. パーセプトロン：パーセプトロンとは何か

81. 実際に、ニューロンモデルの出力を計算してみる。この図のニューロンモデルの重みと閾値は次のような値になっている。 w1 = 1.0 , w2 = 1.0 , θ = 1.5 x1 , x2 はそれぞれ 1 か 0 の値をとり、その組み合わせが4通り。 2. パーセプトロン：AND関数とOR関数

82. w1 = 1.0 , w2 = 1.0 , θ = 1.5 1. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 0.0 = 0.0 out = f (net - θ) = f (0.0 - 1.5) = f (-1.5) = 0.0 2. x1 = 0 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 1.0 = 1.0 out = f (net - θ) = f (1.0 - 1.5) = f (-0.5) = 0.0 3. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 0.0 = 1.0 out = f (net - θ) = f (1.0 - 1.5) = f (-0.5) = 0.0 4. x1 = 1 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 1.0 = 2.0 out = f (net - θ) = f (2.0 - 1.5) = f (0.5) = 1.0 2. パーセプトロン：AND関数とOR関数

83. 1. x1 = 0 かつ x2 = 0 のとき => out = 0 2. x1 = 0 かつ x2 = 1 のとき => out = 0 3. x1 = 0 かつ x2 = 0 のとき => out = 0 4. x1 = 1 かつ x2 = 1 のとき => out = 1 AND関数(論理積)とよばれる論理関数が成立する。このニューロンモデルはAND関数を計算できることがわかる。 2. パーセプトロン：AND関数とOR関数

84. 逆のアプローチを試してみる。 1. x1 = 0 または x2 = 0 のとき => out = 0 2. x1 = 0 または x2 = 1 のとき => out = 1 3. x1 = 0 または x2 = 0 のとき => out = 1 4. x1 = 1 または x2 = 1 のとき => out = 1 ...のような OR関数とよばれる論理関数を成立させたい！ =>重みと閾値を決めていこう 2. パーセプトロン：AND関数とOR関数

85. 閾値θを0.5に設定してみる！ w1 = 1.0 , w2 = 1.0 , θ = 0.5 1. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 0.0 = 0.0 out = f (net - θ) = f (0.0 - 0.5) = f (-0.5) = 0.0 2. x1 = 0 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 0.0 + 1.0 ・ 1.0 = 1.0 out = f (net - θ) = f (1.0 - 0.5) = f (0.5) = 1.0 3. x1 = 0 , x2 = 0 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 0.0 = 1.0 out = f (net - θ) = f (1.0 - 0.5) = f (0.5) = 1.0 4. x1 = 1 , x2 = 1 の場合 net = w1・x1 + w2・x2 = 1.0 ・ 1.0 + 1.0 ・ 1.0 = 2.0 out = f (net - θ) = f (2.0 - 0.5) = f (1.5) = 1.0 2. パーセプトロン：AND関数とOR関数

86. 最初の目的のとおり 1. x1 = 0 または x2 = 0 のとき => out = 0 2. x1 = 0 または x2 = 1 のとき => out = 1 3. x1 = 0 または x2 = 0 のとき => out = 1 4. x1 = 1 または x2 = 1 のとき => out = 1 ...のような OR関数が成立！ ※必ずしも重みや閾値が今回のような値でないといけないということは決してなく、他の値でもOR関数を実現できることに注意。 2. パーセプトロン：AND関数とOR関数

87. 誤り訂正学習法で教師つき学習を体験する ! ※この学習法では複数のニューロンから構成されるネットワークに対しては学習を行えないことに注意用意するもの・入力信号：xp1 , xp2 , … , xpn ・それに対する理想的な出力信号(教師信号) ：yp 入力の数を n 、入力信号と教師信号の組の数を P とする。前頁のOR関数とAND関数の場合は、入力の数が n = 2 、入力信号と教師信号の組の数が、P = 4 となっている。 2. パーセプトロン：教師付き学習

88. 誤り訂正学習法では、入力信号が与えられるごとに、閾値と全ての重みに対して、教師信号とニューロンの出力との誤差に基づいて、次式のように重みを修正していく。 wi new = wi old + η(yp - out ) xpi (1≦ i ≦n ) wi new ：修正された後の新しい重み wi old ：修整される前の古い重み η ：学習率(通常 1 以下の値に設定される正の小さな定数) yp = 1 にもかかわらず、out = 0 を出力する場合、out = 1 になるように、重みを ηxi だけ増加させる。 yp = 0 にもかかわらず、out = 1 を出力する場合、out = 0 になるように、重みを ηxi だけ減少させる。これを P 個全ての入力信号に対して、重み wi が変化しなくなるまで繰り返す。 yp - out = 1 (yp = 1, out = 0 のとき) -1 (yp = 0, out = 1 のとき) 0 (yp = out のとき) 2. パーセプトロン：教師付き学習

89. ところで、便宜上、ニューロンモデルを別の表現で表すことにする。 out = f (net - θ)なので、netから先にθを引いておく(net’とする)。閾値θの代わりに、常に 1 を与える入力 x0 = 1 と、x0に対する重み w0 = -θとすると net’ = -θ・1.0 + w1 x1 + w2 x2 + … + wn xn = w0 x0 + w1 x1 + w2 x2 + … + wn xn out = f (net’) と表すことができる。 …それでは次のページで計算する。 2. パーセプトロン：教師付き学習

90. 学習の結果、重み： w1 = 1, w2 = 1, 閾値： θ = -1 と設定すると、理想の結果が得られることがわかる。 ’ 学習前の重みは全て 0 net = 0 のときには 1 を出力するようにしている。 2. パーセプトロン：教師付き学習

91. ただし、1個のニューロンの能力には限界がある... ! XOR関数とよばれる論理関数は、1個のニューロンでは絶対に実現できない。 ※活性化関数 f (net’) の効果によって、ニューロンは、net’ が 0 より大きいときに 1 を出力し、 net’ が 0 より小さいときに 0 を出力するため。ココどうしよう？？ 2. パーセプトロン：パーセプトロンの限界

92. ニューロンが 1 を出力するか、0 を出力するかの境界線は、次式のように表すことができる。 net = w0 x0 + w1 x1 + w2 x2 = 0 AND関数やOR関数の場合、 0 を出力すべき点と 1 を出力すべき点を、上式の直線によって分けることができる。=> 線形分離可能な問題 2. パーセプトロン：パーセプトロンの限界

93. XOR関数の場合、 0 を出力すべき点と 1 を出力すべき点を、前述の直線によって分けることができないことがわかる。=> 線形分離不可能な問題 >>>1個のニューロンによって実現できる論理関数と実現できない論理関数がある。 2. パーセプトロン：パーセプトロンの限界

94. 1個のニューロンによって実現できない論理関数を実現するためには、複数のニューロンを結合し、ネットワークを構成する必要がある。 2. パーセプトロン：パーセプトロンの限界

95. ３．シグモイドニューロン (多層パーセプトロン) 1. XOR関数を実現する 2. シグモイドニューロンの種類 3. 誤差逆伝播法 4. 誤差逆伝播法の課題 5. 再起型ニューラルネットワーク

96. XOR関数に3個のニューロンを使ってリベンジする。 x1 = 0, x2 = 0のとき -0.5 + 0*1 + 0*(-1) = 0 => 0 -0.5 + 0*(-1) + 0*1 = 0 => 0 -0.5 + 0*1 + 0*1 = 0 => 0 x1 = 0 x2 = 1のとき -0.5 + 0*1 + 1*(-1) = -1.5 => 0 -0.5 + 0*(-1) + 1*1 = 0.5 => 1 -0.5 + 0*1 + 1*1 = 0.5 =>1 x1 = 1, x2 = 0のとき -0.5 + 1*1 + 0*(-1) = 0.5 => 0 -0.5 + 1*(-1) + 0*1 = -1.5 => 0 -0.5 + 1*1 + 0*1 = 0.5 =>1 x1= 1, x2 = 1のとき -0.5 + 1*1 + 1(-1) = -0.5 => 0 -0.5 + 1*(-1) + 1*1 = -0.5 => 0 -0.5 + 0*1 + 0*1 = -0.5 => 0 ちょっと悩んだこと。。。重みはそのニューロンごとに変えてもいいか悩んだ。 1番目のニューロンではx1の重みは1.0で2番目のニューロンではx1の重みは-1.0になってる。でも、個々のニューロンとみれば勿論ニューロンごとに重みを変えてもいいのかと結論に至る。 3. シグモイドニューロン：XOR関数を実現する

97. 複数のニューロンの構成の仕方は様々で大きく2つにわけることができる。 3. シグモイドニューロン：シグモイドニューロンの種類階層型ニューラルネットワーク (フィードフォワード(順伝播型)ニューラルネットワーク(feedforward neural networks)) 相互結合型ニューラルネットワーク

98. 複数のニューロンの構成の仕方は様々。 3. シグモイドニューロン：シグモイドニューロンの種類再帰型ニューラルネットワーク ( RNN : Recurrent Neural Network ) 畳み込みニューラルネットワーク (CNN : Convolutional Neural Network)

99. パーセプトロンで行った誤り訂正学習法は、複数のニューロンから構成されるネットワークに対しては学習を行えない。そこで、ニューラルネットワークの種類と、そのニューラルネットワークで行わせたい情報処理の目的に合わせた学習法がいろいろと提案されている。階層型ニューラルネットワークに対する教師付き学習法として誤差逆伝播法がある。大まかな流れ ①入力信号を与えてネットワ－クの出力を計算する ②ネットワ－クの出力と教師信号との誤差を計算する ③それを利用して重みを更新する 3. シグモイドニューロン：誤差逆伝播法

100. 第n 層のニューロンの数を Ln 個第 p 番目の入力信号：xp1, xp2, xp3, … xpL1 第 p 番目の教師信号：yp1, yp2, yp3, … ypLN <各ニューロンの出力> outj n：第 n 層、第 j 番目のニューロンの出力入力層のニューロンは入力信号を中間層に伝えるだけで、何の処理も行われない。 out j1 = xj (1≦j ≦ L 1) 各層の0番目のニューロンは、次の層のニューロンへ常に 1 を出力する。 out0 n = 1 (1≦n ≦ N -1) 他のニューロンの出力信号：第 n 層 j 番目と第 n -1 層 i 番目のニューロンの間の重み 3. シグモイドニューロン：誤差逆伝播法

101. 誤差逆伝播法では活性化関数は次式のシグモイド関数よばれる関数になる。どれだけ出力層の出力が教師信号に近づいてるのかを表す尺度として、2乗誤差 E を定義する。この E が 0 に近づけば近づくほど、出力層の出力が教師信号に近づくことになる。 >>>誤差逆伝播法の目的：2乗誤差 E を 0 に近づけるように重み wj n i n -1を決めること。 3. シグモイドニューロン：誤差逆伝播法

102. 誤差逆伝播法も勾配法に基づいて学習が行う。誤差逆伝播法の原理 w ：横軸をある1つの重み E ：縦軸を2乗誤差 wopt : E が最小となるような重み wold : 現在の重み学習によって wold から wopt へ近づくように重みの更新を行う。 wold の地点での傾きから、変更量 ⊿w を求める。新たな重み wnew を求める。 wnew = wold + ⊿w 3. シグモイドニューロン：誤差逆伝播法

103. w のみを変数として E を微分する(偏微分する)と傾きの符号が正のとき w を減少(変更量が負)させ、負のときは w を増加させる。変更量は係数ηを使って、これを繰り返すことで、wopt に近づいていく。 3. シグモイドニューロン：誤差逆伝播法

104. 重みwj n i n -1のとき wj n i n -1(new) = wj n i n -1(old) + ⊿wj n i n -1 wnew = wold + ⊿w 3. シグモイドニューロン：誤差逆伝播法

105. n = N のとき、 n ＜ N のとき、 n = N のとき、のとき δj n = -(y p j - out j N ) out j N (1 - out j N ) 3. シグモイドニューロン：誤差逆伝播法

106. n ＜ N のとき、 δj n は、教師信号とネットワークの出力である y p i , out i N を使って計算できる。 n ＜ N のとき、δj n を求めるには、δj n +1 を求めておく必要がある。 3. シグモイドニューロン：誤差逆伝播法

107. 誤差信号 δj n は出力層から入力層へ向かって、通常の信号の流れとは逆向きに伝播していく。 3. シグモイドニューロン：誤差逆伝播法

108. 誤差逆伝播法の流れ ※学習が終了しネットワークを使用する段階では、手順4から7までの操作は行われないことに注意 ① 初期値として、全ての重みを乱数によって -0.1～0.1 程度の範囲の小さな値に設定する。さらに、学習率 η (0＜η≦1) を設定する。 ② 入力信号 x p i (1≦i ≦L 1) をネットワークに入力する。 ③ 入力層から出力層に向けて、各ニューロンの出力を計算する。 ④ 出力層の出力 out j N と教師信号 y p j の誤差から、δj N を計算する。具体的には、以下の式を計算する。 δj n = -(y p j - out j N ) out j N (1 - out j N ) ⑤ ④で求めた、δj N を使って、中間層の誤差信号 δj n (n ＜ N ) を計算する。具体的には、以下の式を計算する。 ⑥ ④⑤で求めた δj n を使って、以下の式のように重みを更新する。 ⊿w j n i n -1 = -η δj n out j n -1 ⑦ 全パターンに対する2乗誤差 E が十分に小さくなったと判断したら、学習は終了する。そうでなければ、全パターンについて手順2から手順6までの操作を繰り返す。 3. シグモイドニューロン：誤差逆伝播法

109. 誤差逆伝播法の問題点局所解の問題誤差逆伝播法は勾配法を基本にしているため、常に2乗誤差 E が減少するように重みが変更されるが、図のようにくぼみの部分に落ち込んでしまうと、そこからは抜け出ることができずに、そこで学習がストップしてしまう。このようなくぼみを局所解とよぶ。 3. シグモイドニューロン：誤差逆伝播法の課題

110. 誤差逆伝播法の問題点過学習の問題あまりにも学習時の2乗誤差 E にこだわりすぎて、学習をさせすぎると、サンプルに対してはよくあてはまるモデルは構築される一方で，未知のサンプルに対する予測の精度が極めて悪化するという現象が起こる。黒丸の教師信号で学習を行ったネットワークで、実線と破線の2つのような入出力関係が得られたとする。実線は、教師信号と教師信号との間で出力に激しい変化が存在しない、一方で、破線では、教師信号と教師信号との間では存在する。要するに、訓練データに対して学習されているが、未知のデータに対して適合できていない状態のこと。 3. シグモイドニューロン：誤差逆伝播法の課題

111. 誤差逆伝播法の問題点ネットワークの構造を決定する方法が存在しないという問題誤差逆伝播法では、学習開始時から終了時まで、そのネットワークの構造が変化しない。ただ、ある入力信号と教師信号に対して、中間層のニューロン数を決定する方法が確立していない。 3. シグモイドニューロン：誤差逆伝播法の課題

112. 次はRNN(再帰型ニューラルネットワーク)の話フィードフォワードは、前方への一方向のみに情報を通過させる。（同じノードを再び通過することはない） ex)必ずしも最初に処理した写真が、次に処理する写真の分類に関連するわけではない。 ...に対して、RNNは、 ● 情報を繰り返しループ状に通過させる。 ● 現在と近い過去の2か所から情報を受け取り、それらを組み合わせて新しい情報をどう処理するかを決める。情報が連続体であるとき、記憶能力を使うとフィードフォワードネットワークだと不可能なタスクを再帰型であれば行うことができる。最大の特徴文章など一続きの連続した情報を利用することができるという点。 ex)５語からなる文章があるとすると、再帰型ニューラルネットワークでは1層1語という形で5層のニューラルネットワークを構成する。 3. シグモイドニューロン：再起型ニューラルネットワーク

113. 3. シグモイドニューロン：再起型ニューラルネットワーク同じネットワークの複数のコピーであり、それぞれが後続のネットワークにメッセージを渡すイメージ。

114. 何が嬉しい...？ ● 次の言葉を予測したい場合、その前の言葉が何だったのかを知っておくべきで、 RNNは直前の計算に左右されずに、連続的な要素ごとに同じ作業を行わせることができる。 ● 予測変換のように、直前の言葉を利用して次の言葉の出現確率を予測するということができるようになる。 ● 機械翻訳や文章生成などを行うことができるようになる。 ● テキストとして記載されたデータばかりでなく、音声を聞き取るスピーチ認識をすることも可能になり、前後のつながりがある動画なども認識が可能になる。 3. シグモイドニューロン：再起型ニューラルネットワーク

115. 訳す際、入力サイズと出力サイズが固定されず、可変になる。ニューラル翻訳は、Encoder Decoder モデルを基本としている。 Encoder Decoderモデルは2種類の RNNで構成されている。下部のEncoder部分のRNNで可変長の翻訳元文から状態に出力し、上部のDecoder部分で可変長の翻訳後の文を生成。 *Encoder：データの形式を変換する * Decoder：変換したのを戻す 3. シグモイドニューロン：再起型ニューラルネットワーク

116. 機械翻訳 GoogleのNeural Machine Translationは、さらにAttentionと8層のResidual Connectionを導入したLSTMを使った強力なモデルになっており、それはRNNの拡張。入力と出力が可変のLSTMが多層になっていて、Residual Connectionがあるところが異なるが、基本は同様のモデルだということが分かる。 3. シグモイドニューロン：再起型ニューラルネットワーク

117. 音声認識音声認識も同様に、入力が可変長の音声で、出力が可変長の認識後のテキストになる。 ↑スタンフォード大学のDeep Neural Networkを使った音声認識の研究の画像音声を画像と見立てて、入力にConvolution層を使って、出力がRNNになっている。 3. シグモイドニューロン：再起型ニューラルネットワーク

118. 画像の概要生成入力を画像にして、ニューラルネットワークに画像の説明をさせることができる。逆に、説明文から画像も出力することができる。 3. シグモイドニューロン：再起型ニューラルネットワーク

119. RNNの種類 ■ Simple RNN ■ LSTM □ GRU □ Bi-directional RNN □ Attention RNN 3. シグモイドニューロン：再起型ニューラルネットワーク

120. Simple RNN(Simple Recurrent Network(単純再帰型ネットワーク)) 隠れ層が隠れ層自身に接続して、ある時点での状態を次の状態の入力値として使うことができる。適切に訓練さえされていれば、時間的な情報を受け渡すことができる。ある時点 t での入力値 xtと前回時点での状態 st-1 から新しい st に状態が遷移する。状態 st から出力値の yt が出力される。 Simple RNNは次のように定義することができる。 3. シグモイドニューロン：再起型ニューラルネットワーク

121. LSTM(Long short-term memory) Simple RNNの問題点 => 理論上は上手くいくことが、現実ではかなり前の古い情報を考慮するようには学習されなかった。勾配消失(局所解)の問題が原因。 LSTMは、従来のRNNセルでは長期依存が必要なタスクを学習することができなかった問題を解決したモデルで、長期的な依存関係を学習することのできる、RNNの特別な一種「the clouds are in the sky,」 >skyを予測できる。「 I grew up in France………………………... I speak fluent French. 」 >関連する情報との距離が遠くなるに従い、RNNは情報を関連づけて学習することができなくなる。 3. シグモイドニューロン：再起型ニューラルネットワーク

122. LSTMの画期的な特徴は、「ゲート」と呼ばれる情報の取捨選択をできるところ！各ゲートでの情報の取捨選択は、シグモイド関数で行われる。出力が0であれば、ゲートを通さず、 1であれば全て通す。仮に忘却ゲートを1にして、入力ゲートを0にすると、状態は永久に保持され続ける。忘却ゲートのおかげで、言語モデルの例では、「彼は…」と続く文が終わったときに、主語が彼であるという状態を忘れるといったことができるようになる。時系列データでは季節の変わり目や日付の変更に対応できる。 3. シグモイドニューロン：再起型ニューラルネットワーク

123. もう少し詳しく... それぞれの線は、ベクトル全体を、一つのノードの出力から他のノードの入力に運ぶ。ピンクの円は、ベクトルの加算のような、一点の操作を表し、黄色のボックスは、学習されるニューラルネットワークの層を表す。合流している線は連結を意味し、分岐している線は内容がコピーされ、そのコピーが別の場所に行くことを表す。 simple RNN LSTM 3. シグモイドニューロン：再起型ニューラルネットワーク

124. LSTMはRNNの中間層のユニットのLSTM block、そして3つのゲートで実現されている。 LSTM block 拡大 3. シグモイドニューロン：再起型ニューラルネットワーク

125. セル状態は一種のコンベア・ベルトのようなもので、線形相互作用のみでできている。セル状態に対し情報を削除したり追加する操作はゲートと呼ばれる構造により制御される。シグモイドニューラルネット層が行う。 0は「何も通さない」 1は「全てを通す」 3. シグモイドニューロン：再起型ニューラルネットワーク

126. ３つのゲート、その１セル状態から捨てる情報を判定するこの判定は「忘却ゲート層」と呼ばれるシグモイド層によって行われる。 ht−1 と xt を見て、セル状態 Ct−1 の中の各数値のために 0 と 1 の間の数値を出力する。 1 は「完全に維持する」を表し、 0 は「完全に取り除く」を表す。使い時：既に出てきた単語に基づいて次の単語を予測するとき、代名詞の箱に入れるものを変える必要がある。ex) Aは走る。彼(A)は転ぶ。Bは走る。彼(B)は転ばない。 3. シグモイドニューロン：再起型ニューラルネットワーク

127. ３つのゲート、その2 セル状態で保存する新たな情報を判定する「入力ゲート層」と呼ばれるシグモイド層は、どの値を更新するかを判定する。 tanh 層は、セル状態に加えられる新たな候補値のベクトルを作成し、状態を更新するために、これら2つを組み合わせる。使い時：先の例の続きで、彼(A) → 彼(B)に置き換える 3. シグモイドニューロン：再起型ニューラルネットワーク

128. 忘れたいとき ft = 0が出力されるので古い値は消える新しい値に更新！：各状態値を更新すると決定した割合でスケーリングされた、新たな候補値 3. シグモイドニューロン：再起型ニューラルネットワーク

129. ３つのゲート、その3 出力するものを判定するまず、セル状態のどの部分を出力するかを判定するため、シグモイド層を実行する。判定された部分のみ出力するため、セル状態に tanh(非常に単純な層)を適用し、それにシグモイドゲートの出力を掛ける。使い時：主語の後に、動詞がくる場合、動詞に関連する主語を出力することが求められる可能性がある。例えば、英語で主語が単数か複数かを出力すると、動詞が後につづく場合、どの活用形であるべきかわかる。 3. シグモイドニューロン：再起型ニューラルネットワーク

130. 3. シグモイドニューロン：畳み込みニューラルネットワーク全結合 → θ → y_ ⇔ y パラメータの最適化を逆伝播 softmax 出力正解入力 (28, 28, 1) 第 1 層 (28, 28, 32) (14, 14, 32) 第 2 層 (14, 14, 64) (7, 7, 64) 畳み込み (5, 5, 1, 32) プーリング畳み込み (5, 5, 32, 64) プーリング誤差最小化一致なら正解不一致なら不正解全体の流れ

131. 3. シグモイドニューロン：畳み込みニューラルネットワーク畳み込みフィルター 0 0 0 0 1 0 0 0 1 0*1 1*1 1 0 0 0 0 0 1 0 1 0*1 0 0 0 0 0 0 1 0 0 ⇨ ⇨ ⇨ ストライド ⇩ ⇩ ⇩ 2 2 3 2 3 1 1 行目の畳み込み処理 2 3 1 1 2 3 1 1 4 2 3 1 1 4 1 2 3 1 1 4 1 3 2 3 1 1 4 1 3 4 2 3 1 1 4 1 3 4 3 2 行目の畳み込み処理 3 行目の畳み込み処理畳み込む (convolve)

132. 3. シグモイドニューロン：畳み込みニューラルネットワーク

133. 3. シグモイドニューロン：畳み込みニューラルネットワークストライドストライド 1 のときストライド 2 のとき

134. 3. シグモイドニューロン：畳み込みニューラルネットワークゼロパディング(Zero Padding) … 入力の特徴マップの周辺を0で埋めること。畳み込み層とプーリング層で出力サイズは次第に小さくなる。 ⇩（ゼロパディングによって）サイズを増やしたりすると層の数を増やすことができる。何が嬉しい？・端のデータに対する畳み込み回数が増えるので端の特徴も考慮されるようになる。・畳み込み演算の回数が増えるのでパラメーターの更新が多く実行される。・カーネルのサイズや、層の数を調整できる。

135. 3. シグモイドニューロン：畳み込みニューラルネットワークプーリング処理 … 情報を圧縮すること何が嬉しい？・微小な位置変化に対して頑健となる・ある程度過学習を抑制する・計算コストを下げる平均プーリングもある

136. 3. シグモイドニューロン：畳み込みニューラルネットワーク活性化関数（w*x を 0 か 1 かにする関数、 Activation Function）恒等関数ステップ関数シグモイド関数 ReLU関数ソフトマックス関数 Hyperbolic Tangent

137. 3. シグモイドニューロン：畳み込みニューラルネットワーク ReLU関数画像認識やニューラルネットワークで多用されている。

138. ソフトマックス関数全ての出力値が 1 になるように変換する。 ⇨入力値を確率の値に変換する。 3. シグモイドニューロン：畳み込みニューラルネットワーク n : outputのレイヤー数

139. 3. シグモイドニューロン：畳み込みニューラルネットワークトレーニングデータセット 60,000件のうち、今回使用するのは55,000件！ラベルデータ（正解）その画像が何の数字を与えられているか＝正解データ＝ラベル文字データ（28 * 28px） 784個の数字で構成されている。

140. 3. シグモイドニューロン：畳み込みニューラルネットワーク多次元の行列(tensor)が流れていくから tensorflow

141. ニューラルネットワークと深層学習 http://nnadl-ja.github.io/nnadl_site_ja/chap1.html 愛媛大学村上研究室 http://ipr20.cs.ehime-u.ac.jp/column/neural/index.html 高卒でもわかる機械学習 http://hokuts.com/2016/05/29/bp1/ 静岡理工大学 https://www.sist.ac.jp/~suganuma/kougi/other_lecture/SE/net/net.htm#4 Quiita http://qiita.com/KojiOhki/items/89cd7b69a8a6239d67ca http://qiita.com/miyamotok0105/items/3435930cc04650bce54d DeepAge https://deepage.net/deep_learning/2017/05/23/recurrent-neural-networks.html

ニューラルネットワークについて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ニューラルネットワークについて

Similar to ニューラルネットワークについて (8)

Recently uploaded

Recently uploaded (11)

ニューラルネットワークについて