More Related Content Similar to 人工知能研究のための視覚情報処理 (20) 人工知能研究のための視覚情報処理2. 1
自己紹介
中村 晃貴
慶応義塾大学 理工学部 情報工学科4年
萩原研究室
→代表の大澤さんと同じ研究室
人工知能、機械学習を研究してます
ウェブエンジニアっぽいこともたまにしてます
http://miss-sato.com
Editor's Notes では、早速発表に入っていこうと思います こういった画像見たことある人いるでしょうか。
Facebookとかで、ストレスある人はシェアとか、回ってきたりしませんか?
まあ、結論から言うと、これ、ストレス関係ないんです!
これは視覚情報処理のメカニズムから説明することができます。そのメカニズムの詳細はこの後説明しますが、
なぜ、本来描かれていない黒い点が知覚されてしまうのでしょうか。
それは人間の視覚が、ただ単に外界をありのままに捉えているのではなく、
脳内でその情報を変換したり処理したりしているからなのです。
なので、本来無いものが見えたり、あるものが見えなかったりするのです。
今上げた例はほんの一部に過ぎません。私達はあまりにもものを見ることに慣れすぎてしまっているため気づくことが非常に難しいですが、人間の視覚情報処理は私達が想像するよりもはるかに創造的な過程なんですね。
このような脳の情報処理の創造的な性質を理解することは
全脳アーキテクチャ的アプローチから人工知能の研究を行おうと考えている人々にとって
非常に有用なことではないかと考えています。
今回の発表では、人間の情報処理のプロセスをを、視覚情報処理を例にあげて、説明していきたいと思います。
今回の発表のもくじになります
まず、視覚情報の経路にお話したいと思います。
視覚情報処理のスタート地点は、当たり前ですが眼球の網膜です。ここで外界から入ってくる光刺激が電気信号に変換されます。
その後、信号は脳内をぐるっと後ろまで伝わって行って、視覚野、というところに到達します
その後、情報処理は2つの経路を通ります。
視覚野をでて頭頂葉方向へ向かう経路を背側経路といい、コチラの経路では“物体の位置”の認識を行っています
また、視覚野から下側頭皮質にいたる経路を腹側経路といい、こちらの経路では物体が
何であるか、という物体認識にかかわる情報処理を行います。
今回の発表では、物体認識に関わる腹側経路での情報処理を主に扱っていこうと思います。 次に視覚情報処理がどのように行われているのか見て行きたいと思います。
視覚情報処理は低次レベルから高次レベルへ段階的に行われていきます
低次レベルでは、方位、色、視差などの、局所的な狭い範囲での、単純な特徴が処理され、
中間レベルでは、輪郭線や面のテクスチャのような、より大域的で複雑な特徴が処理されます
そして、最終的に目に映る物体がなんであるかを判断する、物体認識の処理が行われます
ーーーーーーーーー
方位や、輪郭線を例に上げると、
また、それぞれの異なる特徴ごとに並列的に処理が行われていきます
それぞれのレベルでは下位のレベルから様々な特徴を入力として
スキャンしなおし 実際に例に挙げて説明したいと思います。例えば、こういう光景を見た時の馬という物体を認識するまでの流れを軽く説明したいと思います。ちょっと背景と馬が紛らわしいと思いますが、人間はこういう紛らわしい画像を見ても背景と物体が分離できます。
コンピュータは結構こういう処理を苦手としています。どのように背景と物体を分離し、物体認識しているのか説明したいと思います 視覚情報処理は、図のように、視野の中の局所的な線分の方位や、視差などといった低次レベルでの特徴を抽出するところから始まります。
次にそれらの特徴をを統合し、輪郭線や奥行きなどのより視野全体的で複雑な特徴を抽出し、それらの特徴を元に物体を認識します。
このようにレベルごとに段階的に処理が行われる一方で、
それぞれの特徴ごとに処理を見ていくと、それぞれの処理は並列的に行われていっています。
輪郭線は低次レベルでの方位の特徴を使用し
奥行きは低次レベルでの視差などの特徴を利用し、処理が並列的に行われています。
このように、視覚情報処理はレベルごとに段階的に
各特徴ごとに並列的に処理が進んでいくという特徴があります。
輪郭線を例に上げると、
また、それぞれの異なる特徴ごとに並列的に処理が行われていきます
それぞれのレベルでは下位のレベルから様々な特徴を入力として
スキャンしなおし 視覚情報処理の概要をまとめます。
視覚情報処理経路は物体認識を行う腹側経路と物体の位置をを認識する背側経路の二種類があります。
また、視覚情報処理は異なるレベルごとに段階的に行われ
そして、異なる特徴ごとに並列的に行われていきます。
----- 会議メモ (2015/07/06 13:55) -----
視細胞のいちを変える
色盲 4色覚
光の三原色、波長とか では次に網膜での視覚情報処理についてお話したいと思います
目はこの図で表されるように、視覚情報処理の出発点になります 網膜での視覚情報処理の流れは図のようになっています
光刺激を視細胞が電気信号に変換し、多くの視細胞から発せられる電気信号を網膜神経節細胞が編集したあと、
大脳基底核、脳へ信号を送る、という流れになっています 視細胞には二種類あります。錐体と桿体と呼ばれるものです。
錐体には3種類あり、それぞれ、異なる波長の長さの光に強く反応します。この、3種類の錐体の反応のバランスが、色覚をもたらします。
光の3原色を混ぜ合わせることで、全ての色を作り出せるという、光の性質は、そもそも色を感じる視細胞が三種類で、その錐体の反応のバランスによって色覚がもたらされるということに由来します。
もう一種類が桿体と呼ばれるものです。コチラは一種類しかありませんから、色を知覚することは出来ないのですが、
より弱い光に反応することができるので、この視細胞は暗い場所での視覚を担っています。
(色盲の話を入れる?)
----- 会議メモ (2015/07/06 13:23) -----
錐体
かっこで英単語
ふりがな この画像色盲の検査の画像
通常3種類あるはずの錐体が2種類しかなかったりすると、特定の色覚がよわまり
色盲となってしまうことがあるそうです この画像色盲の検査の画像
通常3種類あるはずの錐体が2種類しかなかったりすると、特定の色覚がよわまり
色盲となってしまうことがあるそうです 網膜神経節細胞は、さきほど少し説明したように、複数の視神経からの電気信号を統合し、編集することで情報を圧縮した後、次の器官へ信号を送る、という働きをしています
そして、ただ視神経からの信号をまとめる、という働きをしているだけではなく、視覚像の境界線や光刺激の時間的変化を強調する働きがあります。
こうすることで、人間が物体認識をするときに、背景と物体を分離しやすくしていたり、動く物体を知覚しやすくしています。
また、網膜神経節細胞は受容野の性質の違いなどによりいろいろな種類に分類されます。
主な分類の仕方に、オン型オフ型とM型P型というものがあります。
で、いま、受容野っていう言葉が出てきたんですけども、この受容野と言うのは何か、ということについて、まず説明したいと思います。 まず、受容野、と言うものに対して説明したいと思います
受容野、とは“感覚系のニューロンの神経応答(多くの場合、神経発火)に変化を生じるような刺激が提示される空間の領域のこと”を指します。
どういうことかというと どこでもいいので、どこか適当な網膜神経節細胞に注目してみましょう
網膜のどこにも光を当てていない時のニューロンの活動をこんなかんじだとします。横軸が時間で、縦軸に線が入ってる時、
神経がスパイクを発してると考えてください。
そこで、網膜上のこの部分、ここを拡大して正面から見た図をこの図とした時に
この赤い部分に光を当てるとニューロンがこの様に激しく発火し始めたとします。
一方、 この青い部分に光を当てると逆に網膜神経節細胞はその活動が収まってしまったとします。
そして、この青い線で表されている部分以外に光を当てても、この網膜神経節細胞の反応にはなんの影響もなかったとします。
この時、受容野とは、神経細胞の反応を変化させる刺激が提示される領域、のことをさすので
網膜上のこの範囲をこの網膜神経節細胞の受容野、と呼びます。
で、今見てきたように、網膜神経節細胞の受容野は、興奮性の部分、オン領域といいます、と抑制性の部分、オフ領域といいます、が
受容野の中心部分とその周辺部分に配置されている、という構造上の特徴があります。
このような受容野のことを中心-周辺拮抗型であるといいます。
そして、このような受容野構造は視覚像の境界線を強調し背景と物体の分離を促進するこうかがあります どういうことか、ということを図を用いて説明したいと思います。
先ほどの、網膜神経節細胞の受容野全体に光があたった場合と、受容野の一部にだけ光があたった場合の、ニューロンの活動を考えてみたいと思います。
網膜神経節細胞の受容野全体に光があたった場合、オン領域とオフ領域どちらにも光があたってしまうため、うちけしあい、神経節細胞の反応は弱い反応になります
このように、網膜神経節細胞の受容野上に、視覚像の境界線がくると、オフ領域の部分に光が当たらないため、その網膜神経節細胞は激しく活動します
このようにして、受容野が境界線上の網膜神経節細胞の反応が強調され、その情報を元に、背景と物体の分離は行われるのです
----- 会議メモ (2015/07/06 13:23) -----
黄色 黒 光 導入の時に用いた、黒点のでる画像も、いま説明した、中心ー周辺拮抗型受容野ののオン領域、オフ領域で説明が可能です さきほどの画像を簡略化した画像を用意しました。この画像でも、黒点のチラツキが見えると思います。
正方形の角の部分が受容野がかかっている場合と、正方形の変の部分が受容野にかかっている場合を比べて見たいと思います。
受容野の青いところをオフ領域、赤いところをオン領域とします。
それぞれ、オフ領域にかかる光刺激を比べてみると、正方形の角のところに受容野がある場合のほうが、オフ領域に入力される光が多いことがわかると思います。
したがって、この部分に受容野がくる神経細胞のかつどうが抑えられ、結果、角の部分が暗く見えるというわけです。 では、網膜神経節細胞の分類の話に戻りたいと思います
さきほど、オン型、オフ型という分類と、M型P型という分類の仕方があることは先ほどお話しました。
網膜神経節細胞の受容野の中心部分が、興奮性であるものと、抑制性であるものがあって、
この中心部分が、興奮性であるものをオン型、抑制性であるものをオフ型とよびます
オン型の網膜神経節細胞は光が強くなった時に強く反応する性質があり
オフ型の網膜神経節細胞は光が弱くなった時に強く反応する性質があります で次は、M型、P型という区分なんですけれども
この二つは、受容野の広さと、反応の時間的応答性によってくべつされています
受容野が広く、反応が一過性であるものをM型、受容野が狭く、反応が持続的であるものをP型といいます
このような網膜神経節細胞の特徴のおかげで、光刺激の時間的変化が強調され、物体の動きが強調されます
M型とP型のそれぞれに対して、受容野のオン領域に光を照射した時の反応を示すグラフがこのようになります。
P型細胞は光を照射している間、反応をし続けていますが、
M型細胞は、光を照射し始めた瞬間こそ反応していますが、すぐに反応を弱めてしまいます
このような神経節細胞の特徴は光刺激の時間的変化を強調します
そして、物体が移動するとき、ある受容野上では光刺激の入力が始まったり、終わったりします
そういった光刺激の時間的変化が強調されるため
物体の移動などを検出するときの手助けとなります。
網膜での情報処理についてまとめます
視細胞が光を電気信号に変換し、その後神経節細胞が編集します
また、視神経細胞は視覚像の境界線や、光刺激の時間的変化を強調します。
それぞれ、中心周辺拮抗がたの受容野は境界線を強調する働きをし
M型細胞は刺激の時間的変化を強調します
----- 会議メモ (2015/07/06 13:55) -----
視細胞のいちを変える
色盲 4色覚
光の三原色、波長とか では、次は中間段階の情報の統合についてお話したいと思います 今までは網膜での視覚情報処理について見てきました。網膜では、視覚像の境界線の強調、光刺激の時間的変化の強調などの処理が行われていました。
網膜でこのような処理を施された視覚情報は、次に“視覚野”というところに入力されていきます。
視覚野では、更に高次の情報処理、例えば、輪郭線の抽出や背景と物体の分離といった、複雑な工程が行われていきます。
それでは、視覚野の情報処理の概要を見て行きましょう。
視覚野とは、大脳皮質における視覚に関する領域のことで、この図の紫色のここらへんの部分が視覚野にあたるのですが、
視覚野はV1,V2,V3,V4,MT野といった領野にわかれています。MT野はV5とも呼ばれます。
そして、それぞれの領野は異なる処理を担当しています。
おおまかにわかっている範囲だと、V1では輪郭統合や面分割
V2では物体表面の性質、V4では色や物体の形、MT野では運動の空間情報などの情報を解析、統合している、と言われています。
眼からの情報の入力はまずV1に投射されます
その後、最初の概要のところで説明したように視覚情報処理は2つの経路に分かれて処理されていきます。
この図のえんじ色の矢印が腹側経路を表しており、青色の矢印が背側経路を表しています。この紫色はどちらの経路も含まれることを表しています。
眼からの視覚情報がV1に投射された後、腹側経路では主にV2、V4を経由し下側頭皮質とよばれる部位へ続いていきます
背側経路では主にV2、MT野へと流れていきます
視覚野の情報処理の特徴として、このような異なる領野ごとに階層的に処理を行っている、という点と
異なる特徴ごとに並列的に処理を行っているという点が挙げられます。
ーーー
この図を見るとわかるように、単に二つの経路が並列的に視覚情報処理を行っているのではなく、
この二つの経路はしばしば相互接続しており、また、高次から低次のフィードバック経路も多く存在しています いま、領野間の接続が階層的である、ということをお話しましたが、よりミクロな視点で見て、それぞれの領野内にも階層構造が存在します。
大脳皮質の視覚野は6層構造になっており、その機能的意味はまだ明らかになっていない部分もありますが
領野間の接続の仕方に注目した時、その出発地点と到着地に層の特徴が見られます。
領野間の接続で、より上位の領野へ向かう接続は、2-3層(一部5-6層)から4層へ向かいます。
一方下位の領野へ向かうときは2-3層、5-6層から1、5-6層へ向かう、という特徴があります。【工学カラメル besom ベイジアンネットワーク】
また、これらの上行性接続、下降接続も皮質回路の重要な要素ですが、同層間における長距離の平衡接続もまた
皮質回路の重要な要素の一つです。この接続は視野内の比較的広い範囲の特徴を結びつけ、情報を統合し、ひとまとまりの知覚をもたらすのに役立っていると言われています。
それでは、次に、各領野でどのように情報の統合が行われていくのかを具体的に見て行きましょう。
現在、最も研究が進んでいる一次視覚野(V1)を例にあげて説明してみたいと思います。
いま、領野間の接続が階層的である、ということをお話しましたが、よりミクロな視点で見て、それぞれの領野内にも階層構造が存在します。
大脳皮質の視覚野は6層構造になっており、その機能的意味はまだ明らかになっていない部分もありますが
領野間の接続の仕方に注目した時、その出発地点と到着地に層の特徴が見られます。
領野間の接続で、より上位の領野へ向かう接続は、2-3層(一部5-6層)から4層へ向かいます。
一方下位の領野へ向かうときは2-3層、5-6層から1、5-6層へ向かう、という特徴があります。【工学カラメル besom ベイジアンネットワーク】
また、これらの上行性接続、下降接続も皮質回路の重要な要素ですが、同層間における長距離の平衡接続もまた
皮質回路の重要な要素の一つです。この接続は視野内の比較的広い範囲の特徴を結びつけ、情報を統合し、ひとまとまりの知覚をもたらすのに役立っていると言われています。
それでは、次に、各領野でどのように情報の統合が行われていくのかを具体的に見て行きましょう。
現在、最も研究が進んでいる一次視覚野(V1)を例にあげて説明してみたいと思います。
一次視覚野は、網膜からの情報を受け取り、視覚野内で最も低次で単純な情報処理を担います
また、多くの視覚皮質のニューロンは、ある特徴に対して選択的に反応します。
例えば、あるニューロンは受容野内の赤色の刺激に対し選択的に反応したり、
また別のニューロンは特定の角度の光刺激に対して選択的に反応します。
そして、似たような特徴選択性を持つニューロンが集まり、コラム構造を形成している、という特徴があります。 コラム構造とは、この図のように似たような性質を持つニューロンが柱状にあつまりコラムを形成している構造なのですが、
こうすることで、似た特性を持つニューロンが短い距離で相互連絡できるため情報処理のスピードアップや脳の容積の有効利用につながると考えられています
コラムは、その領野が行っている情報処理に関連した、いろいろな種類のコラムがあり
一次視覚野では、方位選択制ニューロンが集まった方位コラムや左右どちらかからの入力に特異的に反応する眼優位性コラムなどがあります。
そして、すべての種類のコラムが集まり、ハイパーコラムという視覚モジュールの一単位を構成しています。これらのハイパーコラムの受容野が視野全体を適切に覆うことで視野内のあらゆる場所でのあらゆる特徴が適切に処理されるようになっています。 それでは、実際に一次視覚野でどのように情報処理が行われているのかについて見てきたいと思います
例として、網膜からの情報の入力をうけて、いかに輪郭線を検知するに至るのか、というところまでを説明したいと思います。
まず、どのようにしてV1のニューロンに方位選択制が生まれるのかを説明したいと思います
前の章で説明した網膜神経節細胞や、視覚野の直前の部位である外側膝状体というところのニューロンには方位選択制はありません。
先ほど説明したような中心ー周辺拮抗型の円形の受容野をもつニューロンです。
では、どのようにV1の方位コラムのニューロンに方位選択制がうまれるのかというと、
V1のニューロンと接続している外族膝状態細胞の円形の受容野が、この図のように直線上に並んでおり
V1のニューロンがそれぞれの外族膝状態細胞からの情報を統合することで方位選択制が生まれていると考えられています。
V1での方位選択制細胞には二種類あります。単純型細胞と複雑型細胞です。
単純型細胞は、特定の位置における、特定の方位を持つ線状の刺激に反応します。
複雑型細胞は複数の単純型細胞からの入力を受け、受容野内のあらゆる範囲における、特定の方位を持つ線状の刺激に反応します。以上の性質から、複雑型細胞には特徴の位置ずれを吸収する役割があると考えられています。
機械学習を学んでいる方なら、聞いた事があると思うのですが、ネオコグニトロンという視覚パターン認識をおこなう神経回路モデルは
この単純型細胞と複雑型細胞をモデル化しています。 では次に、どのように局所的な方位の特徴から、大域的な輪郭線を抽出するのかをみていきたいとおもいます。
一定の長さを持つ短い線が乱雑に並べられている画像が二枚あります
上の画像と下の画像を見比べてみた時、下の画像だけ、中心辺りに、ひとまとまりの直線が目立ってみえているかと思います
---
このように、似た方向を向く線分が綺麗に並んでいる時、その部分が目立って見えるという知覚の傾向は、“良い連続の原則”と呼ばれ、20世紀初めごろから心理学の領域で発見されていました。
このような傾向は、実は脳の、輪郭線を抽出するメカニズムによって引き起こされているのです。
なぜ、下の画像だけ線が目立って見えるのかということを、一次視覚野の情報処理のメカニズムから説明していきたいと思います。
ーーー
こういった、向きの揃った線たちは、ひとまとまりに知覚されるのに対し
不揃いのバラバラな線の集まり部分はそれぞれバラバラに知覚されます
また、向きの揃った線の数が多ければ多いほど、まとまった時の線がながければながいほど、よりひとまとまりに知覚されやすい、というのは
納得していただけるかと思います
このように、似た方向を向く線分が綺麗に並んでいる時、その部分が目立って見えるという知覚の傾向は、“良い連続の原則”と呼ばれ、20世紀初めごろから心理学の領域で発見されていました。
このような傾向は、実は脳の、輪郭線を抽出するメカニズムによって引き起こされているのです。
なぜ、下の画像だけ線が目立って見えるのかということを、一次視覚野の情報処理のメカニズムから説明していきたいと思います。
ーーー
こういった、向きの揃った線たちは、ひとまとまりに知覚されるのに対し
不揃いのバラバラな線の集まり部分はそれぞれバラバラに知覚されます
また、向きの揃った線の数が多ければ多いほど、まとまった時の線がながければながいほど、よりひとまとまりに知覚されやすい、というのは
納得していただけるかと思います あるV1の方位選択制ニューロンの受容野をこの赤い円であったとします。このニューロンの反応する方位の方向は
この線の向きだと考えてください。
上の画像と下の画像で、受容野内の光刺激はほぼ同じであると言えます。
しかし、受容野内の光刺激がほぼ同じであるのにもかかわらず
下の画像を見ている時の方が、この方位選択制ニューロンの反応が強いです。もちろん、下の画像の時のほうが、方位選択制ニューロンの反応が強いことが、線分が目立って見えることにつながっているのですが、
なぜ、受容野内の刺激が同じなのに、ニューロンの反応が異なるのかというと、これは、“コラム間の水平接続“の効果によるものです。
さきほど、上行性接続と下行性接続とは別の皮質回路の重要な要素の一つに、同層間の水平接続があると言いました。
この水平接続ははなれた位置にあり、受容野の異なる似た特徴選択性のあるニューロン同士を接続するという性質があります
この図はそれを示したもので、方位コラムの最適方位が同じニューロン同士が接続されているのがわかるかと思います 青い円はいま注目している方位選択制ニューロンと同じ最適方位をもつニューロンの受容野だと考えてください
さきほど言ったように、同じ最適方位を持つニューロン同士は水平接続されます
そして、そのそれぞれのニューロンが最適方位と同じ傾きの光刺激をうけ反応し、
それらのニューロンがお互いに反応を伝え合って、それぞれの反応を強め合います。
その結果、受容野がこの線上に来ているニューロンの活動が強まりこの線が浮き上がって見える、というメカニズムになっています。
で、今説明したようなメカニズムと同じことが普段ものを見ている時にも生じており、はっきりとものとものの輪郭線を僕らは認識できるようになっている、というわけです。
次に下側頭皮質について見て行きたいと思います 視覚野をでた情報は下側頭皮質に入力されます 下側頭皮質の役割は、視覚野で解析された色、輪郭などの視覚特徴から、物体の認知を行うことです
したがって下側頭皮質のニューロンは視覚野などに比べて複雑なパターンに反応します
視覚野以外からも入力を受けており、他の感覚、記憶、注意などからも認知機構は影響を受けます 下側頭皮質の構造について説明します
下側頭皮質はV1と同様、機能コラムを構成します。またv1と同じように似たパターンのコラムが集まり
ハイパーコラムを構成します
また、後部下側頭皮質と前部下側頭皮質に分類されます 左の図をごらんください
この4枚の画像が視覚に入力された画像で、この図が実際にかそくとうひしつの反応している部位になるんですが
下側頭皮質でも、同一または類似の刺激特性を表すニューロンが固まってコラム上に存在していることがわかると思います
また、右の図のように、意味合いの近いコラム同士はさらにまとまり、ハイパーコラムを構成しています
特に、顔選択制細胞に関してはこの特徴は顕著で、側頭葉のある一部分に顔選択制細胞が排他的な集団を形成していることが
多くの実験事実から示唆されています 下側頭皮質は後部と前部に分けられるのですが、それぞれの働きの違いについて説明したいと思います
後部下側頭皮質は視覚野の入力を真っ先に受け取る部分で、入力された部分的な視覚特徴を感覚表現に統合します
感覚表現とは、輪郭や色などの個別の視覚特徴を統合して得られる、物体の知覚イメージのことです前部下側頭皮質では、後部下側頭皮質での処理で得られた物体の“感覚表現”を物体の意味、機能などの知識や概念と結びつけます
下側頭皮質のそれぞれの領域の働きがわかりやすい症例があるので紹介したいと思います 人間が下側頭皮質を損傷すると“視覚性失認”と呼ばれる症状に陥ります
この視覚性失認は後部下側頭皮質を損傷した場合と前部下側頭皮質を損傷した場合で症状が異なり
それぞれ知覚型視覚性失認、連合型視覚性失認と呼ばれます
知覚型失認の患者は、提示された物体が何であるかを答えることは出来ましたが、それらを模写する事ができませんでした
これは後部下側頭皮質を損傷したために、視覚特徴を感覚表現に統合することができなかったためであると考えられます
一方、連合型失認の患者は、提示された絵を模写することは出来ましたが、それらが何であるかを答えることはできませんでした。
この患者は物体の感覚表現と物体の概念、知識を結びつけることができなかったのです。
これらの患者の症例などから、下側頭皮質における物体認識は二段階あり、
一段回目では視覚特徴を統合し感覚表現を獲得し、に段階目でそれらを知識や概念と結びつけるというメカニズムが明らかになりました。 では、 まず、ガボールフィルタを紹介したいと思います。ガボールフィルタはガウス関数と正弦波の積で表される空間フィルタで、
画像の局所的な濃淡情報を取り出します。
この左の画像がガボールフィルタなのですが、このフィルタを見れば分かる通り、方位選択制があるなど、V1、一次視覚野
のニューロンと特徴選択性がにていることから、初期視覚処理のモデル化によく用いられます。
このフィルタを畳み込んだ結果を表す画像が右の画像で、時計回りに縦方向、右上斜め、右下斜め、よこ、向きのガボールフィルタ
を畳み込んでいるのですが、実際、その向きの線分が抽出されていることが結果から分かります。 次にネオコグニトロンを紹介します。ネオコグニトロンとは1979年に福島先生が発表された視覚パターン認識を行う階層型のニューラルネットワークです。
ネオコグニトロンの回路構造は、視覚情報処理の階層性をヒントにして考案されました。この図のように細胞の層を何段もつないで構成されています。層には二種類あって、図形の特徴を抽出するS細胞の層と、特徴の位置ずれを吸収する働きを持つC細胞の層とがあります。S細胞、C細胞という呼び名は、それぞれが第1次視覚野に見られる単純型細胞(simple cell)と複雑型細胞(complex cell)に似た性質があるところからつけられています。 実際にAという文字を認識している時の処理過程をずで示しました。
多層回路の中では下位層のS細胞の受容野は小さく、入力パターンの局所的な特徴を抽出する。これらのS細胞がどのような組み合わせで反応しているかを見ているのが、次の段のS細胞である。この段の細胞は、前の段の細胞に比べてやや大きな受容野を持っており、大局的な特徴を抽出する。さらに一段上には、大局的な特徴を抽出する細胞の出力をたくさん集めて、もっと大きい特徴を見ている細胞がある。この細胞は前段の細胞の反応を介して、間接的に入力層全体の情報を捕らえ、パターン認識の結果を示す認識細胞として働く。
図の下半分に、回路の主要部を拡大表示した。
一方c細胞は何をしているかというと、複雑型細胞と同じように、特徴の位置ずれを修正する働きをしています。C細胞層の働きを示しているのがこの図なのですが、c細胞層はこの受容野内のどこでもいいのである特徴が存在すれば、つぎのs細胞層に反応を返す働きをします。
このC細胞層のおかげで、入力画像が多少ずれても同じように認識できるため、汎化能力が得られています。
ネオコグニトロンのパターン認識能力は種々の実験によって確かめられている。例えば、手書き数字の大規模データベースETL-1を用いた認識実験では、3000個の手書き数字を学習したネオコグニトロンは、学習に用いなかった未知の3000個のテストパターンに対して98.6%の認識率を示しています。Copyright © 福島邦彦 2006, All Rights Reserved. 次にCNNを説明したいと思います。CNNは現在画像認識を行う際にもっとも主流となっているニューラルネットワークです。
アーキテクチャはネオコグニトロンとそう変わらないのですが、パラメータの学習方法が異なり、誤差逆伝播法、バックプロパゲーションでパラメータの最適化を行います。手書き数字認識の実験で当時非常に高い精度を出しました。
現在この図で示しているのはCNNの起源であるLeNetのアーキテクチャです。Cnnでは畳み込み層とプーリング層、と呼ばれる2つの特徴的な層があります また、cnnをもちいず、画像認識を行っている例もあります。Building High-level Features Using Large Scale Unsupervised Learning
2012にgoogleが「人間が教えずとも、コンピュータが自発的に猫を認識できるようになった」と発表し話題になりました。
その時に同時に発表された画像がこの猫の画像です。この猫の画像は人間が猫としてコンピュータに教えたものではなく、ランダムに大量の画像を
与えた際に、コンピュータが自発的に学習した画像だそうです。
この実験では、YouTubeにアップロードされている動画から、ランダムに取り出した200x200ピクセルサイズの画像を1000万枚用意し、それを1,000台のコンピュータで3日間かけて学習を行ったという、めちゃめちゃマシンパワー命、みたいな研究なんですが
(3%前後の画像に人間の顔が含まれていた。猫が含まれる画像もたくさんあった)。
ニューラルネットワークの最初の層の入力は各画素(200x200=40,000)のRGBの値で、9つの階層を構築した。・1000台のコンピュータで3日間かけて学習を行った。
ニューロンが最も強く反応する画像を作り出した」・その結果、人間の顔、猫の顔、人間の体の写真に反応するニューロンができた CNNを学習後の畳み込みフイルタの重みが左の図になります
Deep belief net使用して、ラベル付けしていない生画像を教師なしで学習
各階層ごとに 新皮質→
それぞれの絵とか、実例とか見せていく、グラデーション、
CNNを絡めた
工学のモデルの話に戻る