20160601画像電子学会

東京大学大学院情報理工学系研究科
創造情報学専攻講師
中山英樹

 1. Deep Learning （深層学習）とは？
◦ 画像認識におけるブレークスルー
◦ 畳み込みニューラルネットワークのトレンド
 ２. 最新の研究動向
◦ マルチモーダル学習
◦ 強化学習との融合
◦ パターン生成
2

3
汎用AI （真の知能？）
弱いAI （ある特定のタスク・機能）
機械学習
（お手本を真似る方法論）
ニューラル
ネットワーク
人工知能のある方法論における一つの道具にすぎない
…
深層学習

 画像認識
◦ トロント大のデモ
http://deeplearning.cs.toronto.edu/
 音声認識
[Krizhevsky et al., 2012]
4
http://research.microsoft.com/en-US/people/deng/icml-
june21-2014-cleanedup-referencesadded.pptx
http://blogs.technet.com/b/inside_microsoft_research/archive/
2013/06/13/dnn-research-improves-bing-voice-search.aspx

 制約をおかない実世界環境の画像を言語で記述
◦ 一般的な物体やシーン、形容詞、印象語
◦ 2000年代以降急速に発展（コンピュータビジョンの人気分野）
◦ 幅広い応用先
デジタルカメラ、ウェアラブルデバイス、画像検索、ロボット、…

 事例の“類似度”をどう定義すべきか？
◦ 例えば、単純なカラーヒストグラム
（色の割合）だと右の二つの画像は
非常に近い値となる
I look my dog contest:
http://www.hemmy.net/2006/
06/25/i-look-like-my-dog-
contest/
 もともと物理的な信号に過ぎない画像と“意味”との間には
大きな隔たりがある
 どういうポイント（特徴）を見ればよいか？

 機械学習（教師付）
7
“cat”
( ){ }Niyii ,...,1,, =x
x y
未知のデータ（学習データに含まれない）を正しく認識させることが目標
大量のラベル付き訓練データ
(x:画像，y:ラベル）
…
cat dog bird
( )xf

8
Figure from
[Ramanan et al, ICCV’09]
2004
カテゴリ数：10^2
サンプル数： 10^3~10^4

9
Figure from
Russakovsky et al.,
ILSVRC’14 slides.
2010
カテゴリ数：10^3~10^4
サンプル数： 10^6~10^7

 ニューラルネットワークを用いた人工知能の
構築技術の総称
◦ 脳（神経細胞）の働きを一部参考にした学習アルゴリズム
 特に、深く大規模な構造を備えていることが特徴
10
cat
cat
dog
horse

 局所領域(受容野)の畳み込みとプーリングを繰り返す
多層ネットワーク
◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出
◦ 要するに、さまざまな解像度でのパターンの共起をみている
◦ 誤差逆伝播法による全体最適化
11
Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied
to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.
最終的に、識別したいクラス数
と同数のニューロンへ

12
Low-level
image feature
Mid-level
image feature “Car”
SIFT, HOG,
SURF, etc.
BoVW, VLAD,
Fisher Vector, etc.
Supervised Classifier:
SVM, Logistic
Regression, etc.
生の画素値から、識別に至る階層構造を直接的に学習
伝統的
方法論
(“Shallow”
learning)
Deep
learning “Car”・・・
人手で設計人手で設計/教師なし学習

13
Low-level
image feature
Mid-level
image feature “Car”
SIFT, HOG,
SURF, etc.
BoVW, VLAD,
Fisher Vector, etc.
Supervised Classifier:
SVM, Logistic
Regression, etc.
生の画素値から、識別に至る階層構造を直接的に学習
従来の特徴量に相当する構造が中間層に自然に出現
伝統的
方法論
(“Shallow”
learning)
Deep
learning “Car”・・・
人手で設計人手で設計/教師なし学習
[Zeiler and Fergus, 2013]

 ImageNetのデータの一部を用いたフラッグシップコンペ
ティション (2010年より開催)
◦ ImageNet [Deng et al., 2009]
 クラウドソーシングにより構築中の大規模画像データセット
 1400万枚、2万2千カテゴリ（WordNetに従って構築）
 コンペでのタスク
◦ 1000クラスの物体カテゴリ分類
 学習データ120万枚、検証用データ5万枚、テストデータ10万枚
◦ 200クラスの物体検出
 学習データ45万枚、検証用データ2万枚、テストデータ4万枚
14
Russakovsky et al., “ImageNet Large Scale Visual
Recognition Challenge”, 2014.

 1000クラス識別タスクで、deep learning を用いたシステムが圧勝
◦ トロント大学Hinton先生のチーム (AlexNet)
15
[A. Krizhevsky et al., NIPS’12]
エラー率が一気に10%以上減少！
（※過去数年間での向上は1~2%)

 2012年以降も劇的な向上が続いている
16
2012 AlexNet
(8層)
2014 VGG
(19層)
2014 GoogLeNet
(22層)
2015 MSRA
(152層)

0
5
10
15
20
25
30
2010 2011 2012 2013 2014 Human 2015
(MS)
2015
(Google)
2015
(MS)
2016
(Google)
 エラー率が 16% (2012) → 3.08% (2015)
17
Szegedy et al., “Inception-v4, Inception-ResNet and the Impact of Residual Connections on
Learning”, arXiv, 2016.
He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet
Classification”, arXiv, 2015.
Classificationerror(%)
28%
26%
16%
6.6%
12%
5.1% 4.94% 4.82%
3.08%
3.57%

 できるだけ少ないパラメータで深い非線形性を与える
◦ 一つのレイヤ内(線形変換)の
パラメータを増やすのは効率が悪い
 例）畳み込み層
◦ 7 x 7 の畳み込みは、3 x 3の畳み込み層を3つ積めば意味的に等価
18
≒
活
性
化
関
数
（
非
線
形
）
畳
み
込
み
（
線
形
）
プ
ー
リ
ン
グ
7×7 = 49 3×(3×3) = 27
より少ないパラメータで、
より深い非線形性！
He and Sun, “Convolutional Neural Networks at Constrained
Time Cost“, in Proc. CVPR, 2015.
Simonyan and Zisserman, “Very deep convolutional networks
for large-scale image recognition”, In Proc. ICLR, 2015.

0
2000
4000
6000
8000
10000
12000
14000
16000
0
20
40
60
80
100
120
140
160
2012
(AlexNet)
2013
(Clarifai)
2014
(NIN)
2014
(VGG)
2014
(GoogLeNet)
2015 (MS)
19
パ
ラ
メ
ー
タ
数
（万
）
ネ
ッ
ト
ワ
ー
ク
層
数
16% 12% 9.7% 7.3% 6.6% 3.6%
ILSVRC
識別エラー率
全結合層なし

20
 物体検出
◦ R-CNN [Girshick et al., CVPR’2014]
 物体領域ラベリング
◦ Fully-connected CNN [Long et al., CVPR’15]

 1. Deep Learning （深層学習）とは？
◦ 画像認識におけるブレークスルー
◦ 畳み込みニューラルネットワークのトレンド
 ２. 最新の研究動向
◦ マルチモーダル学習
◦ 強化学習との融合
◦ パターン生成
21

 画像説明文生成
◦ CNN (画像側)の出力をRNN(言語側)へ接続
22
O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.

23
a woman is slicing some vegetables
a cat is trying to eat the food
a dog is swimming in the pool
認識結果

24
 共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]
◦ 異なるモダリティ間での“演算”が可能
R. Kiros et al., “Unifying Visual-Semantic Embeddings with
Multimodal Neural Language Models”, TACL, 2015.

 LSTMを用いた質問入力と回答の対応関係学習
27
H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for
Multilingual Image Question Answering”, 2015.

 NNを使った機械翻訳モデルの応用
 質問文に加え、CNN対象画像の特徴抽出を行い、
回答文生成のRNNへ入力
28
H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for
Multilingual Image Question Answering”, 2015.

 Deep Q-learning [Mnih et al, NIPS’13, Nature’15]
◦ 強化学習における行動価値関数のモデリングに深層学習を応用
◦ 膨大な回数ゲームプレイを行い、試行錯誤しながら学習
◦ クラッシックゲーム、囲碁等で人間を超える腕前（AlphaGo）
29
Mnih et al., “Human-Level Control Through
Deep Reinforcement Learning”,
Nature, 518(7540):529–533, 2015.

30
http://googleresearch.blogspot.jp/2016/03/deep-learning-for-robots-learning-from.html
 物体の把持戦略を試行錯誤しながら学習
◦ 複数台のロボットで学習経過を共有

 生成モデルの構築にDNNを利用 [Kingma et al., NIPS’14]
31
クエリ自動生成された画像
Kingma et al., “Semi-supervised Learning with
Deep Generative Models”, In Proc. of NIPS, 2014.

 自然言語文から画像を生成 [Mansimov et al., ICLR’16]
32Mansimov et al., “Genarating Images from Captions with Attention”, In Proc. of ICLR, 2016.

33
Chuan Li and Michael Wand, “Combining Markov Random Fields and
Convolutional Neural Networks for Image Synthesis”, arXiv:1601.04589, 2016.

 画像認識における深層学習コア技術の進化
◦ 畳み込みニューラルネットワークの超多層化
◦ 一層一層はできるだけシンプルにして、層数を増やす
⇒ 少ないパラメータで大きな表現能力
 最新の研究動向
◦ 関連するさまざまな分野と融合が進んでいる
◦ もはや単なるパターン認識の枠組みを超えつつある？
◦ 爆発的な速さで次々に新しい研究が進展している
34

20160601画像電子学会

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (7)

Similaire à 20160601画像電子学会

Similaire à 20160601画像電子学会 (20)

Plus de nlab_utokyo

Plus de nlab_utokyo (9)

Dernier

Dernier (9)

20160601画像電子学会