11. 局所領域(受容野)の畳み込みとプーリングを繰り返す
多層ネットワーク
◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出
◦ 要するに、さまざまな解像度でのパターンの共起をみている
◦ 誤差逆伝播法による全体最適化
11
Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied
to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.
最終的に、識別したいクラス数
と同数のニューロンへ
12. 12
Low-level
image feature
Mid-level
image feature “Car”
SIFT, HOG,
SURF, etc.
BoVW, VLAD,
Fisher Vector, etc.
Supervised Classifier:
SVM, Logistic
Regression, etc.
生の画素値から、識別に至る階層構造を直接的に学習
伝統的
方法論
(“Shallow”
learning)
Deep
learning “Car”・・・
人手で設計 人手で設計/教師なし学習
13. 13
Low-level
image feature
Mid-level
image feature “Car”
SIFT, HOG,
SURF, etc.
BoVW, VLAD,
Fisher Vector, etc.
Supervised Classifier:
SVM, Logistic
Regression, etc.
生の画素値から、識別に至る階層構造を直接的に学習
従来の特徴量に相当する構造が中間層に自然に出現
伝統的
方法論
(“Shallow”
learning)
Deep
learning “Car”・・・
人手で設計 人手で設計/教師なし学習
[Zeiler and Fergus, 2013]
22. 画像説明文生成
◦ CNN (画像側)の出力をRNN(言語側)へ接続
22
O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.
23. 23
a woman is slicing some vegetables
a cat is trying to eat the food
a dog is swimming in the pool
認識結果
24. 24
共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]
◦ 異なるモダリティ間での“演算”が可能
R. Kiros et al., “Unifying Visual-Semantic Embeddings with
Multimodal Neural Language Models”, TACL, 2015.
29. Deep Q-learning [Mnih et al, NIPS’13, Nature’15]
◦ 強化学習における行動価値関数のモデリングに深層学習を応用
◦ 膨大な回数ゲームプレイを行い、試行錯誤しながら学習
◦ クラッシックゲーム、囲碁等で人間を超える腕前(AlphaGo)
29
Mnih et al., “Human-Level Control Through
Deep Reinforcement Learning”,
Nature, 518(7540):529–533, 2015.
31. 生成モデルの構築にDNNを利用 [Kingma et al., NIPS’14]
31
クエリ 自動生成された画像
Kingma et al., “Semi-supervised Learning with
Deep Generative Models”, In Proc. of NIPS, 2014.
32. 自然言語文から画像を生成 [Mansimov et al., ICLR’16]
32Mansimov et al., “Genarating Images from Captions with Attention”, In Proc. of ICLR, 2016.
33. 33
Chuan Li and Michael Wand, “Combining Markov Random Fields and
Convolutional Neural Networks for Image Synthesis”, arXiv:1601.04589, 2016.