18. 注目のきっかけ(1)
音声認識・画像認識のベンチマークでトップ
音声認識(2011)
F. Seide, G. Li and D. Yu, “Conversational Speech Transcription Using
Context-Dependent Deep Neural Networks.”, INTERSPEECH2011.
多層(7つ)結合.事前学習あり
一般物体認識(2012)
A. Krizhevsky, I. Sutskever and G. E. Hinton. "ImageNet Classification
with Deep Convolutional Neural Networks." NIPS. Vol. 1. No. 2. 2012.
多層のCNNで従来性能を大きく上回る
18
129. Normalize Layer
Local contrast normalization
Convolutional layer Normalize layer
同一特徴マップにおける局所領域内で正規化する
vj,k = xj,k − wp,q xj+p,k+q∑
wp,q =1∑
yj,k =
vj,k
max(C,σ jk )
σ jk = wpqvj+p,k+q
2
∑
K. Jarrett, K. Kavukcuoglu, M. Ranzato and Y.LeCun ,“What is the Best Multi-Stage Architecture for
Object Recognition?”, ICCV2009 129
130. Normalize Layer
Local response normalization
Convolutional layer Normalize layer
同一位置における異なる特徴マップ間で正規化する
yi
j,k = (1+α (yl
j,k )2
)β
l=i−N/2
i+N/2
∑
G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov ,“Improving neural networks by preventing
co-adaptation of feature detectors ”, arxiv2012
130
206. SSDの特徴
複数の解像度の特徴マップを用いて物体検出
→ 小さな物体から大きな物体まで検出可能
多くのBounding box候補を使用
→ 1枚の画像から多くの物体を検出可能
206
YOLO v1の矩形候補数
7 x 7 x 2 = 98 (最新版コードでは 7 x 7 x 3 = 147)
SSDの矩形候補数
(38 x 38 x 4) + (19 x 19 x 6) + (10 x 10 x 6) + (5 x 5 x 6) + (3 x 3 x 4) + (1 x 1 x 4) = 8,732
SSD: Single Shot MultiBox Detector, ECCV2016
227. ゲームを利用したデータ生成
227
G. Ros, The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of
Urban Scenes, CVPR2016
Virtual cityをCGで作成
様々な国の街の雰囲気,天候,季節を再現
13400フレーム分のデータ,13クラスにラベリング
全周囲のカメラ
距離画像
(未公開)
Dataset URL : http://synthia-dataset.net
238. カリキュラムラーニング(5)
認識は識別問題に対応したネットワークのみ利用
238
5
Input data : gray scale image
output : class label
T. Yamashita, Hand Posture Recognition Based on Bottom-up Structured Deep Convolutional Neural Network with
Curriculum Learning”, “Curriculum Learning, ICIP2014
239. カリキュラムラーニング(6)
without curriculum learning with curriculum learning
Ground Truth class
classificationclass
Ground Truth class
classificationclass
239
T. Yamashita, Hand Posture Recognition Based on Bottom-up Structured Deep Convolutional Neural Network with
Curriculum Learning”, “Curriculum Learning, ICIP2014
286. RNNを利用した自然言語処理
Recurrent neural network based language model
286
Word Embedding
入力単語をベクトル表現
ベクトル長:辞書の単語数
入力単語の要素は1
それ以外は0
過去の履歴(文脈)をベクトルとして保持
各単語の確率を出力
ソフトマックスを利用