More Related Content Similar to CVPR 2019 report (30 papers) (20) CVPR 2019 report (30 papers)1. 2019 / 07 / 01
AI本部 AIシステム部 CVチーム
加藤 直樹,葛岡 宏祐,洪 嘉源,鈴木 智之,中村 遵介,林 俊宏,李 天琦
18. 物体検出の 構造に を適用
● 通常の では各特徴マップに をかけてチャネル数を揃えた上で,
ダウンサンプルされた方から順にアップサンプルして足し込むが,
より複雑な混ぜ合わせ方を により獲得する
● 段階の特徴マップから同じだけの特徴マップを出すようにし,
それを複数回繰り返すことで性能が向上するように学習する
20. ● 下記の 構造が得られた
黄色の 段階の特徴マップが入力で 青の 段階の特徴マップが出力
● トップダウンの繋がりだけでなくボトムアップの繋がりも含んだ合成に
なっている
24. ● 左の ( )は の既存手法で損失関数の
デザインに問題があるため でスタックすることが多い
● 右の提案手法は最初から複雑な問題を解くのでなく,損失関数を にして
に難しい問題へとしていくことで にたどり着く
● 初期の段階では複数の ( )の平均をとって正解の を探
すと言うよりかは正解の領域を探すようにして,最終的に正解の を
探すようにしている
26. ● 入力画像と で得た ( )で
した後 層で を抽出
● 各 に対して をだす
● の をパラメータ λ( )を元に作る
● λ だと画像中の 全てを含む一つの ができ,
λ だと各 が一つの になる
● の信頼度は に含まれている の の平均
27. ● 後 の が一番
が に使われる
● 選ばれた 中 一番高いやつとその他の
の をとり各 に
ラベルをつけ を計算する
● この時 の には同じ λ を使う
33. ● オンライン 更新
● 初期 の の は
各アノテーション点と との距離 の正方形にする
● 学習後,一番高得点で,サイズは 以下の で を
置き換える
34. ●
● 中心 gx, gy のロスは はアノテーション点との距離で計算
● 擬似 が正確ではないが,同じ水平線上の頭のサイズが大体同じ
という観察から, の のロスは, i-1 : i+1 1 : W 範囲
( 中心がいるが行と上下二行)内のすべての擬似 の
平均と標準偏差でロスを計算する
42. 現状( )の において,マスクの は
だけで評価していて,下記 〜 番のように の質が悪いが高得
点になるケースがある.
提案した手法で,適切な を定義した上, に を回帰
で計算する を追加することで の性能を向上する.
49. ● 他の は
と
で を変えている
のに対して,提案手法は単一の
● を として使用
● の は
51. ● は を予測する でそのまま出力 にマッピング
● は の クラスを予測する の特徴マップを使
用して, の の座標をもとに抽出する
● と の特徴マップを同じサイズにして足して各 の結果を得る
● 方向に を取ってカテゴリーを決める
● だと クラス, だったら の結果と
の結果をマージしてクラスを決める
59. ● の出力が の入力
● 各サイズの特徴マップに対して
を行う
● と同じデザイン
● 各サイズの特徴マップをマージして
一つの出力を出す
● で
を行い, のサイズにする
● 各特徴マップを同じサイズと 数にし
た後 を行い,
と
で入力画像のサイズに戻す
60. ● ( )を評価指標として に
を追加したものを評価
● に と を追加して
と ( )を評価
● 最終的に ( )を評価指標として全体の性能評価
66. ● ( )は には有効だが
のような解像度に なタスクではそこまで効かない
● セルの探索だけでなく,ネットワークレベルでの探索を行い
のタスクで高精度を出した
● 結果的に なしで で しているやつと同じくらいの
精度が出た
69. ● 全体を論文中 と呼んでい 構造で
できている
● 各 内に があり, 内で入とする
特徴マップと を探す
● 最終的に全ての出力を して 出力とする
● 探索する には
などがある
● を使用してい(微分可能)
76. 動画ベース行動認識 検出 の基本的なモデルは,動画からサンプリングされた
な を に入力し,各 に対する出力を時間方向に結合する
ことで動画単位の出力とするが,動画内の行動理解には な文脈情報も
必要だと仮定
そこで,動画単位の から注目時刻ごとに 機構を用い選択的に情
報抽出する ( )を提案.
複数の動画ベース行動認識 検出タスクで効果を示した
( )
動画内の各時刻において人物の検出と各人物の行動ラベルを推定するタスク
77. ● などの で抽出された各 の時空間特徴に対し,各人物矩形 を
元に し,各 人物ごとの同一次元のNt 個の St を抽出
● 同様にして各 で得た特徴量を動画全体で蓄積したものが
( )L
● から,注目時刻を中心に一定の 幅で Lt を抽出
● Lt と St を に入力し,その出力とSt を して最終出力層に流す
などの既存物体検出手法を使用して検出
78. ( )では以下のような処理が行われる
● St Lt の各人物矩形の特徴量を線形層に入力
● それらの行列積を取って 関数をかけ,
St の各人物矩形に対する Lt の各人物矩形の
行列を算出
● 行列を St の各人物矩形に対する
Lt の各人物矩形の特徴量の重み付け平均を計算
● 上記を非線形に入力しその出力とStを する
● に近いが,
ではなく
間の
Wang+, Non-local Neural Networks, CVPR, 2018
83. ● 構成は ベースの前段部分( )と を含む
後段部分( )に分かれる
● の物体検出モデルと類似していて, では特徴抽出と入力 の
中心フレームにおける人物候補領域の検出, では された
候補領域の特徴 と 前の大域的な特徴を元に各候補領域の行動推定
と矩形回帰
● 以上が各 に対して行われる
84. ● の では, された特徴 と 前の動画
の大域特徴に対して をして得る二つの時空間特徴 を使用
● と の行列積を 関数に入力し, の各時空間座標における重みを計算し
重み付け平均をとったものを とする
● と の要素和に , を含む図のような処理を行う
● 上記を と呼び,実際には複数の を直列 並列に
86. と はいずれも 機構を用いており
類似しているが,主な違いは以下
● の算出方法
は(注目人物領域の特徴 時空間特徴の各要素)間で
を算出するのに対し, は(注目人物領域の
特徴 内の人物領域の特徴)間で を算出
● 考慮される時間領域
で考慮される時間領域は入力された の時間方向の長さのみ
では から抽出する 幅分の時
間領域を考慮できる.
(上述)との相違
91. 数が多くなるほど が上昇 ( )
時間方向に進歩的に外挿する方が,
最初から長フレーム入力するより良い( )
最初の が粗くても, を経るごとに の
進歩的な によって,大きく修正できる
101. ● データセットの作成
● カメラ姿勢を で求める
● で深度画像を作成
● 運動視差で求めた深度と の深度で整合が取れない部分を除去
● 不適切な動画を除去
人が動いてしまっている レンズ歪みが大きい,
● このようにして最終的に 万枚以上の 画像―深度画像のペアを作成
130. ● モデルは のようなステージ構造を持つ
● 後段のステージへ移行する際にスケール の特徴マップを元の特徴マップと平行
して出力する
● 各ステージではそれぞれの解像度の特徴マップ同士の相互結合を行う
最終層では最も解
像度の高い特徴
マップを用いて出
力を計算
入力画像の
1/4スケール
実験では4ステージ
のモデルを使用
136. ● ポーズ推定において, 次元の関節点座標ラベルを持ったデータセット
( など)はスタジオ内でモーションキャプチャシステムを用いて作成され
るのが一般的だが,このようなデータセットは見えの多様性が低く,学習されたモデ
ルの汎化性能を損なう問題がある
● そこで, ラベルを持ったスタジオ内画像と共に,アノテーションが容易な ラベル
持った実画像を併用して学習可能な ポーズ姿勢推定アルゴリズムを提案
C Ionescu+, Simple Baselines for Human Pose Estimation and Tracking, in TPAMI 2014.
データセットの画像例
147. カメラ i, j のパラメータを用いて一方の視点の人物画像の から
もう片方の視点の を 型のモデルで復元し,
二乗誤差を用いてモデルを学習する
回転行列
163. ● 通常 モデル表面に貼る用の を で予測する一方で,
明示的な モデリングを介す事なく,直接目的画像をレンダリングする
● はカメラ空間に された 情報 ( ごとに チャンネル)
加えて を構成する つの 間の深度を チャンネルで加える
● はパーツごとの と,それに対応した の値
166. ● された と の初期値を使って,
新しい を入力した時のレンダリング画像を合成する
● 正解画像との ,マスクの も取る
● で も更新されるので,少しずつ されていく
167. ● ( )と比較
● 手法( を使わずに 入力で直接 画像出力)とも比較
● のうち 人分を使用
● カメラ約 分( フレーム)で, カメラと カメラアングルで実験
● では提案手法は低かったものの, では一番高い
● 人による定性評価( にどれだけ近いか)では提案手法が最も高かった
169. ● の派生研究
● を入力とし, な画像生成タスク
● という正規化層を加えることで,生成クォリティを大きく向上
● 更に と を分離できるようになり,
で多様な生成を実現
170. ●
● 通常の 層での の情報量が落ちる問題を解決
● 出力を でチャンネルごとに正規化する
● を にかけて に落とし込んでから
更に別々の で補正パラメータ γ と β を求める(h × w の )
これをスケーリング,バイアスの として正規化後の出力にかける
171. ● パラメータ γ と β は学習によって得られ, の情報を含む
● 各 層の代わりに を使う事で,意味情報を合成画像に付与可能
● ネットワークの途中に を埋め込めるようになった事で, の入
力部にランダム分布を取り付け可能となった
● を捉える用の を取り付ける事でシンプルで多様な生成を実現
173. ● のデータセットを
使った実験
● 生成結果と正解画像をそれぞれ のモデルにかけて,
マスク予測精度を比較( , )
● 合成画像と本物画像の分布の距離を測るため も比較
● ベースライン手法として と比較
● では本物画像のパッチをつなぎ合わせて画像合成しているので,
生成分布は本物画像の分布と合致しやすい → だけ高い
176. ● な のフレームワーク
● 任意のオブジェクトが描かれている静止画 と,
類似のオブジェクトが動いている動画 を与えると,
静止画に描かれているオブジェクトが動画と同じように動き出す
180. Δ
● 枚の 画像 (X, X’) をそれぞれ Δ に入れて
得られた 枚の (H, H’) からその差分 H˙ = H’ - H を予め計算しておく
● H˙ は ごとの移動ベクトルを表す.
181. ● 全部で 層で構築された を使う
● 画像を に入力した時の各層の出力を ξr = ( ξ1, ξ2,... ξR ) とする
● 各 ξr を を使って 関数 fwで予め させておく
(各 ξr の解像度に合わせて をダウンサンプルさせる)
( 関数はここでは を使う)
● した結果の に,同じくダウンサンプルしたH˙を
方向で結合して へ入力
● はX’を復元するよう学習する
182. ● まずは各 の周辺領域を変形しない剛体と仮定し,粗い を予測
● 各 ごとの移動ベクトルH˙k( )を,同一ベクトルを
全ピクセルに する演算子 ρ(・) を定義する.これを各 に適用し ρ(hk) を得る.
※この時 ρ(hk) は全部で( 数 )枚存在し,最後の 枚は背景を表す.
● 各 ρ(hk) ごとに変形すべき領域のマスクMk がわかれば大雑把な を作れる
183. ● では,このマスク情報 Mk を予測する
● それに加え,粗い を合成した後,それを洗練するための残差 Fresidual も合わ
せて予測する.Fcoarse と Fresidual を合成したものが最終的な
● への入力時にも ρ(hk) を使い, 画像 X を させた画像( 枚)を作成
● これと元の 画像,及びH˙kを 方向に結合して,ネットワークへ入力
184. ● ネットワークは で学習を行う
● は 種類使用し, と
● は のものを採用
● がモーションの識別に集中できるよう,変形先の H’ も
ヒントとして与える
● は外部ネットワークを必要とせず の各中間層を使用
186. ● 訓練終了後, する時には, から切り出した 枚の 画像に
加え, も入力する
● を Δ に入力して得られた に対し, の
フレーム間の 差分を加えたものを,相対的な 情報とする
● 以降はこれを学習時と同じように, 及び に
入れていけば自在に動作変形できる
● 似通っているオブジェクト同士であれば,任意なドメインの画像に適用可能
※ と が全く似ていないと物理的に 変換不可能
187. ● 既存手法( ) との比較
● は 解像度の の つ
● についてそれぞれ正解画像との 距離を比較
● 生成画像と正解画像を 検出した時の ( )
を比較.加えて ( )も比較
● 生成画像と正解画像を 空間での距離 ( )も
比較
190. 生成部分
背景コード b と乱数 z から画像らしさ・背景らしさで背景の生成器を訓練
親要素生成器は乱数 z 親埋め込み p からマスクと画像を生成
生成結果から のように p を推定しその誤差で学習
子要素生成器は親要素情報 子埋め込み c からマスクと画像を生成
と同じく c の推定誤差と,さらに最終画像の で学習
注意すべきは,p, c ともに適当に設定したコードで,教師はない
191. クラスタリング部分
● 親要素 p・子要素 c を指定すれば画像 x’ を生成できるようになったので,
x’ から p c を推定する φp φc を訓練できる
● 真の画像 x に対して φp φc から px cx を推定する
● px cx を して にかけて画像を分類し可視化
197. 人物画像 Is を既存手法で し, Es によって姿勢情報と
合わせてエンコードする
Ep によってターゲットの姿勢情報をエンコードする
からターゲットの姿勢 を で生成し, Hs を学習
と Is Is のセグメンテーション結果,ソース・ターゲットの姿勢情報から で最終
結果を出力
の と, から逆にソース画像を生成し,元の画像に戻せるかの再構
築誤差で HA を学習
人物画像と姿勢情報があればそこからランダムにペアを作り上記を学習できる
(実際は服の形状が似て異なる姿勢のものをペアにする)
に解くために, [ ]の考えを適用する
204. ● でぼかした後に で縮小した画像を元のサイズに戻す
● の幅 σ は不明という設定(厳密には ではない)
● 適用された σ より大きな値を推定して超解像したときはエッジが目立ち,
小さな値を推定して超解像するとぼやけた画像になることより,
超解像結果から σ の値を修正していけるという手法
左が推定した σ
上が実際の σ の値
実際の σ が大きいほど
ぼやけが強いが,それより
大きな値で推定するとエッジが際
立ち(左下),
小さな値で推定するとボケが取
れずぼやける(右上)
205. 低画質画像から推定器 で を推定 (k0)
k0 と低画質画像から によって超解像を行う(I’0)
超解像画像 I’0 と k0 から修正器 が k0 を k1 にアップデート
k1 と低画質画像から によって超解像を行う(I’1 )
超解像画像 I’1 と k1 から修正器 が k1 を k2 にアップデート
上記手法は が であることを仮定しないように見えるが,
修正器 が修正を学習できるのは超解像結果から σ の大小を推定できるという
仮定に基づいている
論文中では完全に不明な に対しても実験を行っている
212. 低画質画像をエンコードするのは既存手法で良い( [ ]を選択)
r 倍の拡大後の画像の画素 i, j を決めるのは低画質画像をエンコードした
FLR([i/r], [j/r]) の周辺部分と拡大カーネル wi, j であると仮定
画素 i, j に対して が (i/r - [i/r], j/r - [j/r], 1/r) から
wi, j を生成する
下が高画質画像の画素で上が低画質特徴の画素
高画質画像の各画素に対して
対応する低画質特徴画素の選択と
それにかける各カーネル w の予測を行う
219. 下記手順で構築する
分類システムの設立
農業の専門家によって,主に影響している 種類作物の と 種類の害虫の の階層的な構造を作る.
画像収集
専門な農業と昆虫のウェブサイト,害虫のビデオのキャプチャーリングから収集
事前のデータフィルタリング
害虫の各段階のフォーム(卵・幼虫・蛹・成虫)を含まない画像,もしくは二種類以上害虫がある画像を除外
専門家によるアノテーション
独立アノテーション段階では,各種類の作物のエキスパート合計 名は,まずそれぞれメイン研究分野の作物を害する
害虫の に分類する.
協力アノテーション段階では,すべてのエキスパートは上記段階で に分類された画像を
の に分類する. 人以上が同じクラスにアノテートしないと削除する.
231. 正規化 ( )を に使用した と,
それに加えて を使用した場合の精度比較