CVPR 2019 report (30 papers)

2019 / 07 / 01
AI本部 AIシステム部 CVチーム
加藤直樹，葛岡宏祐，洪嘉源，鈴木智之，中村遵介，林俊宏，李天琦

●
●
●
●
●
●
●
●

最近，キーポイント系の検出手法や，弱教師あり学習が
増えてきているので，今回はそのような論文を本紹介します

● （）に着想を得た物体検出手法
● 物体の上下左右の端及び中心位置をヒートマップで予測し，
位置関係に基づいてそれらの点をグルーピングする

● 物体の上下左右の点をヒートマップで予測する
● ではコーナー点の対応づけをを使って学習していたが，中心
点も予測することで，位置関係だけで対応づけできるようにしている
● での学習の際は，はマスクを利用して
生成している

既存手法と同様に，ヒートマップでの予測に加えて，
グリッドからのオフセットも予測し，ダウンサンプルによる誤差を補正する．

物体の端点が垂直水平なエッジになっている場合にレスポンスが弱くなるという
問題があるため，極大点からエッジに沿ってレスポンスが単調減少している範囲で足し込
む工夫を入れる．

と同一のでを上回る性能

● 上下左右の端点を予測しているため，単純にの辺の長さのを
端点から延長し繋ぐことで，角形による粗いも可能
● 更に，端点情報を入力にする既存手法（）と組
み合わせることでそれなりの性能も得られる

ステージの物体検出器で，通常回帰でを出すところを，
ヒートマップによるグリッド点の予測に置き換えることで大幅に性能向上

● グリッド点同士が互いに特定の位置関係にあることを利用し，
より良い特徴抽出をする
● 具体的には隣接するグリッド点に対応する特徴マップに変換をかけたものを
足しこむ形で行う

ステージ検出器の場合，第一段階のから物体がはみ出す可能性があるため
ヒートマップでグリッド点を予測する際にの倍の範囲の座標を予測する
ようにすることで対処する．

物体検出の構造にを適用
● 通常のでは各特徴マップにをかけてチャネル数を揃えた上で，
ダウンサンプルされた方から順にアップサンプルして足し込むが，
より複雑な混ぜ合わせ方をにより獲得する
● 段階の特徴マップから同じだけの特徴マップを出すようにし，
それを複数回繰り返すことで性能が向上するように学習する

● 「つの特徴マップと出力サイズ，合成方法を順に選び適用する」という
操作を繰り返すコントローラを学習する
● 出力された特徴マップは特徴マップのリストに追加し，
次以降選ばれ得るようにする
● コントローラの学習の際は，を小さくしたりエポック数を減らし時間で
終わるプロキシタスクにして実行する
● を回繰り返した時の性能を向上させるように学習する

● 下記の構造が得られた
黄色の段階の特徴マップが入力で青の段階の特徴マップが出力
● トップダウンの繋がりだけでなくボトムアップの繋がりも含んだ合成に
なっている

の取り替えなどにより，よい速度と精度のトレードオフを実現

● はを
必要とせず検出器を学習させる手法だが、に収束する原因の追究と
を段階的に難しくしていくことによって、に
収束する方法を提案
● で既存に対して提案手法を試したところ
が大幅に向上された

● 左の（）はの既存手法で損失関数の
デザインに問題があるためでスタックすることが多い
● 右の提案手法は最初から複雑な問題を解くのでなく，損失関数をにして
に難しい問題へとしていくことでにたどり着く
● 初期の段階では複数の（）の平均をとって正解のを探
すと言うよりかは正解の領域を探すようにして，最終的に正解のを
探すようにしている

● 入力画像とで得た（）で
した後層でを抽出
● 各に対してをだす
● のをパラメータ λ（）を元に作る
● λ だと画像中の全てを含む一つのができ，
λ だと各が一つのになる
● の信頼度はに含まれているのの平均

● 後のが一番
がに使われる
● 選ばれた中一番高いやつとその他の
のをとり各に
ラベルをつけを計算する
● この時のには同じ λ を使う

低コストの点アノテーションデータセットを学習するだけで，
同時に混雑人数カウンティングと頭の位置とサイズを検出する手法を提案する

ネットワーク構造
のを元に構築する
頭の距離でして，のアスペクト比を決める
の出力をそれぞれ（各自に異なるのを持ち）に入力し
の形で出力する（は，は，は，
はに対する）つの出力は加算してを出力する

● オンライン更新
● 初期ののは
各アノテーション点ととの距離の正方形にする
● 学習後，一番高得点で，サイズは以下のでを
置き換える

●
● 中心 gx, gy のロスははアノテーション点との距離で計算
● 擬似が正確ではないが，同じ水平線上の頭のサイズが大体同じ
という観察から，ののロスは， i-1 : i+1 1 : W 範囲
（中心がいるが行と上下二行）内のすべての擬似の
平均と標準偏差でロスを計算する

● 人が混雑すぎる場合初期の頭のが小さくて検出しづらい．一方で
人が過疎だと初期の頭が実際のサイズよりはるか大きい．
上記のサンプルが非常に学習しにくい
● カリキュラム学習で，頭の初期が中程度の画像のセットから学習する
● 学習難易度によってデータセットをし，難易度低いのセットから学習し，だんだん
難易度が高いセットを追加して学習する

混雑人数カウンティング結果

各データセットでのアノテーションと検出結果

や，自動運転への応用など，
最近は注目を集めています．
今回はその中から論文４本を紹介します．

現状（）のにおいて，マスクのは
だけで評価していて，下記〜番のようにの質が悪いが高得
点になるケースがある．
提案した手法で，適切なを定義した上，にを回帰
で計算するを追加することでの性能を向上する．

定義
予測したとのの

の構造は下記通りで，にを予測する
を追加することだけ
と予測したをしブランチに入力して，
とを通してを出力する
学習時，で出力したはの閾値でして，
とのをとしてを計算する
推論時，との乗積をとする

よりくらいのを向上する．推論速度はと
あまり変わらない

UPSNet:
A Unified Panoptic Segmentation Network

● を単一化したネットワーク
● とのヘッドで抽出した特徴から
を使って結果をマージする手法を提案
● とで既存手法より高速で高精度

● 他のは
と
でを変えている
のに対して，提案手法は単一の
● をとして使用
● のは

● の出力を入力に
● の後に各サイズの特徴マップを
して，最後に
● クラスの性能を向上させ，かつ
を正しく認識するのが目的
● と ● でクラスを識別・検出
● 同様とクラスを予測
● な特徴を抽出することで
クラスの性能を向上させるのが目的

● はを予測するでそのまま出力にマッピング
● はのクラスを予測するの特徴マップを使
用して，のの座標をもとに抽出する
● との特徴マップを同じサイズにして足して各の結果を得る
● 方向にを取ってカテゴリーを決める
● だとクラス，だったらの結果と
の結果をマージしてクラスを決める

SQ（Segmentation Quality）
mean IoU over # of TP
RQ（Recognition Quality）F1
score

● を単一化したネットワーク
● になを作って
に応用した話
● をちょっと改良するだけで，が
作れるよというお話

● をとして使用
● で
● 入力画像比のは
● 出力をと
の入力として使う

● の出力がの入力
● 各サイズの特徴マップに対して
を行う
● と同じデザイン
● 各サイズの特徴マップをマージして
一つの出力を出す
● で
を行い，のサイズにする
● 各特徴マップを同じサイズと数にし
た後を行い，
と
で入力画像のサイズに戻す

● （）を評価指標としてに
を追加したものを評価
● にとを追加して
と（）を評価
● 最終的に（）を評価指標として全体の性能評価

Auto-DeepLab:
Hierarchical Neural Architecture Search
for Semantic Image Segmentation

● （）はには有効だが
のような解像度になタスクではそこまで効かない
● セルの探索だけでなく，ネットワークレベルでの探索を行い
のタスクで高精度を出した
● 結果的になしででしているやつと同じくらいの
精度が出た

● ほとんどのモ
デルで前後の層の解像度の差は
であり，一番小さい
特徴マップのサイズは
● ↑の範囲内で最適なを探
す
● 最初の層はで
出力のサイズはになる
● それ以外の層はによって
からの幅でサイズが変わる
● を
使用している（微分可能）

● 全体を論文中と呼んでい構造で
できている
● 各内にがあり，内で入とする
特徴マップとを探す
● 最終的に全ての出力をして出力とする
● 探索するには
などがある
● を使用してい（微分可能）

● を用いて最適なを学習した後評価
● とでを用いて評価
● でしてないんだぜを主張

動画ベースの行動認識・検出タスクで流行っている，
機構の動画への応用を中心に本の論文を紹介します

Long-Term Feature Banks for
Detailed Video Understanding

動画ベース行動認識検出の基本的なモデルは，動画からサンプリングされた
なをに入力し，各に対する出力を時間方向に結合する
ことで動画単位の出力とするが，動画内の行動理解にはな文脈情報も
必要だと仮定
そこで，動画単位のから注目時刻ごとに機構を用い選択的に情
報抽出する（）を提案．
複数の動画ベース行動認識検出タスクで効果を示した
（）
動画内の各時刻において人物の検出と各人物の行動ラベルを推定するタスク

● などので抽出された各の時空間特徴に対し，各人物矩形を
元にし，各人物ごとの同一次元のNt 個の St を抽出
● 同様にして各で得た特徴量を動画全体で蓄積したものが
（）L
● から，注目時刻を中心に一定の幅で Lt を抽出
● Lt と St をに入力し，その出力とSt をして最終出力層に流す
などの既存物体検出手法を使用して検出

（）では以下のような処理が行われる
● St Lt の各人物矩形の特徴量を線形層に入力
● それらの行列積を取って関数をかけ，
St の各人物矩形に対する Lt の各人物矩形の
行列を算出
● 行列を St の各人物矩形に対する
Lt の各人物矩形の特徴量の重み付け平均を計算
● 上記を非線形に入力しその出力とStをする
● に近いが，
ではなく
間の
Wang+, Non-local Neural Networks, CVPR, 2018

各出力をする際に考慮する時間の長さ
提案手法
ベースライン
● ので達成
● 考慮する時間が長くなると精度が向上

各データセットタスクによって最適な考慮時間は異なる

Video Action Transformer Network

動画の理解には時空間的な文脈情報が必要だが，では畳み込み処理の
特性から局所的な情報が支配的であることを指摘
そこで，自然言語処理で有効なを動画認識モデルに導入し，
注目領域との時空間的な相対位置に依存せずに重要な情報を取得する
を提案．
でを達成．
Vaswani +, Attention is all you need, NIPS, 2018

● 構成はベースの前段部分（）とを含む
後段部分（）に分かれる
● の物体検出モデルと類似していて，では特徴抽出と入力の
中心フレームにおける人物候補領域の検出，ではされた
候補領域の特徴と前の大域的な特徴を元に各候補領域の行動推定
と矩形回帰
● 以上が各に対して行われる

● のでは，された特徴と前の動画
の大域特徴に対してをして得る二つの時空間特徴を使用
● との行列積を関数に入力し，の各時空間座標における重みを計算し
重み付け平均をとったものをとする
● との要素和に，を含む図のような処理を行う
● 上記をと呼び，実際には複数のを直列並列に

とはいずれも機構を用いており
類似しているが，主な違いは以下
● の算出方法
は（注目人物領域の特徴時空間特徴の各要素）間で
を算出するのに対し，は（注目人物領域の
特徴内の人物領域の特徴）間でを算出
● 考慮される時間領域
で考慮される時間領域は入力されたの時間方向の長さのみ
ではから抽出する幅分の時
間領域を考慮できる．
（上述）との相違

の行動検出モデルでは（時空間的に直方体の）を
用いてフレーム単位の人物矩形を回帰するが，人物の動きが激しい動画（下図）
ではの矩形は各フレームで大きく異なるため，適切ではない．
そこで，進歩的に回帰との修正を繰り返す手法を提案し，特にな入力
の際に効果を確認した．

最初に下のような粗いを設定．
以下を複数ステップ繰り返す．
● を元にモデル（後述）で
人物矩形を回帰
● 回帰した人物矩形を次のとする
● を時間方向に外挿

● を用いて各入力フレームの時空間特徴を抽出
● 上記特徴をを元にフレームごとに（特徴）
これを時間方向にしてに入力し特徴を得る
● 各特徴と特徴を元に矩形回帰
● 特徴を元に行動ラベル推定
各に対して次の処理のような処理を行う

数が多くなるほどが上昇（）
時間方向に進歩的に外挿する方が，
最初から長フレーム入力するより良い（）
最初のが粗くても，を経るごとにの
進歩的なによって，大きく修正できる

動画を扱うモデルの計算コスト削減をで行う．
疎フレーム入力として計算コストを下げた生徒モデル，
密なフレーム入力の教師モデルとする．
においてわずかな精度低下で推論時間を，数を削減

● 密なフレーム入力で教師モデルをの最小化により学習
● その後，教師モデルと同一構造の生徒モデルを以下の三種類のロスを
最小化するよう学習
● LCE との
● Lrep 最終層への入力特徴における教師モデルとの二乗距離
● Lpred 最終出力の教師モデルとの

（教師モデルを学習した後に生徒モデル学習），全てのロスを使用した
モデルが最も精度が良い．
フレームのサンプリングはに行なっているので蒸留の効果の確認は
と比較することでわかる．
は教師モデル（）
計算コスト削減

入力からの人の深度推定や手のメッシュ推定など
実応用範囲の広そうな興味深い手法が出てきています．
今回はそのような論文を紹介します．

マネキンチャレンジ動画を使い大規模で多様な人データセットを作成
それを用いた学習で，移動カメラで撮影した動く人間の深度推定を高精度に実現

● 等は屋外で利用できないこともあり，人の大規模データセットを作るの
は容易でない
● しかし，年後半から，人が色々なポーズをしたままマネキンのように
静止し，それを移動カメラで撮影するマネキンチャレンジというものがでブー
ムになった
● これらの動画では人を静止物として扱えるため，で深度データを
求めることができ，学習に利用できる

● データセットの作成
● カメラ姿勢をで求める
● で深度画像を作成
● 運動視差で求めた深度との深度で整合が取れない部分を除去
● 不適切な動画を除去
人が動いてしまっているレンズ歪みが大きい，
● このようにして最終的に万枚以上の画像―深度画像のペアを作成

● 単一画像からの深度推定は難しいため，で人マスクを作り，
かつ既知のカメラ姿勢を使って人領域以外の深度を出しておく
その際，深度の信頼度マップも作る
● これらの画像を入力とし，全体の深度画像を予測するモデルを学習する

画像から手の姿勢とメッシュを同時推定する手法を提案
でで動作する

合成画像による大規模
データセットでの学習
の実画像で
弱教師あり

合成画像なのでGTを
用意できる

でヒートマップを推定

ヒートマップと画像特徴を合わせた
ものを特徴ベクトルに変換

変換した特徴ベクトルから
でメッシュ推定
メッシュデータは
自然にグラフ構造を持つの
で，が有効

メッシュから線形
でキーポイント推定

で
深度画像にレンダリングしたも
のとの
普通のヒートマップ（要
アノテーション）
一度推論したものから離
れすぎないようにを
かける

● メッシュ生成は既存手法がないが，素朴なベースラインを超える性能
● 姿勢推定ではデータセット，データセットで既存手法を上回る性能

人物ポーズ推定トピックの中から，ポーズ推定に関する
論文を本，ポーズ推定に関する論文を本紹介します

人物が重なりあった混雑シーンに対応できるポーズ推定手法と
混雑度をコントロールしたデータセットの提案

ポーズ推定手法（）
のフレームワーク
人領域（）の検出器としてを用い，それぞれの内の
ポーズ推定は（，単一人物姿勢推定）で行い，
高性能な従来手法であるを修正して使用

本来，では，人検出器で画像の中に各人物の領域（）を検出した後，その人
に属する関節点のみを正解関節点としてロスを計算する．
本論文では，各人物の領域（）に対して，その人物に属するかどうかを問わず内に
存在する全ての関節点を正解関節点としてを計算する．
人物と同一の関節点人物と別の関節点

全の関節点を入力画像にマッピングし，距離が近い同種類の関節点をクルーピング
し関節点ノードとする．
これによって，で重複して検出された関節点を一つのノードとしてまとめる．

全ての関節点ノードをステップで各人物のノードに割り当て，
統合する．これにより，画像全体の視点から各人の関節点をより正確に割り当てることが
できる．

に対する各デファクト手法の精度を見ると（左），の大小で
がポイントも変化することがわかる．一方，各データセットにおけるの分布
（中央・右）によると，新たに作成したは様々な
混雑度の画像をまんべんなく含んでいる．
図：とランドマーク精度の関係（左）
とデータセットにおけるの分布（中央，右）

データセットを用いた，提案モデルのベンチマーク結果は図のようになっ
た．らの手法を上回っている．

データセットを用いたベンチマークにおいても高い精度となった．
やはりらの手法を上回っている．

複数スケールの特徴マップを同時に保持し，それらの結合を密に行う
を提案し，ポーズ推定タスクで高い認識性能を達成
推定結果例

● 画像中の複数人物の外接矩形を物体検出器で取得し，検出された個々の人物の
ポーズ推定を別個に行うトップダウン型のアプローチを採用
● ベースライン手法であるのアーキテクチャを改良
B Xiao+, Simple Baselines for Human Pose Estimation and Tracking, in ECCV 2018.
既存手法のモデル構造

● モデルはのようなステージ構造を持つ
● 後段のステージへ移行する際にスケールの特徴マップを元の特徴マップと平行
して出力する
● 各ステージではそれぞれの解像度の特徴マップ同士の相互結合を行う

● モデルはのようなステージ構造を持つ
● 後段のステージへ移行する際にスケールの特徴マップを元の特徴マップと平行
して出力する
● 各ステージではそれぞれの解像度の特徴マップ同士の相互結合を行う
最終層では最も解
像度の高い特徴
マップを用いて出
力を計算
入力画像の
1/4スケール
実験では4ステージ
のモデルを使用

● 各スケールの特徴マップの結合を行うユニット
● 前段の特徴マップを出力特徴マップのサイズに合わせて和を出力する
● アップサンプリング畳み込み，またはストライドの畳み込みにより
解像度を揃える
● スケール毎に出力を計算し，複数解像度の特徴マップを保持する

● モデルの学習
● アノテーションされた人物外接矩形を元に固定アスペクト比率で人物領域をク
ロップし，モデルに入力
● モデルの学習対象は各関節点座標を中心とする正規分布により生成されたヒー
トマップであり，二乗誤差を用いてモデルを学習する
● 推論
● を人物検出器として利用
● 検出された人物を固定アスペクト比でクロップし，モデルに入力
● 推定する関節点の種類毎にヒートマップを出力し，ヒートマップにおいて値の最
も大きい座標を対応する関節点の推定座標とする

既存手法を上回る認識性能を達成（データセット）

出力解像度による精度変化
大きいほどよい
認識性能と計算量のトレードオフを改善

● ポーズ推定において，次元の関節点座標ラベルを持ったデータセット
（など）はスタジオ内でモーションキャプチャシステムを用いて作成され
るのが一般的だが，このようなデータセットは見えの多様性が低く，学習されたモデ
ルの汎化性能を損なう問題がある
● そこで，ラベルを持ったスタジオ内画像と共に，アノテーションが容易なラベル
持った実画像を併用して学習可能なポーズ姿勢推定アルゴリズムを提案
C Ionescu+, Simple Baselines for Human Pose Estimation and Tracking, in TPAMI 2014.
データセットの画像例

システム構成中間的に2次元関節点の
ヒートマップを推定し，二乗
誤差で学習

システム構成
3次元人物姿勢を回帰により
推定し，二乗誤差で学習
ボーンのベクトルまたは長さを
Ground truth に近づける
ようロスをかける

システム構成推定したカメラパラメータを用い
て 3D ポーズを画像空間に射
影し，二乗誤差で学習
カメラの内部パラメータを
推定

見えの多様性の低いデータセットでは既存手法と同等程度の性能
テストデータの多様性に富むデータセットで既存手法を上回る認識性能を達成

ラベルを持ったの利用，またからへの射影が特に性能向上に寄
与している

次元の関節点座標アノテーションを持つ，複数視点のカメラで取得された
人物画像ペアを用いて型のモデルを学習することで，人物の次元の幾何
学的意味合いを持つ潜在表現を獲得する

● 人物の画像を入力とし，それぞれの画像に対し
でポーズ推定を行う
● ポーズ推定結果から人物姿勢を表現するを生成
● 関節点種類数のチャネルを持つ値のマップ
● 関節点座標を中心にヒートマップを生成

カメラ i, j のパラメータを用いて一方の視点の人物画像のから
もう片方の視点のを型のモデルで復元し，
二乗誤差を用いてモデルを学習する
回転行列

二つの視点の人物画像から得られた潜在表現 G 同士の距離を近づけるよう
二乗誤差を用いてモデルを学習する

これら手順により，次元ベクトルの集合で表されるの潜在表現 G が
の形態をとった人物の次元的な幾何表現となる
（と主張しているが，潜在表現の可視化結果は論文に記載されていない）
人物姿勢が変化していったときのと推定されたポーズの例

推論時は学習された潜在表現に対してを適用する
少量のラベルで学習が可能

● 獲得された潜在表現を既存の次元姿勢推定手法に付加
（特徴ベクトル同士の和）することでそれらの認識性能の底上げが可能
● データセットにおける
● （）： →
● （）： →

単眼カメラ画像とラベルのみを用いてポーズ推定モデルを学習する方法を提案

：ポーズを入力としポーズを推定

：
推定されたポーズに対しランダムな変換を施した後で次元空間に射影

射影されたポーズとのポーズを見分けるようなを
用意し，を用いてを学習

射影後のポーズから逆変換により元のポーズを復元するよう，
二乗誤差を与える

既存の教師なし学習手法を上回る性能を達成の使用が特に性能向上に寄与

今回の発表にあった，構造情報を踏まえた
な生成で面白かった論文を本紹介します．

● ニューラルネットを使ったアバター画像レンダリングの手法
● 古典的なレンダリングとニューラルネットのハイブリッド
● 特定の人物の画像少量の動画を予め学習させておく事で，
モデルを介さずに任意のポーズカメラビューでレンダリング可能

● 通常モデル表面に貼る用のをで予測する一方で，
明示的なモデリングを介す事なく，直接目的画像をレンダリングする
● はカメラ空間にされた情報（ごとにチャンネル）
加えてを構成するつの間の深度をチャンネルで加える
● はパーツごとのと，それに対応したの値

● わかりやすく言うと出力はとほぼ同じで，入力が違うだけ
● モデルのもを使う
● 画像から検出して，を提案モデルに入れた時の出力と
画像をそのままに入れた時の結果を近づけるよう学習

● モデルを使って，目的人物の画像に適用した時に
得られたから，を逆算する
● 目的人物の全画像に対しこれを行いその平均をの初期値とする

● されたとの初期値を使って，
新しいを入力した時のレンダリング画像を合成する
● 正解画像との，マスクのも取る
● でも更新されるので，少しずつされていく

● （）と比較
● 手法（を使わずに入力で直接画像出力）とも比較
● のうち人分を使用
● カメラ約分（フレーム）で，カメラとカメラアングルで実験
● では提案手法は低かったものの，では一番高い
● 人による定性評価（にどれだけ近いか）では提案手法が最も高かった

● の派生研究
● を入力とし，な画像生成タスク
● という正規化層を加えることで，生成クォリティを大きく向上
● 更にとを分離できるようになり，
で多様な生成を実現

●
● 通常の層でのの情報量が落ちる問題を解決
● 出力をでチャンネルごとに正規化する
● をにかけてに落とし込んでから
更に別々ので補正パラメータ γ と β を求める（h × w の）
これをスケーリング，バイアスのとして正規化後の出力にかける

● パラメータ γ と β は学習によって得られ，の情報を含む
● 各層の代わりにを使う事で，意味情報を合成画像に付与可能
● ネットワークの途中にを埋め込めるようになった事で，の入
力部にランダム分布を取り付け可能となった
● を捉える用のを取り付ける事でシンプルで多様な生成を実現

● を少し変形すると既存の各種論文で提案された正規化層になる
● をラベル情報に置き換え，γ と β を空間的に不変にする
→ になる
● を別の画像に，γ と β を空間的に不変，内サンプル数を
にする → になる
● 従来手法と比較すると，例えば一様なを入力した時，
従来の層だと平均と標準偏差を引いたら全部になる
の場合補正パラメータ γ と β は正規化されないので意味情報が残る

● のデータセットを
使った実験
● 生成結果と正解画像をそれぞれのモデルにかけて，
マスク予測精度を比較（，）
● 合成画像と本物画像の分布の距離を測るためも比較
● ベースライン手法としてと比較
● では本物画像のパッチをつなぎ合わせて画像合成しているので，
生成分布は本物画像の分布と合致しやすい → だけ高い

● 人間（）による定性的評価
● 枚を見せて，と適切に対応している方を選ぶ
● 全てのケースにおいて提案手法が最も高確率で選ばれた

● なのフレームワーク
● 任意のオブジェクトが描かれている静止画と，
類似のオブジェクトが動いている動画を与えると，
静止画に描かれているオブジェクトが動画と同じように動き出す

● からは外観の特徴情報を抽出
● からはモーションパターンを抽出
● これをフレームごとに合成して動画生成する
● 学習時はのみを使って，
にの動きを予測する
● の頭文字で

はつのネットワークで構築される
Δ：画像から，に有用なを予測
：枚の画像の差分から密なを予測
：及び差分から合成画像を生成

Δ
● 構造のネットワークで，画像を入力して，枚のを出力
（数，各は入力画像と同じ W × H の大きさ）
● の最終層にを入れて，出力の値域を
［］に制限
● 更に各に対して関数をかけて正規化

Δ
● 枚の画像 (X, X’) をそれぞれ Δ に入れて
得られた枚の (H, H’) からその差分 H˙ = H’ - H を予め計算しておく
● H˙ はごとの移動ベクトルを表す．

● 全部で層で構築されたを使う
● 画像をに入力した時の各層の出力を ξr = ( ξ1， ξ2，... ξR ) とする
● 各 ξr をを使って関数 fwで予めさせておく
（各 ξr の解像度に合わせてをダウンサンプルさせる）
（関数はここではを使う）
● した結果のに，同じくダウンサンプルしたH˙を
方向で結合してへ入力
● はX’を復元するよう学習する

● まずは各の周辺領域を変形しない剛体と仮定し，粗いを予測
● 各ごとの移動ベクトルH˙k（）を，同一ベクトルを
全ピクセルにする演算子 ρ(・) を定義する．これを各に適用し ρ(hk) を得る．
※この時 ρ(hk) は全部で（数）枚存在し，最後の枚は背景を表す．
● 各 ρ(hk) ごとに変形すべき領域のマスクMk がわかれば大雑把なを作れる

● では，このマスク情報 Mk を予測する
● それに加え，粗いを合成した後，それを洗練するための残差 Fresidual も合わ
せて予測する．Fcoarse と Fresidual を合成したものが最終的な
● への入力時にも ρ(hk) を使い，画像 X をさせた画像（枚）を作成
● これと元の画像，及びH˙kを方向に結合して，ネットワークへ入力

● ネットワークはで学習を行う
● は種類使用し，と
● はのものを採用
● がモーションの識別に集中できるよう，変形先の H’ も
ヒントとして与える
● は外部ネットワークを必要とせずの各中間層を使用

● 最終的な
● 係数 λ は基本に設定（をの倍の比率）

● 訓練終了後，する時には，から切り出した枚の画像に
加え，も入力する
● を Δ に入力して得られたに対し，の
フレーム間の差分を加えたものを，相対的な情報とする
● 以降はこれを学習時と同じように，及びに
入れていけば自在に動作変形できる
● 似通っているオブジェクト同士であれば，任意なドメインの画像に適用可能
※ とが全く似ていないと物理的に変換不可能

● 既存手法（）との比較
● は解像度ののつ
● についてそれぞれ正解画像との距離を比較
● 生成画像と正解画像を検出した時の（）
を比較．加えて（）も比較
● 生成画像と正解画像を空間での距離（）も
比較

物体の親要素・子要素の関係をに得ながら学習する生成モデル
ベースは
生成モデルとしてだけではなく真の画像をクラスタリングするための手法も考案

生成部分
背景コード b と乱数 z から画像らしさ・背景らしさで背景の生成器を訓練
親要素生成器は乱数 z 親埋め込み p からマスクと画像を生成
生成結果からのように p を推定しその誤差で学習
子要素生成器は親要素情報子埋め込み c からマスクと画像を生成
と同じく c の推定誤差と，さらに最終画像ので学習
注意すべきは，p, c ともに適当に設定したコードで，教師はない

クラスタリング部分
● 親要素 p・子要素 c を指定すれば画像 x’ を生成できるようになったので，
x’ から p c を推定する φp φc を訓練できる
● 真の画像 x に対して φp φc から px cx を推定する
● px cx をしてにかけて画像を分類し可視化

クラスタリングについて既存手法との比較
生成について既存手法との比較

親要素 p は物体の形状を，
子要素 c はテクスチャを
決めるようになったのが
分かる
また，z には物体の
位置・向きを決める役割が
確認できる

● ある人物画像について，指定した姿勢通りに画像を変換することを
教師なしで学習
● 指定した姿勢で，空間的な歪みのない生成ができる
● 入力は「ソース画像ソースの姿勢情報ターゲットの姿勢情報」で
出力が「ターゲット画像」

1. 入力画像を何らかの手法で Semantic segmentation し，その画像を
ターゲットの姿勢画像に変換する
2. ターゲットの姿勢 Segmentation 画像と入力画像からテクスチャ部分を生成

人物画像 Is を既存手法でし， Es によって姿勢情報と
合わせてエンコードする
Ep によってターゲットの姿勢情報をエンコードする
からターゲットの姿勢をで生成し， Hs を学習
と Is Is のセグメンテーション結果，ソース・ターゲットの姿勢情報からで最終
結果を出力
のと，から逆にソース画像を生成し，元の画像に戻せるかの再構
築誤差で HA を学習
人物画像と姿勢情報があればそこからランダムにペアを作り上記を学習できる
（実際は服の形状が似て異なる姿勢のものをペアにする）
に解くために，［］の考えを適用する

を
手作業編集して
生成画像の服を変更

の正確性が求められるのが分かる

カーネルが（一部）不明，任意倍率など，現実世界に即した
超解像手法が多く登場しました．その中から本紹介します．

● でぼかした後にで縮小した画像を元のサイズに戻す
● の幅 σ は不明という設定（厳密にはではない）
● 適用された σ より大きな値を推定して超解像したときはエッジが目立ち，
小さな値を推定して超解像するとぼやけた画像になることより，
超解像結果から σ の値を修正していけるという手法
左が推定した σ
上が実際の σ の値
実際の σ が大きいほど
ぼやけが強いが，それより
大きな値で推定するとエッジが際
立ち（左下），
小さな値で推定するとボケが取
れずぼやける（右上）

低画質画像から推定器でを推定（k0）
k0 と低画質画像からによって超解像を行う（I’0）
超解像画像 I’0 と k0 から修正器が k0 を k1 にアップデート
k1 と低画質画像からによって超解像を行う（I’1 ）
超解像画像 I’1 と k1 から修正器が k1 を k2 にアップデート
上記手法はがであることを仮定しないように見えるが，
修正器が修正を学習できるのは超解像結果から σ の大小を推定できるという
仮定に基づいている
論文中では完全に不明なに対しても実験を行っている

推定したが
超解像時はを直接利用するのではなく，の係数算出に利用

他の系との比較
σを変えても性能が落ちない

従来の単一画像超解像の多くは（例えマルチスケールであっても）
予め倍率を定めたモデルを学習するが，は拡大カーネルを学習するため
テスト時に倍率を指定できる
また，指定する倍率も整数である必要はない
［］や［］のように予めで超解像したものを
するのではなく，内部で任意倍率超解像を行う

通常は拡大部分かが
用いられるが，これらは拡大カーネルを学習する
は倍率を受け取ると，その倍率に拡大するためのカーネルを予測する
が拡大を担う

低画質画像をエンコードするのは既存手法で良い（［］を選択）
r 倍の拡大後の画像の画素 i, j を決めるのは低画質画像をエンコードした
FLR([i/r], [j/r]) の周辺部分と拡大カーネル wi, j であると仮定
画素 i, j に対してが (i/r - [i/r], j/r - [j/r], 1/r) から
wi, j を生成する
下が高画質画像の画素で上が低画質特徴の画素
高画質画像の各画素に対して
対応する低画質特徴画素の選択と
それにかける各カーネル w の予測を行う

任意倍率での超解像結果と
… で拡大した後，で
… 倍に拡大して求めるサイズに
　　縮小拡大する必要がある時は事前に拡大
… 倍に拡大して求めるサイズに縮小

単独訓練にも劣らないスコアが出ている

初の害虫データセットおよびで使用した
大規模の交通画像データセットの論文を紹介します
そのほか、強化学習でを
自動選択する手法の論文を紹介します

農業に大きく関わっている害虫のデータセットを構築する．
このデータセットは合計枚以上，種類の害虫の画像を含んでいる．
害虫が主に影響している作物によって，階層的なラベルが付けられている．
さらに，その中の枚は用のは付けられている．

下記手順で構築する
分類システムの設立
農業の専門家によって，主に影響している種類作物のと種類の害虫のの階層的な構造を作る．
画像収集
専門な農業と昆虫のウェブサイト，害虫のビデオのキャプチャーリングから収集
事前のデータフィルタリング
害虫の各段階のフォーム（卵・幼虫・蛹・成虫）を含まない画像，もしくは二種類以上害虫がある画像を除外
専門家によるアノテーション
独立アノテーション段階では，各種類の作物のエキスパート合計名は，まずそれぞれメイン研究分野の作物を害する
害虫のに分類する．
協力アノテーション段階では，すべてのエキスパートは上記段階でに分類された画像を
のに分類する．人以上が同じクラスにアノテートしないと削除する．

● 他の害虫と関係があるデータセットと比較
● 各クラスのサンプル数の分布（）

● 深層学習モデルの分類性能（左右）
● 深層学習モデルの検出性能
精度が悪い原因：
● データ不均衡
● 種類の害虫は種類の
フォームを含む

大規模の交通監視カメラのデータセットを構築する．
このデータセットは広範囲なシーン，いろんな視角，交通条件，車両種類を含み，総計
個以上のがアノテートされている．
その他，各カメラの幾何学とキャリブレーション情報も提供される．
（多目標多カメラ）トラッキング，（多目標単カメラ）トラッキング，物体検出，車
両などのタスクで利用できる．

基本情報：
● 撮影場所はアメリカの中規模の町
● 合計時間のビデオ（）
● 交差点の台交通カメラから撮影
● 二台のカメラの最大距離は
● シナリオに分ける
● 合計台車両
● 用のを構築，
合計

● の手法で初歩的なアノテーションをする
（単カメラ多目標）
● 手動でトラッキングエラー，検出エラーを修正
● 手動でカメラ間のトラッキングを連結
● 手動でキャリブレーションの画像を修正して，画像平面情報と座標で
Homography matrix を算出

現存の人車両データセットと比較

で各モデルと損失関数の性能
での性能

AutoAugment:
Learning Augmentation Strategies
From Data

の種類の操作に対して「適用確率」「適用強度」をそれぞれ段階で用意
（前操作，後操作）のペアを強化学習を用いてセット学習する．
はで構成され，選択したセットで小さなモデルを訓練し
そのを報酬としてを学習する．
に適用されるはペアの中からランダムに選ばれる．
最もが上がるセットを個選出（ペアの操作が存在）し
，として用いる（適用する際はランダムにペアの中からペア選ぶ）

正規化（）をに使用したと，
それに加えてを使用した場合の精度比較

で学習したが他のデータセットで使用できるかの検証

データセットごとの固有な操作を可視化
色・コントラスト調整が目立つ空間的操作と色反転が目立つ

CVPR 2019 report (30 papers)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CVPR 2019 report (30 papers)

Similar to CVPR 2019 report (30 papers) (20)

Recently uploaded

Recently uploaded (8)

CVPR 2019 report (30 papers)