ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena

Data Noising as Smoothing
in Neural Network Language Models
担当：Quasi_quant2010
ICLR2017読み会 @Dena1

Authers Insistence and Reviewer’s Summary
 Authers
 Data Nosing is data augmentation as another
regularization methods
 Reviwers
 {Rating_6:2人, Rating_8:1人}
 Strengths
 data noising as a regularization technique for LM
 Weeknesses
 Main concern is that the proposed method is too simple
and sounds ad hoc
 there are no comparisons between the noising/smoothing
idea and more conventional regularizers
引用 : goo.gl/ZKRyjr

概要
- Noise Samplingが正則化と同値なことを経験的に検証した -
 先行研究ではパラメータや隠れ層に関する工夫が多い
 L2 正則化 w.r.t. model parameters
 Dropout w.r.t. hidden activations
 Gradient Norm Clipping
 WeightMatrixの固有値を1に近づける(こんなのあったのか)
 一方で入力データを制限する研究は少ない
 ここはとても共感できる箇所
 そこで、入力データをNegative Sampleからも取得すること
で汎化性能が高まらないかを検証した
 またNoising Schemesが古典的な言語モデルにおける
smoothingと共通点を持っている事を示した

本論文を読んだ動機
- NN系のパラメータ推定方法と汎化性能 -
 NN系はアーキテクチャ勝負になっており、推定方法自体に
もっと焦点があたってもよいのではないか
 パラメータ推定方法
 実務で作ったモデルにノイズ分布としてKneser-Neyを使っており経験的に
Perplexity(PP)が低い事が確認出来ている
 多くがNegativeSamplingで使用されるunigram経験分布を3/4乗した
ものをノイズ分布として使っていると思う
 そこで、ノイズ分布の選定方法について示唆がないかと
 データスパース性
 embeddingした言語モデルが古典的なsmoothingより性能が高い事は
よく知られている
 個人的にはembeddingが何らかのsmoothing効果をもっていると考えて
おり、それを理解できればと

NCEについて補足
- MLEは漸近有効だがNCEはそうではない -
 Noise-Contrastive Estimation(NCE)とは、分配関数
を陽に書き下せるものの数値積分が困難な場合に対処する
パラメータ推定方法の事
 Key Properties : 理論的にNCEは、一定条件の下、
漸近的にMLEと類似した振舞をする
 MLEとの類似点
 一致性を持つ
 漸近正規性を持つ
 MLEとの相違点
 MLEとNCEの分散が近似的に一致する
 分配関数が求まる場合に成立するものの、NCEを使うので現実的にはあり得
ません(なので、近似的に成り立つという事
 noiseサンプルが十分大きい場合に成立
本論文ではNCEのように目的関数の
定式化がされていない箇所が弱い

本論文の推定方法概念図①
- ノイズ分布をいくつか試している -
 設定
 Source : Cij, j=1,…,J(JはContextの長さ)
 Target : wi
 負例サンプルを工夫する
 1. Contextがある分布に従い空白と入れ替える
← Contextとして不適切な単語を削除していることに対応?
← 因みに実務で実施した内容と同じ。ただし、
不適切な単語かどうかを判定するモデルを別途作った
 2. Cijがある分布に従い単語と入れ替える
 SourceのFeatureに適用するノイズ分布を工夫する
 Kneser-Neyで計算した分布
 q(x) ∝ N1+(#,x)

アイディア①
- SMOOTHING AND NOISING -
 言語モデルにおける古典的なスムージングとして
Kneser-Ney(KN)が最高性能を発揮していた
 RNN系への適用
 RNNはカウントベースのモデルではない(隠れ層は実数)ため、
何らかの工夫が必要
 そこで、 Kneser-Neyで計算した確率をノイズ分布として使った
 two simple noising schemes
 blank noising
 Contextがある分布に従い空白と入れ替える
 n-gram noising
 Cijがある分布(KN)に従い単語と入れ替える

アイディア②
- SAMPLING TECHNIQUES -
 ノイズ分布を真面目に計算するので、
シークエンス入力(Cij)に依存する分布をKN的に作りたい
 “and the”
 シークエンス入力で多く共通する単語で、重要ではなくノイズ
 “Humpty Dumpty”
 ハンプティの次ってほぼダンプティだよね
 このような現象に着目したのがKNだった
 本論文では二つの方法を提案
 Absolute Discounting
 Kneser-Ney smoothing

アイディア③
- seq2seq or encoder-decoderへの拡張 -
 サンプリング系では通常Targetを正・負例でサンプリングする
が入出力を系列として扱うSeq2Seqやencoder-
decoderに対応する為、入出力においてサンプリングする
 input sequence x_{<t}
 output sequence y_{<t}
 筆者いわく、この操作に関する解釈や意味は特にない・・・

問題設定
- 言語モデル -
 データ
 Penn Treebank・ Text8
 LSTM
 two hidden layers(hidden sizes of 512 and 1500)
 Train
 SGD
 initial learning rate : 1.0
 scheduling : 訓練フェーズにおいて、クロスエントロピーが下がらなくなっ
たら、学習率を更新(1/2倍)する
 clipping : Max-Clipping(max norm is 5)
 正則化
 Dropout
 dropout with noising schemes

結果
 あんまり違いがないような・・・
 PP(Validation)は青>赤になっている
 とくに考察はなし
青：Noiseあり、赤： Noiseなし

問題設定
- 機械翻訳 -
 データ
 IWSLT 2015 corpus(English-German)
 two-layer LSTM encoder-decoder
 hidden sizes of 512
 Decoderにはattentionを使う
 Train
 SGD
 initial learning rate : 1.0
 scheduling :連続する二回のPerplexityの差が1%以下になったら、
学習率を更新(1/2倍)する
 clipping : Max-Clipping(max norm is 5)
 正則化
 Dropout

結果
 SourceやTargetだけノイズを加えるよりも両方に加えた方
がPPLは下がる
 PPL(BigramNoise) < PPL(UigramNoise)
SourceだけNoiseあり
TargetだけNoiseあり

考察
- サンプリング系の利点 -
 実験がちょっと足りないような気もする
 例えば、言語モデルとかなら、古典的なKNのPPLも見たい
 KNでノイズ分布がいい意味でスムージングされるのであれば
その感応度が変化すると言語モデルのPPLがどの程度変化するか
も興味がある
 言語モデルのPPL変化 / ノイズ分布のPPL変化とか
 モデルパラメータへの感応度
 推定パラメータが複数あるので、しっかり要因を分解して
何を動かすとPPLがどの程度変わるのかを知りたい
 ノイズ分布を上手く作ることが最もPPL向上に寄与するのか
 ideaはとても面白い
 特にblankと置き換える際の方法を確立するとよいと思う
 Contextとして不適切な単語を削除していることに対応しているはず

考察
- モデルパラメータ推定方法に関する所感 -
 NCEはレアイベント予測(クリック予測)やSparseデータを用
いた予測に関する最適化問題を解くことに相性が良い方法
なのではないか
 目的関数 = 真の分布からのサンプル + ノイズ分布のサンプルと
分解しているから
 通常、レアイベント予測では観測できるラベルデータが少ない
か、偏りが強い(不均衡データ)ためパラメータ推定が困難
 訓練データを不均衡データとして扱い、パラメータ学習に使うサンプ
ルをある経験分布に従いサンプルしたり、ある基準で閾値を決めて
訓練データ限定したりするヒューリスティックスはよく使う
 恐らく、NCEのノイズ分布サンプル = 不均衡データでの経験
分布に従うサンプル、という対応がある気がします

参考文献
 [Ziang Xie, etc] Data Noising as Smoothing in Neural Network
Language Models ICLR17
 [M.U.Gutmann, etc] Noise-Contrastive Estimation of Unnormalized
Statistical Models, with Applications to Natural Image Statistics,
JMLR, 13, 307-361, 2012
 [M.U.Gutmann, etc] Likelihood-Free Inference via Classification,
Statistics and Computing17
 [Mnih, etc] Learning word embeddings efficiently with noise-
contrastive estimation, Advances in Neural Information Processing
Systems 26, NIPS, 2013
 [Tianxing He, etc] On Training Bi-directional Neural Network
Language Model with Noise Contrastive Estimation arxiv16
 [松林優一郎, etc]ニューラルネットワークによる日本語述語項構造解析の素性の汎
化, 言語処理学会17
 [Quasi_quant2010] Noise Contrastive Estimationについて,
goo.gl/c9tw7r

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena

Similar to ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena (20)

More from Takanori Nakai

More from Takanori Nakai (18)

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena