SlideShare a Scribd company logo
1 of 17
Download to read offline
Data Noising as Smoothing
in Neural Network Language Models
担当:Quasi_quant2010
ICLR2017読み会 @Dena1
Authers Insistence and Reviewer’s Summary
 Authers
 Data Nosing is data augmentation as another
regularization methods
 Reviwers
 {Rating_6:2人, Rating_8:1人}
 Strengths
 data noising as a regularization technique for LM
 Weeknesses
 Main concern is that the proposed method is too simple
and sounds ad hoc
 there are no comparisons between the noising/smoothing
idea and more conventional regularizers
ICLR2017読み会 @Dena2
引用 : goo.gl/ZKRyjr
概要
- Noise Samplingが正則化と同値なことを経験的に検証した -
ICLR2017読み会 @Dena3
 先行研究ではパラメータや隠れ層に関する工夫が多い
 L2 正則化 w.r.t. model parameters
 Dropout w.r.t. hidden activations
 Gradient Norm Clipping
 WeightMatrixの固有値を1に近づける(こんなのあったのか)
 一方で入力データを制限する研究は少ない
 ここはとても共感できる箇所
 そこで、入力データをNegative Sampleからも取得すること
で汎化性能が高まらないかを検証した
 またNoising Schemesが古典的な言語モデルにおける
smoothingと共通点を持っている事を示した
本論文を読んだ動機
- NN系のパラメータ推定方法と汎化性能 -
 NN系はアーキテクチャ勝負になっており、推定方法自体に
もっと焦点があたってもよいのではないか
 パラメータ推定方法
 実務で作ったモデルにノイズ分布としてKneser-Neyを使っており経験的に
Perplexity(PP)が低い事が確認出来ている
 多くがNegativeSamplingで使用されるunigram経験分布を3/4乗した
ものをノイズ分布として使っていると思う
 そこで、ノイズ分布の選定方法について示唆がないかと
 データスパース性
 embeddingした言語モデルが古典的なsmoothingより性能が高い事は
よく知られている
 個人的にはembeddingが何らかのsmoothing効果をもっていると考えて
おり、それを理解できればと
ICLR2017読み会 @Dena4
NCEについて補足
- MLEは漸近有効だがNCEはそうではない -
 Noise-Contrastive Estimation(NCE)とは、分配関数
を陽に書き下せるものの数値積分が困難な場合に対処する
パラメータ推定方法の事
 Key Properties : 理論的にNCEは、一定条件の下、
漸近的にMLEと類似した振舞をする
 MLEとの類似点
 一致性を持つ
 漸近正規性を持つ
 MLEとの相違点
 MLEとNCEの分散が近似的に一致する
 分配関数が求まる場合に成立するものの、NCEを使うので現実的にはあり得
ません(なので、近似的に成り立つという事
 noiseサンプルが十分大きい場合に成立
ICLR2017読み会 @Dena5
本論文ではNCEのように目的関数の
定式化がされていない箇所が弱い
本論文の推定方法概念図①
- ノイズ分布をいくつか試している -
ICLR2017読み会 @Dena6
 設定
 Source : Cij, j=1,…,J(JはContextの長さ)
 Target : wi
 負例サンプルを工夫する
 1. Contextがある分布に従い空白と入れ替える
← Contextとして不適切な単語を削除していることに対応?
← 因みに実務で実施した内容と同じ。ただし、
不適切な単語かどうかを判定するモデルを別途作った
 2. Cijがある分布に従い単語と入れ替える
 SourceのFeatureに適用するノイズ分布を工夫する
 Kneser-Neyで計算した分布
 q(x) ∝ N1+(#,x)
本論文の推定方法概念図②
- Noising SchemesとSmoothingの共通点-
 簡単なBlankNoiseで説明
 一般に、 E[ξ] = E[E[ξ|η]] = Σi Pi * E[ξ|ηi]
 p(xt|x<t)(= E[ξ|η]) を言語確率、π(|J|)=(Pi)
をSwapする確率とみれば
 pγ (スムージング後)はPiによって線形結合されている
 これは古典的な言語モデルでいう線形補間と同値
 pγ(x3|x1,x2)の例は以下;
7
P:ノイズスムージング前 Pγ:ノイズスムージング後
アイディア①
- SMOOTHING AND NOISING -
 言語モデルにおける古典的なスムージングとして
Kneser-Ney(KN)が最高性能を発揮していた
 RNN系への適用
 RNNはカウントベースのモデルではない(隠れ層は実数)ため、
何らかの工夫が必要
 そこで、 Kneser-Neyで計算した確率をノイズ分布として使った
 two simple noising schemes
 blank noising
 Contextがある分布に従い空白と入れ替える
 n-gram noising
 Cijがある分布(KN)に従い単語と入れ替える
ICLR2017読み会 @Dena8
アイディア②
- SAMPLING TECHNIQUES -
 ノイズ分布を真面目に計算するので、
シークエンス入力(Cij)に依存する分布をKN的に作りたい
 “and the”
 シークエンス入力で多く共通する単語で、重要ではなくノイズ
 “Humpty Dumpty”
 ハンプティの次ってほぼダンプティだよね
 このような現象に着目したのがKNだった
 本論文では二つの方法を提案
 Absolute Discounting
 Kneser-Ney smoothing
ICLR2017読み会 @Dena9
アイディア③
- seq2seq or encoder-decoderへの拡張 -
 サンプリング系では通常Targetを正・負例でサンプリングする
が入出力を系列として扱うSeq2Seqやencoder-
decoderに対応する為、入出力においてサンプリングする
 input sequence x_{<t}
 output sequence y_{<t}
 筆者いわく、この操作に関する解釈や意味は特にない・・・
ICLR2017読み会 @Dena10
問題設定
- 言語モデル -
 データ
 Penn Treebank・ Text8
 LSTM
 two hidden layers(hidden sizes of 512 and 1500)
 Train
 SGD
 initial learning rate : 1.0
 scheduling : 訓練フェーズにおいて、クロスエントロピーが下がらなくなっ
たら、学習率を更新(1/2倍)する
 clipping : Max-Clipping(max norm is 5)
 正則化
 Dropout
 dropout with noising schemes
ICLR2017読み会 @Dena11
結果
 あんまり違いがないような・・・
 PP(Validation)は青>赤になっている
 とくに考察はなし
ICLR2017読み会 @Dena12
青:Noiseあり、赤: Noiseなし
問題設定
- 機械翻訳 -
 データ
 IWSLT 2015 corpus(English-German)
 two-layer LSTM encoder-decoder
 hidden sizes of 512
 Decoderにはattentionを使う
 Train
 SGD
 initial learning rate : 1.0
 scheduling :連続する二回のPerplexityの差が1%以下になったら、
学習率を更新(1/2倍)する
 clipping : Max-Clipping(max norm is 5)
 正則化
 Dropout
ICLR2017読み会 @Dena13
結果
 SourceやTargetだけノイズを加えるよりも両方に加えた方
がPPLは下がる
 PPL(BigramNoise) < PPL(UigramNoise)
ICLR2017読み会 @Dena14
SourceだけNoiseあり
TargetだけNoiseあり
考察
- サンプリング系の利点 -
 実験がちょっと足りないような気もする
 例えば、言語モデルとかなら、古典的なKNのPPLも見たい
 KNでノイズ分布がいい意味でスムージングされるのであれば
その感応度が変化すると言語モデルのPPLがどの程度変化するか
も興味がある
 言語モデルのPPL変化 / ノイズ分布のPPL変化とか
 モデルパラメータへの感応度
 推定パラメータが複数あるので、しっかり要因を分解して
何を動かすとPPLがどの程度変わるのかを知りたい
 ノイズ分布を上手く作ることが最もPPL向上に寄与するのか
 ideaはとても面白い
 特にblankと置き換える際の方法を確立するとよいと思う
 Contextとして不適切な単語を削除していることに対応しているはず
ICLR2017読み会 @Dena15
考察
- モデルパラメータ推定方法に関する所感 -
 NCEはレアイベント予測(クリック予測)やSparseデータを用
いた予測に関する最適化問題を解くことに相性が良い方法
なのではないか
 目的関数 = 真の分布からのサンプル + ノイズ分布のサンプルと
分解しているから
 通常、レアイベント予測では観測できるラベルデータが少ない
か、偏りが強い(不均衡データ)ためパラメータ推定が困難
 訓練データを不均衡データとして扱い、パラメータ学習に使うサンプ
ルをある経験分布に従いサンプルしたり、ある基準で閾値を決めて
訓練データ限定したりするヒューリスティックスはよく使う
 恐らく、NCEのノイズ分布サンプル = 不均衡データでの経験
分布に従うサンプル、という対応がある気がします
ICLR2017読み会 @Dena16
参考文献
 [Ziang Xie, etc] Data Noising as Smoothing in Neural Network
Language Models ICLR17
 [M.U.Gutmann, etc] Noise-Contrastive Estimation of Unnormalized
Statistical Models, with Applications to Natural Image Statistics,
JMLR, 13, 307-361, 2012
 [M.U.Gutmann, etc] Likelihood-Free Inference via Classification,
Statistics and Computing17
 [Mnih, etc] Learning word embeddings efficiently with noise-
contrastive estimation, Advances in Neural Information Processing
Systems 26, NIPS, 2013
 [Tianxing He, etc] On Training Bi-directional Neural Network
Language Model with Noise Contrastive Estimation arxiv16
 [松林優一郎, etc]ニューラルネットワークによる日本語述語項構造解析の素性の汎
化, 言語処理学会17
 [Quasi_quant2010] Noise Contrastive Estimationについて,
goo.gl/c9tw7r
ICLR2017読み会 @Dena17

More Related Content

What's hot

【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...Deep Learning JP
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...Deep Learning JP
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNsDeep Learning JP
 
深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術孝昌 田中
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable ConvolutionsDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task LearningDeep Learning JP
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
高位合成でDeep learning
高位合成でDeep learning高位合成でDeep learning
高位合成でDeep learningMori Labo.
 
【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較Ryota Suzuki
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...Yuki Tomo
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 

What's hot (20)

【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 
深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
高位合成でDeep learning
高位合成でDeep learning高位合成でDeep learning
高位合成でDeep learning
 
【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 

Viewers also liked

言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-Takahiro Kubo
 
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会Eiji Sekiya
 
[ICLR2017読み会 @ DeNA] ICLR2017紹介
[ICLR2017読み会 @ DeNA] ICLR2017紹介[ICLR2017読み会 @ DeNA] ICLR2017紹介
[ICLR2017読み会 @ DeNA] ICLR2017紹介Takeru Miyato
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
エフェクト用 Shader 機能紹介
エフェクト用 Shader 機能紹介エフェクト用 Shader 機能紹介
エフェクト用 Shader 機能紹介Hajime Sanno
 
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10エンジニアがデザインやってみた @ Aimning MeetUp 2017/10
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10Hidenori Doi
 
エフェクトにしっかり色を付ける方法
エフェクトにしっかり色を付ける方法エフェクトにしっかり色を付ける方法
エフェクトにしっかり色を付ける方法kmasaki
 
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポートLINE Corporation
 
共変戻り値型って知ってますか?
共変戻り値型って知ってますか?共変戻り値型って知ってますか?
共変戻り値型って知ってますか?Ryota Murohoshi
 
Node and Micro-Services at IBM
Node and Micro-Services at IBMNode and Micro-Services at IBM
Node and Micro-Services at IBMDejan Glozic
 
Effective web performance tuning for smartphone
Effective web performance tuning for smartphoneEffective web performance tuning for smartphone
Effective web performance tuning for smartphonedena_study
 
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...RのffでGLMしてみたけど...
RのffでGLMしてみたけど...Kazuya Wada
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsEtsuji Nakai
 
ディープボルツマンマシン入門
ディープボルツマンマシン入門ディープボルツマンマシン入門
ディープボルツマンマシン入門Saya Katafuchi
 
FINAL FANTASY Record Keeper の作り方
FINAL FANTASY Record Keeper の作り方FINAL FANTASY Record Keeper の作り方
FINAL FANTASY Record Keeper の作り方dena_study
 
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみたRのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみたKazuya Wada
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2Hiroyuki Kato
 

Viewers also liked (20)

言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会
Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会
 
医療データ解析界隈から見たICLR2017
医療データ解析界隈から見たICLR2017医療データ解析界隈から見たICLR2017
医療データ解析界隈から見たICLR2017
 
Q prop
Q propQ prop
Q prop
 
[ICLR2017読み会 @ DeNA] ICLR2017紹介
[ICLR2017読み会 @ DeNA] ICLR2017紹介[ICLR2017読み会 @ DeNA] ICLR2017紹介
[ICLR2017読み会 @ DeNA] ICLR2017紹介
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
エフェクト用 Shader 機能紹介
エフェクト用 Shader 機能紹介エフェクト用 Shader 機能紹介
エフェクト用 Shader 機能紹介
 
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10エンジニアがデザインやってみた @ Aimning MeetUp 2017/10
エンジニアがデザインやってみた @ Aimning MeetUp 2017/10
 
エフェクトにしっかり色を付ける方法
エフェクトにしっかり色を付ける方法エフェクトにしっかり色を付ける方法
エフェクトにしっかり色を付ける方法
 
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
 
共変戻り値型って知ってますか?
共変戻り値型って知ってますか?共変戻り値型って知ってますか?
共変戻り値型って知ってますか?
 
Node and Micro-Services at IBM
Node and Micro-Services at IBMNode and Micro-Services at IBM
Node and Micro-Services at IBM
 
Effective web performance tuning for smartphone
Effective web performance tuning for smartphoneEffective web performance tuning for smartphone
Effective web performance tuning for smartphone
 
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOps
 
ディープボルツマンマシン入門
ディープボルツマンマシン入門ディープボルツマンマシン入門
ディープボルツマンマシン入門
 
FINAL FANTASY Record Keeper の作り方
FINAL FANTASY Record Keeper の作り方FINAL FANTASY Record Keeper の作り方
FINAL FANTASY Record Keeper の作り方
 
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみたRのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 

Similar to ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena

Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesSatoru Katsumata
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...Deep Learning JP
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」Naonori Nagano
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-Takeshi Yamamuro
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...Deep Learning JP
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)Wataru Fukatsu
 
差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方Hiroshi Nakagawa
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codesshima o
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについてNatsutani Minoru
 

Similar to ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena (20)

Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)
 
差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
 

More from Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

More from Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena

  • 1. Data Noising as Smoothing in Neural Network Language Models 担当:Quasi_quant2010 ICLR2017読み会 @Dena1
  • 2. Authers Insistence and Reviewer’s Summary  Authers  Data Nosing is data augmentation as another regularization methods  Reviwers  {Rating_6:2人, Rating_8:1人}  Strengths  data noising as a regularization technique for LM  Weeknesses  Main concern is that the proposed method is too simple and sounds ad hoc  there are no comparisons between the noising/smoothing idea and more conventional regularizers ICLR2017読み会 @Dena2 引用 : goo.gl/ZKRyjr
  • 3. 概要 - Noise Samplingが正則化と同値なことを経験的に検証した - ICLR2017読み会 @Dena3  先行研究ではパラメータや隠れ層に関する工夫が多い  L2 正則化 w.r.t. model parameters  Dropout w.r.t. hidden activations  Gradient Norm Clipping  WeightMatrixの固有値を1に近づける(こんなのあったのか)  一方で入力データを制限する研究は少ない  ここはとても共感できる箇所  そこで、入力データをNegative Sampleからも取得すること で汎化性能が高まらないかを検証した  またNoising Schemesが古典的な言語モデルにおける smoothingと共通点を持っている事を示した
  • 4. 本論文を読んだ動機 - NN系のパラメータ推定方法と汎化性能 -  NN系はアーキテクチャ勝負になっており、推定方法自体に もっと焦点があたってもよいのではないか  パラメータ推定方法  実務で作ったモデルにノイズ分布としてKneser-Neyを使っており経験的に Perplexity(PP)が低い事が確認出来ている  多くがNegativeSamplingで使用されるunigram経験分布を3/4乗した ものをノイズ分布として使っていると思う  そこで、ノイズ分布の選定方法について示唆がないかと  データスパース性  embeddingした言語モデルが古典的なsmoothingより性能が高い事は よく知られている  個人的にはembeddingが何らかのsmoothing効果をもっていると考えて おり、それを理解できればと ICLR2017読み会 @Dena4
  • 5. NCEについて補足 - MLEは漸近有効だがNCEはそうではない -  Noise-Contrastive Estimation(NCE)とは、分配関数 を陽に書き下せるものの数値積分が困難な場合に対処する パラメータ推定方法の事  Key Properties : 理論的にNCEは、一定条件の下、 漸近的にMLEと類似した振舞をする  MLEとの類似点  一致性を持つ  漸近正規性を持つ  MLEとの相違点  MLEとNCEの分散が近似的に一致する  分配関数が求まる場合に成立するものの、NCEを使うので現実的にはあり得 ません(なので、近似的に成り立つという事  noiseサンプルが十分大きい場合に成立 ICLR2017読み会 @Dena5 本論文ではNCEのように目的関数の 定式化がされていない箇所が弱い
  • 6. 本論文の推定方法概念図① - ノイズ分布をいくつか試している - ICLR2017読み会 @Dena6  設定  Source : Cij, j=1,…,J(JはContextの長さ)  Target : wi  負例サンプルを工夫する  1. Contextがある分布に従い空白と入れ替える ← Contextとして不適切な単語を削除していることに対応? ← 因みに実務で実施した内容と同じ。ただし、 不適切な単語かどうかを判定するモデルを別途作った  2. Cijがある分布に従い単語と入れ替える  SourceのFeatureに適用するノイズ分布を工夫する  Kneser-Neyで計算した分布  q(x) ∝ N1+(#,x)
  • 7. 本論文の推定方法概念図② - Noising SchemesとSmoothingの共通点-  簡単なBlankNoiseで説明  一般に、 E[ξ] = E[E[ξ|η]] = Σi Pi * E[ξ|ηi]  p(xt|x<t)(= E[ξ|η]) を言語確率、π(|J|)=(Pi) をSwapする確率とみれば  pγ (スムージング後)はPiによって線形結合されている  これは古典的な言語モデルでいう線形補間と同値  pγ(x3|x1,x2)の例は以下; 7 P:ノイズスムージング前 Pγ:ノイズスムージング後
  • 8. アイディア① - SMOOTHING AND NOISING -  言語モデルにおける古典的なスムージングとして Kneser-Ney(KN)が最高性能を発揮していた  RNN系への適用  RNNはカウントベースのモデルではない(隠れ層は実数)ため、 何らかの工夫が必要  そこで、 Kneser-Neyで計算した確率をノイズ分布として使った  two simple noising schemes  blank noising  Contextがある分布に従い空白と入れ替える  n-gram noising  Cijがある分布(KN)に従い単語と入れ替える ICLR2017読み会 @Dena8
  • 9. アイディア② - SAMPLING TECHNIQUES -  ノイズ分布を真面目に計算するので、 シークエンス入力(Cij)に依存する分布をKN的に作りたい  “and the”  シークエンス入力で多く共通する単語で、重要ではなくノイズ  “Humpty Dumpty”  ハンプティの次ってほぼダンプティだよね  このような現象に着目したのがKNだった  本論文では二つの方法を提案  Absolute Discounting  Kneser-Ney smoothing ICLR2017読み会 @Dena9
  • 10. アイディア③ - seq2seq or encoder-decoderへの拡張 -  サンプリング系では通常Targetを正・負例でサンプリングする が入出力を系列として扱うSeq2Seqやencoder- decoderに対応する為、入出力においてサンプリングする  input sequence x_{<t}  output sequence y_{<t}  筆者いわく、この操作に関する解釈や意味は特にない・・・ ICLR2017読み会 @Dena10
  • 11. 問題設定 - 言語モデル -  データ  Penn Treebank・ Text8  LSTM  two hidden layers(hidden sizes of 512 and 1500)  Train  SGD  initial learning rate : 1.0  scheduling : 訓練フェーズにおいて、クロスエントロピーが下がらなくなっ たら、学習率を更新(1/2倍)する  clipping : Max-Clipping(max norm is 5)  正則化  Dropout  dropout with noising schemes ICLR2017読み会 @Dena11
  • 12. 結果  あんまり違いがないような・・・  PP(Validation)は青>赤になっている  とくに考察はなし ICLR2017読み会 @Dena12 青:Noiseあり、赤: Noiseなし
  • 13. 問題設定 - 機械翻訳 -  データ  IWSLT 2015 corpus(English-German)  two-layer LSTM encoder-decoder  hidden sizes of 512  Decoderにはattentionを使う  Train  SGD  initial learning rate : 1.0  scheduling :連続する二回のPerplexityの差が1%以下になったら、 学習率を更新(1/2倍)する  clipping : Max-Clipping(max norm is 5)  正則化  Dropout ICLR2017読み会 @Dena13
  • 14. 結果  SourceやTargetだけノイズを加えるよりも両方に加えた方 がPPLは下がる  PPL(BigramNoise) < PPL(UigramNoise) ICLR2017読み会 @Dena14 SourceだけNoiseあり TargetだけNoiseあり
  • 15. 考察 - サンプリング系の利点 -  実験がちょっと足りないような気もする  例えば、言語モデルとかなら、古典的なKNのPPLも見たい  KNでノイズ分布がいい意味でスムージングされるのであれば その感応度が変化すると言語モデルのPPLがどの程度変化するか も興味がある  言語モデルのPPL変化 / ノイズ分布のPPL変化とか  モデルパラメータへの感応度  推定パラメータが複数あるので、しっかり要因を分解して 何を動かすとPPLがどの程度変わるのかを知りたい  ノイズ分布を上手く作ることが最もPPL向上に寄与するのか  ideaはとても面白い  特にblankと置き換える際の方法を確立するとよいと思う  Contextとして不適切な単語を削除していることに対応しているはず ICLR2017読み会 @Dena15
  • 16. 考察 - モデルパラメータ推定方法に関する所感 -  NCEはレアイベント予測(クリック予測)やSparseデータを用 いた予測に関する最適化問題を解くことに相性が良い方法 なのではないか  目的関数 = 真の分布からのサンプル + ノイズ分布のサンプルと 分解しているから  通常、レアイベント予測では観測できるラベルデータが少ない か、偏りが強い(不均衡データ)ためパラメータ推定が困難  訓練データを不均衡データとして扱い、パラメータ学習に使うサンプ ルをある経験分布に従いサンプルしたり、ある基準で閾値を決めて 訓練データ限定したりするヒューリスティックスはよく使う  恐らく、NCEのノイズ分布サンプル = 不均衡データでの経験 分布に従うサンプル、という対応がある気がします ICLR2017読み会 @Dena16
  • 17. 参考文献  [Ziang Xie, etc] Data Noising as Smoothing in Neural Network Language Models ICLR17  [M.U.Gutmann, etc] Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics, JMLR, 13, 307-361, 2012  [M.U.Gutmann, etc] Likelihood-Free Inference via Classification, Statistics and Computing17  [Mnih, etc] Learning word embeddings efficiently with noise- contrastive estimation, Advances in Neural Information Processing Systems 26, NIPS, 2013  [Tianxing He, etc] On Training Bi-directional Neural Network Language Model with Noise Contrastive Estimation arxiv16  [松林優一郎, etc]ニューラルネットワークによる日本語述語項構造解析の素性の汎 化, 言語処理学会17  [Quasi_quant2010] Noise Contrastive Estimationについて, goo.gl/c9tw7r ICLR2017読み会 @Dena17