LDA等のトピックモデル

トピックモデル

 難しい話
考え方、アウトプットイメージ、履歴、ツール、事例

 超難しい話
ベイズ統計、生成モデル、サンプリング

 超難しい話
Dirichlet分布

1

トピックモデルのアウトプット

言葉

トピック
言葉
文書（または顧客）

トピックの定義
ぞれぞれのトピックに対してどうい
う言葉が大事

トピック

トピックの割合
それぞれのユーザに
ついて、どういうトピッ
クが大事

2

履歴の概要
●LSA (1988)
フレームワーク：線型代数学（マトリクス対角化）

文書

出典: http://en.wikipedia.org/wiki/Latent_semantic_analysis

言葉
・問題：アウトプットは使いにくい

3

履歴の概要
●PLSA (1999)
確率理論のフレームワーク

文書トピック言葉

出典: http://en.wikipedia.org/wiki/PLSA

言葉数文書数

・モデル学習： EMアルゴリズム
・問題：過剰適合が多い（特に文書群が小さい場合）
4

履歴の概要
●LDA(2003)
最初の本物のトピックモデル
ベイズ統計フレームワーク

ある言葉
文書にトピックに
のトピック言葉
トピックの分布言葉の分布
ハイパーハイパー
パラメーターパラメーター

出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

言葉数文書数トピック数

5

LDAの展開
LDAに基づくモデル：
●パチンコモデル: トピックの間の関連を考慮
例えば、トピック「データ分析」があるなら、トピック「コンピューター」もある可能性が高いけど、トピック
「ファッション」の確率が低い

●作者・トピックモデル：作者によりトピックの確率が変わる

●関連トピックモデル：モデルの関連を考慮
例えば：html資料のハイパーリンク、論文の引用

LDAは言葉だけでなく、運用範囲は今研究中
例えば：画像処理

6

LDAツール： MALLET
MALLETとは、「MAchine Learning for Language Toolkit」
http://mallet.cs.umass.edu/index.php
Andrew McCallum, of the University of Massachusetts Amherst
無料、オープンソース、Javaベース

7

 難しい話
考え方、履歴、アウトプットイメージ、ツール、事例

 超難しい話

 超難しい話
Dirichlet分布

8

ベイズ統計の基本原則
考え方：データの構造について強気で仮説を立つ
E → H の代わりに、H → E をモデル化する

H E

E: データ、観測出来る情報例えば：文書群
H: 隠れてる情報例えば：トピックの定義、文書ごとのトピック割合
：生成モデル、全ての情報の構造（仮説に基づく）

計算したいこと： P( H | E)
データから、トピックを計算
でも、そのままで計算しにくい
𝑷(𝑯)
ベイズルール： P(H | E) = * P(E | H) ∝ P(H) * P(E | H)
𝑷(𝑬)
事後確率事前確率尤度

仮説する生成モデルから
簡単で計算する
9

LDAの生成モデル
仮説：あるロボットが文書群を作りました。
そのロボットは生成モデルを使って文書ずつ、言葉ずつ、文書群を書きました

For (1:K) :
トピックを生成 β
For each文書 :
文書のトピック分布を生成 θ
For each 言葉 :
トピックをランダムで選択 Z
言葉をランダムで選択 W

10

LDA生成モデル（例）
For (1:トピック数) :
トピックを生成

トピックID キャンペーン限定日焼け肌風呂。。。
1 12% 8% 0.6% 0.2% 1.2%
2 1.3% 0.6% 9% 14% 2%
3 0.3% 0.8% 0.6% 2% 16%

各トピック＝全ての有り得る言葉に対しての確率分布

11


1 12% 8% 0.6% 0.2% 1.2%
2 1.3% 0.6% 9% 14% 2%
3 0.3% 0.8% 0.6% 2% 16%

For each文書 :
文書のトピック分布を生成

文書トピック１トピック１トピック3
1 56% 24% 20%

12


1 12% 8% 0.6% 0.2% 1.2%
2 1.3% 0.6% 9% 14% 2%
3 0.3% 0.8% 0.6% 2% 16%

For each文書 :

文書トピック１トピック２トピック3
1 56% 24% 20%

この分布によりランダム抽出
For each 言葉 :

トピックをランダムで選択：トピック１

13


1 12% 8% 0.6% 0.2% 1.2%
2 1.3% 0.6% 9% 14% 2%
3 0.3% 0.8% 0.6% 2% 16%

For each文書 : この分布によりランダム抽出

文書トピック１トピック２トピック3
1 56% 24% 20%

For each 言葉 :

トピックをランダムで選択：トピック１

言葉をランダムで選択： “限定”

14

モンテカルロの基本原則
P(β 、 θ 、 Z | W) を計算したい。
それは多次元と連続値の確率密度なので正しく計算出来ない
→ サンプリングを使って確率密度を近似する

For each サンプル：
生成モデルを使って｛β 、 θ 、 Z｝を生成
生成モデルを元に生成された｛β、 θ、 Z｝の事前確率を計算 → P (β、 θ、 Z )
生成モデルと｛β 、 θ 、 Z｝により W の尤度を計算 → P (W | β、 θ、 Z )
事前確率と尤度からサンプルの事後確率を計算 P(β 、 θ 、 Z | W) ∝ P (β、θ、Z) * P (W | β、θ、Z )

サンプルが多かったら多いほど事後確率の分布に近づく

15

 難しい話
考え方、履歴、アウトプットイメージ、ツール、事例

 超難しい話

 超難しい話
Dirichlet分布

16

なぜ「LDA」?

トピックを生成 β Dirichlet 分布
For each文書 :
文書のトピック分布を生成 θ Dirichlet 分布
For each 言葉 :
トピックをランダムで選択 Z Categorical 分布
言葉をランダムで選択 W Categorical 分布


17

Categorical分布とは？
For each文書 :
For each 言葉 :


1 x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2%

K値があり得る。 K＝言葉種類の全体数

全ての値 i に対して、確率 xi がある。
確率分布なので：
x1 + x2 + x3 + 。。。 + xk = 1

18

Dirichlet分布とは？
For each文書 :
For each 言葉 :

Categorical 分布を生成する為
⇒ 確率分布の確率分布（！）

キャンペーン限定日焼け肌風呂。。。
x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2% 0.3%
x1 = 1.3% x2 = 0.6% x3 = 9% x4 = 14% x5 = 2% 0.7%
x1 = 0.3% x2 = 0.8% x3 = 0.67% x4 = 2% x5 = 16% 0.2%

Dirichlet式
有り得る {x1, … xK}
のスペース
確率密度
19

Dirichlet分布とは？

Dirichlet式

有り得る {x1, … xK}
のスペース

20

まとめ

●LDAとは、文書群からトピックを統計的に抽出する手法です
●パワフール、使いやすいなので、活用と研究は広がっている状態
●ベイズ統計、確率計算に基づくので、ベイジアンネットワークとの連携がしやすい

言葉

トピック
言葉

LDA
トピック


21

LDA等のトピックモデル

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (10)

LDA等のトピックモデル