RNAseqによる変動遺伝子抽出の統計: A Review

RNA-seqによる
変動遺伝子抽出の統計
∼レビュー
瀬々潤
sese.jun@aist.go.jp
産総研CBRC

2
DNA(ゲノム)
mRNA
遺伝子
タンパク質
細胞
Illustrations are © 2011 DBCLS Licensed
under a Creative Commons 表示 2.1 日本 License

大規模発現量観測の小史
各遺伝子由来のタグの計数
ランダムに抽出したmRNA中の，特定の部位の配列を特定し，遺伝子発
現量の推定を行う方法
SAGE [Velculescu et al. 1995], BodyMap [Kawamoto et al. 2000]
2003年頃の段階で，定量性を得るために，一つの組織から100万タ
グを超えるデータを取ることを目標にしていた．
CAGE [Shiraki et al. 2003], 5 -SAGE [Hashimoto et al. 2004]
RNA-seq [Ryan et al., 2008, Maher et al. 2009]
ハイブリベースの方法
予め，各遺伝子に対応したプローブを用意しておき，そこにハイブリし
たmRNAタグの量を，蛍光量などに変換して，観測する
マイクロアレイ [Tse-Wen, 1983, Schena et al. 1995]

マイクロアレイ
• 遺伝子の量を蛍光強度に変換して観測
マイクロアレイ
DNA
mRNA
（遺伝子）
発現量

RNA-seq
• 遺伝子の量をリードの数を数えることで定量化
DNA
mRNA
次世代シーケンサ
から得られるリード
（100塩基程度の塩基配列）
リードのマッピング
（リードをゲノムの
領域に対応付ける）
発現量

RNA-seq解析の流れ
リードをゲノムへマッピング TopHat, STARなど
各遺伝子上のリード数を計数 HTSeq, RSEMなど
遺伝子数 n
サンプル数 m
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で１つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
Splicing が考慮出来る必要あり
注：必ずしも各ソフトウエアが上記を
綺麗に切り分けている訳ではない．
たとえばTopHatは計数まで行える．

リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
全体で１つ
の抽出
正規化
機能解析
1. RNA-seqでは，各ライブラリか
ら出てくるタグ数が一致しないの
で，仮想的に一致させる．遺伝子
長でもタグ数は異なる．
2. サンプルによってバイアスがあ
ることがあり，必要に応じて補正
を要する．
1の例として，RPKM [Montazavi et al., 2008]
遺伝子(Exon)上の全リード * 1,000
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長
2は，マイクロアレイ時にも行われていた．
非常に高発現な数遺伝子の変動に全体が
ひきずられる結果，数千遺伝子が変動している
ように見えてしまう．

リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
全体で１つ
の抽出
正規化
機能解析
RNA-seq時代になって，
Biological replicateを取るこ
とが必須となっている．
そのreplicateを使って，2群間比
較を行い，統計的に有意な発現変
動のある遺伝子群を抽出する
edgeR [Robinson et al. 2010],
DESeq [Anders et al. 2010],
SAGE法の後期では，同様の研究が
行われており，その理論を
RNA-seqに転用している．

発現比率と統計的有意差
• MA plot
Robinson M D et al. Bioinformatics 2010;26:139-140
© The Author(s) 2009. Published by Oxford University Press.
(平均)発現量
発現差
Fig

分割表による検定
• 一般に，Fisherの正確確率検定，カイ二乗検定など．
• タグ発現解析では，ポアソン分布を用いた検定が使われる
• 二項分布を考えた場合でもpが小さい場合に相当し，ポア
ソン分布で良く近似できる
150 100
1750 1900
1900 2000
Case Ctrl
Total
Gene1由来
Gene1以外由来
2000回のサンプルで，100回起きる事象が
あるとき，1900回のサンプルで，150回事
象が起こる
p=100/2000=0.05の確率で表が出るコイ
ンを1900回投げ150回表が出る
単位時間tあたり，0.05t 回事象が起こると
き，(150/1900)t回事象が起こる確率
二項分布
ポアソン分布

Biological replicate はどうするか
• CaseもControlも3回ずつ取られている状況を考える
• ポアソン分布の枠組みでは，Biological replicateを
直接は扱えない．
• 例えば，20回ずつ取られていれば，各遺伝子毎にt
検定も有効かもしれないが，3回では検定の検出力
が足りない
• ましてやt検定の前提条件が満たされているか，確
かめられる回数でもない．
• 実際には，統計検定が最終的な目標ではないので，「費
用の問題」「それだけ実験をするなら，他の条件を観
測したい」などで，大量のreplicate が取られることは
無い．
• とはいえ，ある程度の有意差検定を行いたい
遺伝子数n
Control Case

本当に二項分布/ポアソン分布なのだろうか？
• 二項分布の分散は np(1-p)．ポアソン分布は λ(∼np)
• 黒線が理論線．青点が実際の分散
• 理論値よりも分散が遥かに大きい．特に発現量が大きい時に顕著
• ポアソン分布で検定すると，発現量が大きい時，殆ど発現量に変
化がないのに，有意差が生まれてしまう←モデルが誤っている
Anders, S., et al. (2013). Nature Protocols
Fig

負の二項分布を用いたモデル化
• ポアソン分布に分散を表す変数を加えたい
• 負の二項分布を用いて表すモデル化が採用されている (edgeR,
DESeq, cuffdiff2など)
• 負の二項分布は，ポアソン分布に変数を１つ加えたもの，あるいは，
複数のポアソン分布の混合分布として計算することが可能．
• 計測点が3点のみでは計算した分散の値が信頼出来ない問題は解消さ
れていないことに注意．
P(Y = y) =
✓
n
y
◆
py
(1 p)n y
二項分布：
負の二項分布：
の値をとっているわけではなく，
など，様々な状態を反映している
全に一致した値になることは無い
NA-seq を利用した多くの 2 群間
群から複数回のサンプル（生物学
，2 群間の比較が行われる．各遺
応の無い 2 群間比較の問題と考え
で行われる実験の回数は，実験費
意の難しさから，各群の実験が 3
少ないことも多い．この少ない実
題となる．
用される検定として t 検定（ス
挙げられる．t 検定では，2 群間
来かを検定する．
の RNA-seq を行ったとする．そ
, Aa とする．同様に群 B から b
れぞれ B1, B2, ..., Bb とする．こ
ことが知られている．一方，実際にデータを調べると，
大きい所では，分散が λ より大きな値を取っている事
られている ([4] の Figure 1，あるいは [2] の Supplemn
Text Figure 2.)．このため，ポアソン分布を用いて検
行うと，特に発現量が大きい遺伝子に対して，本来の
上に低い P 値を算出する可能性がある．
過分散が起きた場合に，適用されるモデルが負の二
布である．負の二項分布を用いた検定は，以下のよう
式化される
定式化 4 確率変数を Y として，パラメータ p と r
いると，負の二項分布は
P(Y = y) =
y + r − 1
r
py
(1 − p)r
と表せる．また，ガンマ関数 Γ(x) =
∞
0
e−t
tx−1
dt が
が自然数の時，Γ(x) = (x − 1)! である事を用いると，
P(Y = y) =
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
となる．期待値は pr/(1 − p)，分散は pr/(1 − p)2
であ
P(Y = y) =
✓
y + r 1
r
◆
py
(1 p)r
=
(y + r)
(r) (y + 1)
py
(1 p)r
正規化の時点で離散値では
なくなっているので，
連続値が扱えて嬉しい．

変数 r を無限に飛ばすと，負の二項分布はポアソン分布に近似できる．
期待値を表す新たな変数として λ = pr
1−p を導入すると，p = λ
r+λ である．こ
れを，負の二項分布の式に代入して，変形する．
f(y; k, r) = P(Y = y)
=
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
=
λy
y!
·
Γ(y + r)
Γ(r)(r + λ)r
·
1
1 + λ
r
r
ここで r を無限に飛ばすと，第 1 項は r に依存せず，第 2 項は 1，第 3 項は
指数関数に収束するので，
lim
r→∞
f(y; k, r) =
λy
y!
1
eλ
これは，期待値 λ のポアソン分布である．
証明
■

各遺伝子の発現量の分散を推定する
• 経験的に，分散は発現量に依存する
• 発現量が近い場合，分散も類似すると考えて
回帰問題を考えることで，分散の推定を行っ
ている．
• DESeqの例：サンプルi, 遺伝子gに対し，分散
を次の式で推定する．
Anders, S., et al. (2013). Nature Protocols
µ(i, g) + t(i)2
⌫(g)
正規化後の
推定発現量
サンプルの
総タグ数
パラメータ
遺伝子毎の値．
この値を回帰で
求める
過分散を表す項
Fig

分布は推定できた．検定はどうする？
• 分布が複雑で，解析的にはp値が求まらない．
• 求めた負の二項分布に従った乱数を発生させ，シミュレーションでp
値を求める (DESeq)
• あるいは，フィッシャーの正確確率検定の様に，観測された値以上に
極端な場合を数え上げる (edgeR)
• 例えばDESeqの戦略では
• 遺伝子g由来のタグがControl から NA回，CaseからNB回が観測された
とすると
• Control と Caseは独立だと仮定するしPr(Y=NA)Pr(Y=NB)を計算
• 負の二項分布から乱数を2個(N1, N2)発生させ Pr(Y=N1)Pr(Y=N2)を計算
• 元の値より，p値が小さくなるような乱数の割合がp値
• 最後は，False Discovery Rate (FDR)によって，多重検定補正を行う

Cuffdiffについて
• Cuffdiff(2)は，edgeRやDESeqと違い，RNA-seq，特にSplicing
variant を定量化する話が根本にある．
• １つの遺伝子が複数のスプライシングバリアントを保つ場合，
各リードがどのスプライシングバリアントに属するかを，最
尤推定を用いて定式化
• 発現量の分散モデルに関しては，DESeqのモデルを踏襲
• 但し，各exonを負の二項分布で表して，その混合分布（ベー
タ負の二項分布）を発現のモデルにしている
• 最近は，edgeRやDESeqも，スプライスバリアントの定量に力
を入れているようである．

まとめと今後の課題
• RNA-seqの導入によって，マイクロアレイに比べて定量性が高まっただ
けでなく，タグをランダムサンプリングするモデルが導入でき，統計的
なモデル化が進んだ
• 現在まで，（SAGE法の延長による）過分散を考慮した発現差の統計解
析(DESeq, edgeR)と，RNA-seqから生まれた選択的スプライシング解析
(cuffdiff)の2つの道で研究が進んでおり，これらの融合が進んでいる．
• これ以上モデルを複雑にすることは，オーバーフィットとの戦いになる
のではないかと思われる．
• 今後の方向性として
• アリル特異性の解析 [Akama et al. NAR 2014]
• 多サンプルに対する解析
• クラスタ分析との融合など，が考えられるだろう．
• RNA-seqが，PacBioなどを利用した全長観測可能なものになると，
スプライシングのモデル化が容易になる可能性がある．

RNAseqによる変動遺伝子抽出の統計: A Review

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de sesejun

Plus de sesejun (20)

RNAseqによる変動遺伝子抽出の統計: A Review