SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
RNA-seqによる
変動遺伝子抽出の統計
∼レビュー
瀬々 潤
sese.jun@aist.go.jp
産総研CBRC
2
DNA(ゲノム)
mRNA
遺伝子
タンパク質
細胞
Illustrations are © 2011 DBCLS Licensed
under a Creative Commons 表示 2.1 日本 License
大規模発現量観測の小史
各遺伝子由来のタグの計数
ランダムに抽出したmRNA中の,特定の部位の配列を特定し,遺伝子発
現量の推定を行う方法
SAGE [Velculescu et al. 1995], BodyMap [Kawamoto et al. 2000]
2003年頃の段階で,定量性を得るために,一つの組織から100万タ
グを超えるデータを取ることを目標にしていた.
CAGE [Shiraki et al. 2003], 5 -SAGE [Hashimoto et al. 2004]
RNA-seq [Ryan et al., 2008, Maher et al. 2009]
ハイブリベースの方法
予め,各遺伝子に対応したプローブを用意しておき,そこにハイブリし
たmRNAタグの量を,蛍光量などに変換して,観測する
マイクロアレイ [Tse-Wen, 1983, Schena et al. 1995]
マイクロアレイ
• 遺伝子の量を蛍光強度に変換して観測
マイクロアレイ
DNA
mRNA
(遺伝子)
発現量
RNA-seq
• 遺伝子の量をリードの数を数えることで定量化
DNA
mRNA
次世代シーケンサ
から得られるリード
(100塩基程度の塩基配列)
リードのマッピング
(リードをゲノムの
領域に対応付ける)
発現量
RNA-seq解析の流れ
リードをゲノムへマッピング TopHat, STARなど
各遺伝子上のリード数を計数 HTSeq, RSEMなど
遺伝子数 n
サンプル数 m
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
Splicing が考慮出来る必要あり
注:必ずしも各ソフトウエアが上記を
綺麗に切り分けている訳ではない.
たとえばTopHatは計数まで行える.
RNA-seq解析の流れ
リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
1. RNA-seqでは,各ライブラリか
ら出てくるタグ数が一致しないの
で,仮想的に一致させる.遺伝子
長でもタグ数は異なる.
2. サンプルによってバイアスがあ
ることがあり,必要に応じて補正
を要する.
1の例として,RPKM [Montazavi et al., 2008]
遺伝子(Exon)上の全リード * 1,000
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長
2は,マイクロアレイ時にも行われていた.
非常に高発現な数遺伝子の変動に全体が
ひきずられる結果,数千遺伝子が変動している
ように見えてしまう.
RNA-seq解析の流れ
リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
RNA-seq時代になって,
Biological replicateを取るこ
とが必須となっている.
そのreplicateを使って,2群間比
較を行い,統計的に有意な発現変
動のある遺伝子群を抽出する
edgeR [Robinson et al. 2010],
DESeq [Anders et al. 2010],
SAGE法の後期では,同様の研究が
行われており,その理論を
RNA-seqに転用している.
発現比率と統計的有意差
• MA plot
Robinson M D et al. Bioinformatics 2010;26:139-140
© The Author(s) 2009. Published by Oxford University Press.
(平均)発現量
発現差
Fig
分割表による検定
• 一般に,Fisherの正確確率検定,カイ二乗検定など.
• タグ発現解析では,ポアソン分布を用いた検定が使われる
• 二項分布を考えた場合でもpが小さい場合に相当し,ポア
ソン分布で良く近似できる
150 100
1750 1900
1900 2000
Case Ctrl
Total
Gene1由来
Gene1以外由来
2000回のサンプルで,100回起きる事象が
あるとき,1900回のサンプルで,150回事
象が起こる
p=100/2000=0.05の確率で表が出るコイ
ンを1900回投げ150回表が出る
単位時間tあたり,0.05t 回事象が起こると
き,(150/1900)t回事象が起こる確率
二項分布
ポアソン分布
Biological replicate はどうするか
• CaseもControlも3回ずつ取られている状況を考える
• ポアソン分布の枠組みでは,Biological replicateを
直接は扱えない.
• 例えば,20回ずつ取られていれば,各遺伝子毎にt
検定も有効かもしれないが,3回では検定の検出力
が足りない
• ましてやt検定の前提条件が満たされているか,確
かめられる回数でもない.
• 実際には,統計検定が最終的な目標ではないので,「費
用の問題」「それだけ実験をするなら,他の条件を観
測したい」などで,大量のreplicate が取られることは
無い.
• とはいえ,ある程度の有意差検定を行いたい
遺伝子数n
Control Case
本当に二項分布/ポアソン分布なのだろうか?
• 二項分布の分散は np(1-p).ポアソン分布は λ(∼np)
• 黒線が理論線.青点が実際の分散
• 理論値よりも分散が遥かに大きい.特に発現量が大きい時に顕著
• ポアソン分布で検定すると,発現量が大きい時,殆ど発現量に変
化がないのに,有意差が生まれてしまう←モデルが誤っている
Anders, S., et al. (2013). Nature Protocols
Fig
負の二項分布を用いたモデル化
• ポアソン分布に分散を表す変数を加えたい
• 負の二項分布を用いて表すモデル化が採用されている (edgeR,
DESeq, cuffdiff2など)
• 負の二項分布は,ポアソン分布に変数を1つ加えたもの,あるいは,
複数のポアソン分布の混合分布として計算することが可能.
• 計測点が3点のみでは計算した分散の値が信頼出来ない問題は解消さ
れていないことに注意.
P(Y = y) =
✓
n
y
◆
py
(1 p)n y
二項分布:
負の二項分布:
の値をとっているわけではなく,
など,様々な状態を反映している
全に一致した値になることは無い
NA-seq を利用した多くの 2 群間
群から複数回のサンプル(生物学
,2 群間の比較が行われる.各遺
応の無い 2 群間比較の問題と考え
で行われる実験の回数は,実験費
意の難しさから,各群の実験が 3
少ないことも多い.この少ない実
題となる.
用される検定として t 検定(ス
挙げられる.t 検定では,2 群間
来かを検定する.
の RNA-seq を行ったとする.そ
, Aa とする.同様に群 B から b
れぞれ B1, B2, ..., Bb とする.こ
ことが知られている.一方,実際にデータを調べると,
大きい所では,分散が λ より大きな値を取っている事
られている ([4] の Figure 1,あるいは [2] の Supplemn
Text Figure 2.).このため,ポアソン分布を用いて検
行うと,特に発現量が大きい遺伝子に対して,本来の
上に低い P 値を算出する可能性がある.
過分散が起きた場合に,適用されるモデルが負の二
布である.負の二項分布を用いた検定は,以下のよう
式化される
定式化 4 確率変数を Y として,パラメータ p と r
いると,負の二項分布は
P(Y = y) =
y + r − 1
r
py
(1 − p)r
と表せる.また,ガンマ関数 Γ(x) =
∞
0
e−t
tx−1
dt が
が自然数の時,Γ(x) = (x − 1)! である事を用いると,
P(Y = y) =
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
となる.期待値は pr/(1 − p),分散は pr/(1 − p)2
であ
P(Y = y) =
✓
y + r 1
r
◆
py
(1 p)r
=
(y + r)
(r) (y + 1)
py
(1 p)r
正規化の時点で離散値では
なくなっているので,
連続値が扱えて嬉しい.
変数 r を無限に飛ばすと,負の二項分布はポアソン分布に近似できる.
期待値を表す新たな変数として λ = pr
1−p を導入すると,p = λ
r+λ である.こ
れを,負の二項分布の式に代入して,変形する.
f(y; k, r) = P(Y = y)
=
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
=
λy
y!
·
Γ(y + r)
Γ(r)(r + λ)r
·
1
1 + λ
r
r
ここで r を無限に飛ばすと,第 1 項は r に依存せず,第 2 項は 1,第 3 項は
指数関数に収束するので,
lim
r→∞
f(y; k, r) =
λy
y!
1
eλ
これは,期待値 λ のポアソン分布である.
証明
■
各遺伝子の発現量の分散を推定する
• 経験的に,分散は発現量に依存する
• 発現量が近い場合,分散も類似すると考えて
回帰問題を考えることで,分散の推定を行っ
ている.
• DESeqの例:サンプルi, 遺伝子gに対し,分散
を次の式で推定する.
Anders, S., et al. (2013). Nature Protocols
µ(i, g) + t(i)2
⌫(g)
正規化後の
推定発現量
サンプルの
総タグ数
パラメータ
遺伝子毎の値.
この値を回帰で
求める
過分散を表す項
Fig
分布は推定できた.検定はどうする?
• 分布が複雑で,解析的にはp値が求まらない.
• 求めた負の二項分布に従った乱数を発生させ,シミュレーションでp
値を求める (DESeq)
• あるいは,フィッシャーの正確確率検定の様に,観測された値以上に
極端な場合を数え上げる (edgeR)
• 例えばDESeqの戦略では
• 遺伝子g由来のタグがControl から NA回,CaseからNB回が観測された
とすると
• Control と Caseは独立だと仮定するしPr(Y=NA)Pr(Y=NB)を計算
• 負の二項分布から乱数を2個(N1, N2)発生させ Pr(Y=N1)Pr(Y=N2)を計算
• 元の値より,p値が小さくなるような乱数の割合がp値
• 最後は,False Discovery Rate (FDR)によって,多重検定補正を行う
Cuffdiffについて
• Cuffdiff(2)は,edgeRやDESeqと違い,RNA-seq,特にSplicing
variant を定量化する話が根本にある.
• 1つの遺伝子が複数のスプライシングバリアントを保つ場合,
各リードがどのスプライシングバリアントに属するかを,最
尤推定を用いて定式化
• 発現量の分散モデルに関しては,DESeqのモデルを踏襲
• 但し,各exonを負の二項分布で表して,その混合分布(ベー
タ負の二項分布)を発現のモデルにしている
• 最近は,edgeRやDESeqも,スプライスバリアントの定量に力
を入れているようである.
まとめと今後の課題
• RNA-seqの導入によって,マイクロアレイに比べて定量性が高まっただ
けでなく,タグをランダムサンプリングするモデルが導入でき,統計的
なモデル化が進んだ
• 現在まで,(SAGE法の延長による)過分散を考慮した発現差の統計解
析(DESeq, edgeR)と,RNA-seqから生まれた選択的スプライシング解析
(cuffdiff)の2つの道で研究が進んでおり,これらの融合が進んでいる.
• これ以上モデルを複雑にすることは,オーバーフィットとの戦いになる
のではないかと思われる.
• 今後の方向性として
• アリル特異性の解析 [Akama et al. NAR 2014]
• 多サンプルに対する解析
• クラスタ分析との融合など,が考えられるだろう.
• RNA-seqが,PacBioなどを利用した全長観測可能なものになると,
スプライシングのモデル化が容易になる可能性がある.

Contenu connexe

Tendances

SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析Hiromi Kajiya-Kanegae
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめohken
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...Deep Learning JP
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray弘毅 露崎
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 

Tendances (20)

Rの高速化
Rの高速化Rの高速化
Rの高速化
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 

Plus de sesejun

次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 readsesejun
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.keysesejun
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclusteringsesejun
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4thsesejun
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rdsesejun
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayessesejun
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 

Plus de sesejun (20)

次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 read
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.key
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclustering
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4th
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rd
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayes
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 

RNAseqによる変動遺伝子抽出の統計: A Review