FDRの使い方 (Kashiwa.R #3)

話す人

尾崎遼

おざきはるか

情報生命科学専攻博士1年

@yuifu

今日の内容

統計的仮説検定について

多重検定問題について

多重検定問題への対策

Bonferroni補正

Benjamini-Hochberg法


統計学が（たぶん）最も使われる場面

帰無仮説を仮定して、統計量がある値以上の
量が出てくる確率（p値）を計算

検定にかけられる統計量が予め決めたいき値
未満なら帰無仮説を棄却


帰無仮説を採択帰無仮説を棄却

True negative False postive
帰無分布から
(TN) (FP)

帰無分布からで False negative True positive
ない (FN) (TP)

有意水準

陰性データ陽性データ

TP

NP

多重検定問題について

背景：大量データ

マイクロアレイ，RNA-seq,GWAS, etc.

たとえば P<0.05，N=10000だとする
と，実際に全部がnullだとしても，500個
はsigniﬁcantになる

多重検定問題への対策

Bonferroni補正


他にも色々あるけど，この２つが有名

Storey法

現状かなりよさげ

Bonferroni補正
Family-wise error rate をコントロール

FWER = 1-(1-α)m ≒mα

帰無仮説に従うものの検定をm回行ったとき，少なくと
も1回帰無仮説が棄却される確率

上の式のαをα/m に置き換えると，FWERがαになる

例えば，遺伝子発現の差の検定をしたいとき，
α=0.01の検定で遺伝子が10000個あったら，
α=1×10-6とする

Bonferroni補正の問題点

実際のサンプル中にsigniﬁcantなものがほ
とんどないときには有効だが，厳しすぎる

非現実的な有意水準を要求する

Bonferroni補正の問題点

controlとの発現の差があ
るかどうかの検定

T0:真の非発現変動遺伝
子

T1:真の発現変動遺伝子

False discovery rate
Family-wise error rateのコントロールは厳しすぎるし，現実
的でない

FP/(TN+FP) をコントロールしようとしていた

後でバリデーション実験するから多少FPが入ってもいいから多
くの候補を，という要請

→False discovery rateをコントロールしよう

positiveだとされたもののうち、false positiveであるもの
の割合

False discovery rate = FP/(TP+FP)


p-valueを昇順に並べる（p1<p2<p3,...）

pi<= α×i/mを満たす時、p1,...,pi を有意とする

このとき，FDRはα以下に抑えられる

FP =< m×α×i/m = α×i

FP+TP=i
FDR=FP/(FP+TP)=FP/i<=α×i/i=α

Benjamini-Hochberg法の問題

p-valueが一様分布することを仮定している

π0=1を仮定（次項）

厳しい（FDRを大きく見積もる）

非単調増加

上位m個についてのFDRが，上位m+1個

π 0を考える

π0:N個のp-valueのうち，帰無仮説が真で
あるものの割合

帰無仮説からのp-valueの分布は一様分布

実際のp-valueは一様分布しない

すなわち，π0=1でない

π 0を考えた手法

実際のp-valueの分布は，帰無仮説由来の分
布（T0）と対立仮説由来の分布（T1）の混
合分布だと考えられる

T0は一様分布，T1はゼロに偏った分布をす
ると考えられる

ゆえにゼロからある程度はなれたところでの

π 0を考えた手法

p-valueを昇順に並べる（p1<p2<p3,...）

π0(λ)を計算

π0(λ)=(λより大なpiの数)/m(1-λ)

λとπ0(λ)をプロットしたグラフにnatural
cubic spline をフィッティングする

Storey and Tibshirani. “Statistical signiﬁcance for genomewide studies”PNAS. (2003)

q-valueを計算する

q-valueを定義

任意の値以上の統計量に対応づけられた最小の
FDR
ある値に割り当てられたq-valueは，その値を
signiﬁcanceのいちきにしたときのFDRを表す

先ほどの例だと，q-value=<0.05のところをとる
と，FDRが5%となる

q-valueの計算

q(pm)= (π0*m*Pm)/m = π0*pm
i=m-1,m-2,...,1について
←ここで単調減少を保証
q(pi)=min((π0*m*Pm)/i, q(pi+1))

Storey and Tibshirani. “Statistical signiﬁcance for genomewide studies”PNAS. (2003)

p-valueとq-value
p-value
p<0.05ということは False positive
rateが0.05未満になるということ

False positive rate = FP/(TN+FP)
q-value
q<0.05ということは False discovery
rateが0.05未満になるということ

パッケージ

{qvalue} (Bioconductor)
http://www.bioconductor.org/packages/devel/
bioc/html/qvalue.html

John Storey本人が作った

{qvalue} p-valueの分布

library(qvalue)

data(hedenfalk) #乳がん（BRCA1,
BRCA2）の3,170個の遺伝子の発現量の差
をt-testしたp-valueのリスト

hist(hedenfalk) q-valueの分布
qobj <- qvalue(hedenfalk) #q-
valueを計算

hist(qobj$qvalues) # $qvalueでq-
valueの値を呼び出せる

{qvalue}
> qsummary(qobj) # π0の推定値や帰無仮説が棄却された数を表示

Call:
qvalue(p = hedenfalk)

pi0: 0.6635185

Cumulative number of significant calls:

<1e-04 <0.001 <0.01 <0.025 <0.05 <0.1 <1
p-value 15 76 265 424 605 868 3170
q-value 0 0 1 73 162 319 3170

p-valueのどのへんで切ったとき

{qvalue}
にπ0がどうなるか p-value

qplot(qobj)
#4つのプロット

を表示

q-valueのいき値と棄却され棄却された帰無仮説の数と
る帰無仮説の数の関係 FPの関係

{qvalue}
qwrite(qobj, filename = "my-qvalue-results.txt")

# p-valueとq-valueの組をファイルに書き出す

{qvalue}
qvalue.gui()

# GUIで動かせる

# （tcltk packageが必要）

Reference
Storey and Tibshirani. “Statistical signiﬁcance for
genomewide studies”PNAS. (2003)

Noble. “How does multiple testing correction work?” Nature
Biotechnology. (2009)

山田・上田 “大規模データの解析における問題点”蛋白質核酸酵素
(2009)

http://www.bioconductor.org/packages/devel/bioc/html/
qvalue.html

@antiplasticsのサイト https://sites.google.com/site/
scriptofbioinformatics/maikuroarei-guan-xi/fdr-zhi-yu-r

懇親会

鍋・酒

20:30-22:30
総合研究棟3階364号室

参加費 1000円

FDRの使い方 (Kashiwa.R #3)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à FDRの使い方 (Kashiwa.R #3)

Similaire à FDRの使い方 (Kashiwa.R #3) (20)

Plus de Haruka Ozaki

Plus de Haruka Ozaki (10)

FDRの使い方 (Kashiwa.R #3)

Notes de l'éditeur