Soumettre la recherche
Mettre en ligne
FDRの使い方 (Kashiwa.R #3)
•
Télécharger en tant que KEY, PDF
•
23 j'aime
•
40,974 vues
Haruka Ozaki
Suivre
Signaler
Partager
Signaler
Partager
1 sur 29
Télécharger maintenant
Recommandé
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
弘毅 露崎
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
バイオインフォマティクスで実験ノートを取ろう
バイオインフォマティクスで実験ノートを取ろう
Masahiro Kasahara
距離まとめられませんでした
距離まとめられませんでした
Haruka Ozaki
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
Recommandé
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
弘毅 露崎
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
バイオインフォマティクスで実験ノートを取ろう
バイオインフォマティクスで実験ノートを取ろう
Masahiro Kasahara
距離まとめられませんでした
距離まとめられませんでした
Haruka Ozaki
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
sesejun
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
Classi.corp
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
Hiroshi Shimizu
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
Daisuke Yoneoka
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
MCMC法
MCMC法
MatsuiRyo
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
JunSuzuki21
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
演習発表 Sari v.1.2
演習発表 Sari v.1.2
Lutfiana Ariestien
LS for Reinforcement Learning
LS for Reinforcement Learning
imlschedules
Contenu connexe
Tendances
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
sesejun
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
Classi.corp
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
Hiroshi Shimizu
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
Daisuke Yoneoka
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
MCMC法
MCMC法
MatsuiRyo
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
JunSuzuki21
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
Tendances
(20)
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
MCMC法
MCMC法
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
潜在クラス分析
潜在クラス分析
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Similaire à FDRの使い方 (Kashiwa.R #3)
演習発表 Sari v.1.2
演習発表 Sari v.1.2
Lutfiana Ariestien
LS for Reinforcement Learning
LS for Reinforcement Learning
imlschedules
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
東大計数特別講義20130528
東大計数特別講義20130528
Yoichi Motomura
STARD2015に学ぶ「診断精度の分析」の書き方
STARD2015に学ぶ「診断精度の分析」の書き方
Yoshitake Takebayashi
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
確率・統計の基礎勉強会 (1)
確率・統計の基礎勉強会 (1)
Hiroaki Tanaka
自由エネルギー原理と視覚的意識 2019-06-08
自由エネルギー原理と視覚的意識 2019-06-08
Masatoshi Yoshida
Newtsulideprint
Newtsulideprint
tononro
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
T検定と相関分析概要
T検定と相関分析概要
Junko Yamada
NL20161222invited
NL20161222invited
Tetsuya Sakai
演習発表 Sari v.1.1
演習発表 Sari v.1.1
Lutfiana Ariestien
汎化性能測定
汎化性能測定
Masanori Yamada
「生物統計学」演習問題集
「生物統計学」演習問題集
Keiji Miura
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
takutori
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
Akira Miyazawa
4thNLPDL
4thNLPDL
Sho Takase
Let中部2012シンポスライド
Let中部2012シンポスライド
Mizumoto Atsushi
Tsulide
Tsulide
tononro
Similaire à FDRの使い方 (Kashiwa.R #3)
(20)
演習発表 Sari v.1.2
演習発表 Sari v.1.2
LS for Reinforcement Learning
LS for Reinforcement Learning
情報検索の基礎(11章)
情報検索の基礎(11章)
東大計数特別講義20130528
東大計数特別講義20130528
STARD2015に学ぶ「診断精度の分析」の書き方
STARD2015に学ぶ「診断精度の分析」の書き方
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
確率・統計の基礎勉強会 (1)
確率・統計の基礎勉強会 (1)
自由エネルギー原理と視覚的意識 2019-06-08
自由エネルギー原理と視覚的意識 2019-06-08
Newtsulideprint
Newtsulideprint
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
T検定と相関分析概要
T検定と相関分析概要
NL20161222invited
NL20161222invited
演習発表 Sari v.1.1
演習発表 Sari v.1.1
汎化性能測定
汎化性能測定
「生物統計学」演習問題集
「生物統計学」演習問題集
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
4thNLPDL
4thNLPDL
Let中部2012シンポスライド
Let中部2012シンポスライド
Tsulide
Tsulide
Plus de Haruka Ozaki
160817 ISMB2016読み会
160817 ISMB2016読み会
Haruka Ozaki
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Haruka Ozaki
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
Haruka Ozaki
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
Haruka Ozaki
巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table について
Haruka Ozaki
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
Haruka Ozaki
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
Haruka Ozaki
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
Haruka Ozaki
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法
Haruka Ozaki
Plus de Haruka Ozaki
(10)
160817 ISMB2016読み会
160817 ISMB2016読み会
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
変分ベイズ法の説明
変分ベイズ法の説明
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table について
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法
FDRの使い方 (Kashiwa.R #3)
1.
FDRの使い方
2.
話す人 尾崎 遼 おざき はるか 情報生命科学専攻 博士1年 @yuifu
3.
今日の内容 統計的仮説検定について 多重検定問題について 多重検定問題への対策 Bonferroni補正 Benjamini-Hochberg法
4.
統計的仮説検定について 統計学が(たぶん)最も使われる場面 帰無仮説を仮定して、統計量がある値以上の 量が出てくる確率(p値)を計算 検定にかけられる統計量が予め決めたいき値 未満なら帰無仮説を棄却
5.
統計的仮説検定について
帰無仮説を採択 帰無仮説を棄却 True negative False postive 帰無分布から (TN) (FP) 帰無分布からで False negative True positive ない (FN) (TP)
6.
統計的仮説検定について
有意水準 陰性データ 陽性データ TP NP
7.
多重検定問題について 背景:大量データ マイクロアレイ,RNA-seq,GWAS, etc. たとえば P<0.05,N=10000だとする と,実際に全部がnullだとしても,500個 はsignificantになる
8.
多重検定問題への対策 Bonferroni補正 Benjamini-Hochberg法 他にも色々あるけど,この2つが有名 Storey法 現状かなりよさげ
9.
Bonferroni補正 Family-wise error rate
をコントロール FWER = 1-(1-α)m ≒mα 帰無仮説に従うものの検定をm回行ったとき,少なくと も1回帰無仮説が棄却される確率 上の式のαをα/m に置き換えると,FWERがαになる 例えば,遺伝子発現の差の検定をしたいとき, α=0.01の検定で遺伝子が10000個あったら, α=1×10-6とする
10.
Bonferroni補正の問題点 実際のサンプル中にsignificantなものがほ とんどないときには有効だが,厳しすぎる 非現実的な有意水準を要求する
11.
Bonferroni補正の問題点 controlとの発現の差があ るかどうかの検定 T0:真の非発現変動遺伝 子
T1:真の発現変動遺伝子
12.
Bonferroni補正の問題点 controlとの発現の差があ るかどうかの検定 T0:真の非発現変動遺伝 子
T1:真の発現変動遺伝子
13.
False discovery rate Family-wise
error rateのコントロールは厳しすぎるし,現実 的でない FP/(TN+FP) をコントロールしようとしていた 後でバリデーション実験するから多少FPが入ってもいいから多 くの候補を,という要請 →False discovery rateをコントロールしよう positiveだとされたもののうち、false positiveであるもの の割合 False discovery rate = FP/(TP+FP)
14.
Benjamini-Hochberg法 p-valueを昇順に並べる(p1<p2<p3,...) pi<= α×i/mを満たす時、p1,...,pi を有意とする このとき,FDRはα以下に抑えられる
FP =< m×α×i/m = α×i FP+TP=i FDR=FP/(FP+TP)=FP/i<=α×i/i=α
15.
Benjamini-Hochberg法の問題 p-valueが一様分布することを仮定している
π0=1を仮定(次項) 厳しい(FDRを大きく見積もる) 非単調増加 上位m個についてのFDRが,上位m+1個
16.
π 0を考える π0:N個のp-valueのうち,帰無仮説が真で あるものの割合 帰無仮説からのp-valueの分布は一様分布 実際のp-valueは一様分布しない すなわち,π0=1でない
17.
π 0を考えた手法 実際のp-valueの分布は,帰無仮説由来の分 布(T0)と対立仮説由来の分布(T1)の混 合分布だと考えられる T0は一様分布,T1はゼロに偏った分布をす ると考えられる ゆえにゼロからある程度はなれたところでの
18.
π 0を考えた手法 p-valueを昇順に並べる(p1<p2<p3,...)
π0(λ)を計算 π0(λ)=(λより大なpiの数)/m(1-λ) λとπ0(λ)をプロットしたグラフにnatural cubic spline をフィッティングする Storey and Tibshirani. “Statistical significance for genomewide studies”PNAS. (2003)
19.
q-valueを計算する q-valueを定義 任意の値以上の統計量に対応づけられた最小の FDR
ある値に割り当てられたq-valueは,その値を significanceのいちきにしたときのFDRを表す 先ほどの例だと,q-value=<0.05のところをとる と,FDRが5%となる
20.
q-valueの計算 q(pm)= (π0*m*Pm)/m
= π0*pm i=m-1,m-2,...,1について ←ここで単調減少を保証 q(pi)=min((π0*m*Pm)/i, q(pi+1)) Storey and Tibshirani. “Statistical significance for genomewide studies”PNAS. (2003)
21.
p-valueとq-value p-value p<0.05ということは False
positive rateが0.05未満になるということ False positive rate = FP/(TN+FP) q-value q<0.05ということは False discovery rateが0.05未満になるということ
22.
パッケージ {qvalue} (Bioconductor) http://www.bioconductor.org/packages/devel/
bioc/html/qvalue.html John Storey本人が作った
23.
{qvalue}
p-valueの分布 library(qvalue) data(hedenfalk) #乳がん(BRCA1, BRCA2)の3,170個の遺伝子の発現量の差 をt-testしたp-valueのリスト hist(hedenfalk) q-valueの分布 qobj <- qvalue(hedenfalk) #q- valueを計算 hist(qobj$qvalues) # $qvalueでq- valueの値を呼び出せる
24.
{qvalue} > qsummary(qobj) #
π0の推定値や帰無仮説が棄却された数を表示 Call: qvalue(p = hedenfalk) pi0: 0.6635185 Cumulative number of significant calls: <1e-04 <0.001 <0.01 <0.025 <0.05 <0.1 <1 p-value 15 76 265 424 605 868 3170 q-value 0 0 1 73 162 319 3170
25.
p-valueのどのへんで切ったとき
{qvalue} にπ0がどうなるか p-value qplot(qobj) #4つのプロット を表示 q-valueのいき値と棄却され 棄却された帰無仮説の数と る帰無仮説の数の関係 FPの関係
26.
{qvalue} qwrite(qobj, filename =
"my-qvalue-results.txt") # p-valueとq-valueの組をファイルに書き出す
27.
{qvalue} qvalue.gui() # GUIで動かせる # (tcltk
packageが必要)
28.
Reference Storey and Tibshirani.
“Statistical significance for genomewide studies”PNAS. (2003) Noble. “How does multiple testing correction work?” Nature Biotechnology. (2009) 山田・上田 “大規模データの解析における問題点”蛋白質 核酸 酵素 (2009) http://www.bioconductor.org/packages/devel/bioc/html/ qvalue.html @antiplasticsのサイト https://sites.google.com/site/ scriptofbioinformatics/maikuroarei-guan-xi/fdr-zhi-yu-r
29.
懇親会 鍋・酒 20:30-22:30 総合研究棟3階364号室 参加費 1000円
Notes de l'éditeur
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
Télécharger maintenant