SlideShare une entreprise Scribd logo
1  sur  73
Télécharger pour lire hors ligne
CBI学会チュートリアルセッション
2013-10-28

NGSデータ解析入門
ーSNP解析~癌ゲノム解析までー

セッション2: 解析ツール編
株式会社ジナリス
上村 泰央
Outline
セッション1:実験条件編
• 次世代シーケンシングのトレンド
• 次世代シーケンシング解析に共通のステップ
• シナリオ(癌ゲノムExome解析)
→ Wet解析担当者とのやりとり
→ データ解析に影響する実験条件

セッション2:解析ツール編
• NGSデータ解析の流れ
• マッピング〜SNP解析まで
→ 実践をまじえたチュートリアル
→ ツール選びのポイント
• NGSデータ蓄積・管理システムGenaGenomeManager
本日のモデルケース:シナリオ

“

癌2サンプルのExomeデータ
です。変異の比較解析をお
願いします!

”
ERR035486_1.fastq.gz
ERR035486_2.fastq.gz
ERR035487_1.fastq.gz
ERR035487_2.fastq.gz
どんなサンプルですか?
解析の目的は?
• 同一患者由来のOvarian Cancer Cell line
– ERR035486:Cisplatin sensitive (post-treatment)
– ERR035487: Cisplatin resistant (relapse)

•
•
•
•

SureSelect Human AllExon Kit (Agilent)
Illumina Genome Analyzer IIx
Paired End library
各サンプルのSNVをリ
スト化し、既知SNPなどと
Read length 72 bp x 2

“

– ERR035486:53.3 M reads (6.6 Gb)
– ERR035487: 68.0 M reads (9.8 Gb)

照合しながらCisplatin
sensitivityに関わる変異
を見つけ出したい

”
実験条件のまとめ
• Starting material: 5 mg gDNA from Cancer cell
line (no WGA)
• 1st PCR (library prep): 10 cycles
• SureSelect Human AllExon Kit (Agilent)
• Illumina GAIIx Paired-end library 2 x 72bp,
insert size ~155 bp
– ERR035486:53.3 M reads (6.6 Gb)
– ERR035487: 68.0 M reads (9.8 Gb)
本チュートリアルのねらい
• NGSデータ解析のおおよその流れを理解する
• データ解析の各ステップは何をしているのか、
なぜ必要なのかを直感的に理解する

• NGSデータの標準フォーマットを理解する
出発データ
ファイル
検体
ファイルサイズ
ERR035486_1.fastq ERR035486
13.8GB
ERR035486_2.fastq ERR035486
ERR035487_1.fastq ERR035487
ERR035487_2.fastq ERR035487

13.8GB
17.6GB
17.6GB
合計60GB以上!
NGS解析の流れ(mapping)
生データ
Base caller (機器付属)
一次配列データ(Fastq, sff)
マッピング解析

機器付属 (CASAVA, Newbler, TMAP),
Galaxy, DDBJ Read Annotation Pipeline,
CLC Bio, etc.

二次解析データ(BAM)
変異解析
変異解析データ(VCF)

発現解析
発現解析データ(GFF)
はじめに準備するもの
• 解析環境
– Linux, Mac, Windows (メモリ8GB以上、ディスク
300GB以上)
– 二次解析クラウド
• Read Annotation Pipeline (DDBJ)
• galaxy
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
QC(予備解析)
目的:
・実験、データ取得に問題がなかったか?
・与えられたFASTQファイルから出発して、信頼
できる解析結果が得られるか?
→ 2次解析を行って初めて発見できる問題も
ある。
read quality, mapping rates, duplicates, coverage
bias
-> FastQC, On target %, Coverage plot analysis
よく起こる問題
•
•
•
•

Per Base Quality
Duplicate が多い。
マップ率があがらない。
カバレージが均一でない。
FASTQフォーマット
(1) 塩基配列を各塩基のクウォリティスコアとともに記述するためのファイルフォーマット
(2) NGSのリード生データを保存するフォーマットとして広く利用されている
定義: 4行で1リードを記述
@SEQ_ID [description (optional)]
塩基配列
+[SEQ_ID description(optional)]
クウォリティ配列(ASCIIコード: クウォリティスコア+ 33)
クウォリティスコアとしては、Phredスコアが用いられることが多い。

Illumina HiSeq2000 (CASAVA 1.8)の例
@HWI-ST818R:232:D22C7ACXX:5:1101:1669:1981 1:N:0:GTTTCG
GACAAGGCGGGCAGCAAAAGCAAGAAAGGCAAAGGGACTAGGAATGCACGAAACTGAGCTCAAGT
ACTGG
+
4=DFDFFHFHHHADGIJJJJJJEFAHIGGIIEEEHHFFFFEEEEEDDDDDDDDDDDDDDDDDDD3@CA::

“4” : ASCIIコード 52 – 33 = クウォリティスコア 19
“=“ : ASCIIコード 61 – 33 = クウォリティスコア 28
Phred(Sanger)スコア
Qphred = -10 log p
p : そのベースコールが誤りである確率

Phred スコ
ア
20

ベースコールの確からし
さ
99%

30

99.9%

40

99.99%
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
FastQCによるリードQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)

> fastqc -o fastqc_out ERR035486_1.fastq.gz ERR035486_2.fastq.gz
> fastqc -o fastqc_out ERR035487_1.fastq.gz ERR035487_2.fastq.gz
FastQC: Per Base Quality
ERR035486
リード1

リード2
FastQC: Per Sequence Quality Scores
ERR035486

リード1

リード2
ゲノムブラウザ
• Integrative Genomics Viewer
http://www.broadinstitute.org/igv/
アラインメントの見方

A C G T
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
マッピング解析とは?
リード配列がどの染色体のどの位置から得られたものであるかを推定する。
SNPやエラーを含んだリードを正しい場所に配置するのは一般に困難

ACGTTGCG

AGGTTGCG
C

T

リード
ACGTTGTG

T

最もミスマッチの数が少ない場所に配置するのが妥当
GCCATGTA
リード
GCCATGAA

GTCATGAA
C

A

?

同じ確からしさで複数箇所にマップ可能な場合

?
(a) いずれかにランダムにマップ
(b) 両方にマップ
(c) どちらにもマップしない
RNA-Seqのマッピング
RNA (total RNA/mRNA)

参照ゲノム配列

既知exon

既知exon

新規exon

G

cDNA合成

read配列

断片化

A
A
A
A

エキソンジャンクションを考慮したマッピング
マッピング

ライブラリー
作製〜配列決定

ATGCGG…

GCGGCA…

Short readでDeepに読むことにより
・発現量予測
・新規exon予測
・exon-intron構造予測
・SNP検出
が可能
ChIP-Seqのマッピング
cells
DNA

参照ゲノム配列

gene

protein
架橋・抽出・断片化

read配列

ピーク検出
免疫沈降・解離・精製
ライブラリー作製〜配
列決定

ATGCGG…

マッピング

GCGGCA…

Short readでDeepに読むことにより
・標的proteinの結合部位の検出
が可能
マッピングプログラムの選択
paired
mapping

リード長

gapped
alignment

用途

aln

○

〜200bp

○

Genome-to-Genome,
cDNA-to-cDNA マッピング

bwasw

×

350-1000bp

◎

Long readマッピング

Bowtie 1

○

〜1024bp

×

Genome-to-Genome,
cDNA-to-cDNA マッピング

Bowtie 2

○

無制限

◎

Genome-to-Genome,
cDNA-to-cDNA マッピング

Tophat 1

○

Bowtie1に等しい

△

RNA-seq(spliced mapping)

Tophat 2

○

Bowtie2に等しい

◎

RNA-seq(spliced mapping)

プログラム

BWA
(v0.7以前)
BWA マッピング
マッピングアルゴリズムの概略(デフォルト設定の場合)
read配列
seed length (=32)

・5’側からseed length(=32)番目までの塩基配列をmax. seed differences(=2) のミ
スマッチ、ギャップを許容した場合にマッピング可能な参照配列上の領域を探索
・seedがマッチしたそれぞれの領域について、残りの塩基をアラインメントし、リード
長に応じた最大許容ミスマッチ数以下のアラインメントを求める
・以上で得られたアラインメントのうち、最もスコアの高い位置にマッピングする
・同一スコアで複数箇所にマップされる場合は、ランダムに1カ所を選ぶ
・PE リードの場合はすべてのヒットのペアのうち、最善の組み合わせを選ぶ
リファレンス配列
UCSC Genome Browser
http://genome.ucsc.edu/cgi-bin/hgGateway

Downloads → Genome Data
(1) hg19リファレンス配列の入手

染色体別に入手可能
(1) 1ファイルに結合したFASTAファイルを生成する場合の例(順番に注意!)

> cat chr1.fa.gz chr2.fa.gz chr3.fa.gz ... chr22.fa.gz ¥
chrX.fa.gz chrY.fa.gz chrM.fa.gz | gzip –cd > hg19.fa
hg19リファレンス配列
(その他の入手先)
(2) Broad Institute
ftp://ftp.broadinstitute.org/pub/seq/references/Homo_sapiens_assembly19.fasta

(3) 1000 Genomes
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz

染色体名

Um配列

ヘルペス
ウィルス

chr1, … , chrX, chrY, chrM

有

無

(2) Broad Institute 1, 2, … , X, Y, MT

含

有

(3) 1000
Genomes

含

無

参照配列入手先
(1) UCSC

1, 2, … , X, Y, MT
BWAによるマッピング
参照配列 hg19.fa (FASTAフォーマット)に PEリード ERR035486_1.fastq,
ERR035486_2.fastq (FASTQフォーマット)をBWAでマッピングする場合の例:
①

> bwa index -a bwtsw hg19.fa

②

> bwa aln hg19.fa ERR035486_1.fastq > ERR035486.1.sai

③

> bwa aln hg19.fa ERR035486_2.fastq > ERR035486.2.sai

④

> bwa sampe hg19.fa ERR035486.1.sai ERR035486.2.sai ¥
ERR035486_1.fastq ERR035486_2.fastq > ERR035486.sam

① hg19.faを解析し、高速にマッピングを行うためのindexファイル群を作成
②, ③ リード1, リード2をそれぞれ参照配列に対してアラインメント
④ リード1, リード2のアラインメントより、ペアリングを行い、最適なアラインメント結果
を求めSAMフォーマットで出力
SAMフォーマット
(Sequence Alignment/Map Format)
•
•
•

リード配列の参照配列に対するアラインメント結果を記述するファイル形式
NGSのリード配列のマッピング結果を記録する際の事実上の標準フォーマット
テキスト形式(SAM)とバイナリ形式(BAM)が存在

@HD
@SQ

VN:1.4 SO:coordinate
SN:chr1 LN:249250621
(中略)
@SQ
SN:chrY LN:59373566
@SQ
SN:chrM LN:16571
@RG
ID:ERR035486 PL:Illumina
PU:Illumina
LB:ERR035486 SM:ERR035486
ERR035486.7
99
chr1 10005 14
53M1I14M4S
=
10174 241
CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCAGAT
CDCCFEHHHBEHGGHDFHGHIDDHIHIDGHIHIDG@FGGA;CAFD>EFGDIDHIIIIIDGIIHGACBA><:<
XA:Z:chr5,+11529,72M,4; MD:Z:67
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:1 AM:i:14 NM:i:1 SM:i:14 XM:i:0 XO:i:1 XT:A:M
ERR035486.10 163
chr1 10032 0
72M
=
10297 336
AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAGCCT
?BCDFGDFGGGHDGHHHIE
GHHHIDGGGHHEGH6DHDGFHHHCGHGHHCFC;7<CD5??#############
X0:i:424
MD:Z:68C3
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R

ヘッダ部

1. QNAME
2. FLAG
3. RNAME
4. POS
5. MAPQ
6. CIGAR

クエリー名(リードID)
ビットフラグ
参照配列名
第一塩基の開始位置
マッピングクウォリティ
CIGAR string

ERR035486.7
99 = 1100011 (2進数) => PEのリード1でリード2と正しい位置関係で共にマップされている。
chr1
10005
14
53M1I14M4S => 54番目の塩基が参照配列に対してinsertion、最後の4塩基はクリッピング
SAMtools
http://samtools.sourceforge.net
SAMフォーマットの仕様書も同サイトから入手可能

• SAM/BAMフォーマットに対するさまざまな操
作を行うプログラムツール
samtoolsコマンドを用いて参照配列順にソートされたBAMファイルを作成し、さらにindexを作成する場合

> samtools sort unsorted.bam sorted.bam
> samtools index sorted.bam

unsorted.BAM
リード1
リード2
リード3
リード4
リード5
リード6

chr22
chr1
chr4
chr1
chr3
chr2

1500
24000
100
8000
12000
7500

sorted.BAM
sort

リード4
リード2
リード6
リード5
リード3
リード1

chr1
chr1
chr2
chr3
chr4
chr22

8000
24000
7500
12000
100
1500

index
sorted.bam.bai
参照配列の任意の領域に
マップされたリードを高速に
検索することが可能
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
重複除去
目的:
• PCR duplicates 由来のリード重複を取り除き、変異
検出の際のバイアスを軽減し、偽陽性を減らす。
PCR重複とみなし、
4ではなく1とカウント
されるべき

PEリードのリード1、リード2の対が全く同じ場所
にマップされている。

注意:
Amplicon ベースのTarget seqやRNA-seq など、本ステップを実施すべきでないこともある!
Picardによる重複除去
http://picard.sourceforge.net/index.shtml

• SAM/BAM、FASTQ、VCFフォーマットなどに対
するさまざまな操作を行うプログラムツール
> java -Xmx4G –jar picard-tools-1.93/MarkDuplicates.jar ¥
INPUT=ERR035486.sort.bam ¥
REMOVE_DUPLICATES=true VALIDATION_STRINGENCY=LENIENT ¥
METRICS_FILE=ERR035486.dup OUTPUT=ERR035486.rmdup.bam

ERR035486
Before
Total reads
Mapped reads
Duplicates

After

ERR035487
Before

After

106,591,524

96,615,204

135,916,704

123,987,331

98,763,696
(92.66%)

88,787,376
(91.90%)

130,729,264
(96.18%)

118,799,891
(95.82%)

9,976,320 (9.3%)

11,929,373 (8.8%)
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
Picard: CollectInsertSizeMetrics
>java -Xmx4G –jar picard-tools-1.93/CollectInsertSizeMetrics.jar ¥
INPUT=ERR035486.rmdup.bam ¥
OUTPUT=ERR035486.rmdup.insert_size_metrics ¥
HISTGRAM_FILE=ERR035486.rmdup.insert_size_metrics.pdf ¥
VALIDATION_STRINGENCY=LENIENT

FR

0

2e+05
0e+00

1e+05

50000 100000

Count

200000

3e+05

300000

FR

Count

Insert Size Histogram for All_Reads
in file ERR035487.rmdup.bam

4e+05

Insert Size Histogram for All_Reads
in file ERR035486.rmdup.bam

0

100

200
Insert Size

300

400

500

0

100

200

300
Insert Size

400

500

600
ターゲット領域の定義
リピート

リピート

リピート

エキソン
ベイト
ターゲット
オンターゲット
リード

オフターゲット
リード

ポイント:
・ターゲット領域をどのように定義するか?
・何をオンターゲットリードとするか?
BEDフォーマット
• ゲノム上の領域を記述する共通フォーマット
• タブ区切りテキストファイル(4カラム目以降は任意)
染色体
chr1
chr1
chr1
chr1

開始位置 終了位置
721381
721530
721851
752916

721519
721806
721942
753035

(任意)

mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
ens|ENST00000435300,mRNA|AK097327,ens|ENST00000326734

SureSelect のターゲット領域のBEDファイルは以下より入手可能
・Agilent SureDesign
https://earray.chem.agilent.com/suredesign/
オンターゲット率
何%のリードがターゲット上にマップされたか?
・ターゲット濃縮率の評価(実験研究者へのフィードバック)
・シーケンシングコストに対するベネフィット評価にも有効
ERR035486

ERR035487

Total reads

96,615,204

123,987,331

Mapped reads

88,787,376
(91.90%)

118,799,891
(95.82%)

On Target reads

54,898,505
(56.82%)

75,627,222
(61.00%)
カバレージプロットの作成
bedtools (http://code.google.com/p/bedtools/) を利用したカバレージプロットの作成
>coverageBed -abam -d -a ERR035486.rmdup.bam –b exome_target.bed

領域を1塩基ごとに
展開し、各塩基位置
のdepthを出力

chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1

65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509

65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625

-

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1

20行程度の簡単な
スクリプトで処理することで
カバレージプロットを作成
することが可能。

塩基位置

depth
カバレージプロット
ERR035486

ERR035487

100.0%

90.0%

80.0%

70.0%

60.0%

50.0%

40.0%

30.0%

20.0%

10.0%

0.0%
1

10

100

1000

depthいくつ以上でターゲット領域の何%がカバーされているか?変異解析の閾値決定にも有効
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
GATKによるリアラインメント
①

②

> java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator ¥
-R hg19.fa ¥
–I ERR035486.rmdup.bam ¥
–o ERR035486.rmdup.intervals
> java –jar GenomeAnalysisTK.jar -T IndelRealigner ¥
-R hg19.fa ¥
–I ERR035486.rmdup.bam ¥
–targetIntervals ERR035486.rmdup.intervals ¥
–o ERR035486.rmdup.realigned.bam

① RealignerTargetCreator によりリアラインメントを実施すべき領域を抽出
② ① で抽出した領域を指定し、リアラインメントを実行
GATK Lite(1.x) と 2.x

http://gatkforums.broadinstitute.org/discussion/1720/what-is-gatk-lite-and-how-does-it-relate-to-full-gatk-2-x-retired
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
リキャリブレーションの必要性

http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf
塩基クウォリティスコアの補正

http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf
GATKによるリキャリブレーション
> java -jar GenomeAnalysisTK.jar -T CountCovariates ¥
-I ERR035486.rmdup.realigned.bam ¥
-R hg19.fa ¥
-S LENIENT ¥
-knownSites 00-All.chr.vcf ¥
-cov ReadGroupCovariate ¥
-cov QualityScoreCovariate ¥
-cov CycleCovariate ¥
-cov DinucCovariate ¥
-log ERR035486.rmdup.realigned.recal.log ¥
-recalFile ERR035486.rmdup.realigned.recal_data.csv
> java -Xmx8g -jar $gatk_dir/GenomeAnalysisTK.jar -T TableRecalibration ¥
-I $sample.rmdup.realigned.bam ¥
-R hg19.fa ¥
-recalFile ERR035486.rmdup.realigned.recal_data.csv ¥
-log ERR035486.rmdup.realigned.Qual.log ¥
-o ERR035486.rmdup.realigned.recal.bam

BAMファイルの各リードの塩基のクウォリティスコアが補正される。
全ゲノムや全エキソンなどの網羅的な解析でない場合は、十分なデータポイント
が得られず効果は期待できないことに注意。
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
Variant Call / Genotype Call とは?

G/T

C/C
変異検出プログラムの比較
プログラム
SAMtools

ライセンス

SNP

Indel

Somatic
SNV

Somatic
Indel

○

○

ー

ー

無償

GATK
Unified Genotyper

○

○

ー

ー

Lite版無償
2.X はアカデミックフリー

VarScan

○

○

○

○

アカデミックフリー

MuTect

ー

ー

○

?

アカデミックフリー

GATK
Somatic Indel
Detector

ー

ー

ー

○

アカデミックフリー
Unified Genotyperによる変異検出
> java -jar GenomeAnalysisTK.jar –T UnifiedGenotyper ¥
-R hg19.fa ¥
-I ERR035486.rmdup.realigned.recal.bam ¥
-I ERR035487.rmdup.realigned.recal.bam ¥
-glm BOTH ¥
-nt 4 ¥
-o result.recal.gatk.var.vcf ¥
-metrics ug_recal_metrics ¥
-D 00-All.chr.vcf ¥
-S LENIENT ¥
-out_mode EMIT_VARIANTS_ONLY ¥
-L exome_target.bed

ERR035486, ERR035487の両方のBAMファイルを与えてVariant Callを行うことで両方の
サンプルの変異が比較可能な形でVCFファイルが出力される。
さらに上記オプションにより、少なくともいずれかのBAMファイルでターゲット領域上に
検出されたSNVまたはIndelについて出力される。
“-D” オプションでdbSNPの情報をアノテーションする場合は、参照配列のFASTAファイ
ルに定義されている染色体名とdbSNPのVCFファイルに定義されている染色体名を一
致させておく必要があることに注意。
VCFフォーマット
(Variant Call Format)
•
•
•

変異・ジェノタイプを記述する共通フォーマット
ポピュレーションごとにアレル頻度やリード数
テキスト形式(VCF)とバイナリ形式(BCF)が存在

##fileformat=VCFv4.1
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
(中略)
#CHROM POS
ID
REF
ALT
QUAL FILTER INFO FORMAT ERR035486
ERR035487
chr1 4772053 rs1061968
T
C
40.42 .
AC=2;AF=0.50;AN=4;BaseQRankSum=0.311;DB;DP=16;Dels=0.00;FS=2.522;HRun=0;HaplotypeScore=0.0000;MQ=57.05;MQ0=0;MQRankSum=0.778;QD=2.53;ReadPosRa
nkSum=0.467;SB=-31.32 GT:AD:DP:GQ:PL 0/1:3,2:5:60.71:63,0,61 0/1:8,3:11:12.06:12,0,231
chr1 4772717 rs242056
G
A
2547.13 .
AC=4;AF=1.00;AN=4;DB;DP=78;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=57.71;MQ0=0;QD=32.66;SB=-665.84 GT:AD:DP:GQ:PL
1/1:0,32:32:75.24:973,75,0
1/1:0,46:46:99:1610,123,0
chr1 5935162 rs1287637
A
T
70.70 .
AC=2;AF=1.00;AN=2;DB;DP=3;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=51.77;MQ0=0;QD=23.57;SB=-39.86 GT:AD:DP:GQ:PL
1/1:0,3:3:9.02:103,9,0 ./.
chr1 5987696 rs7520105
T
C
42.36 .
AC=4;AF=1.00;AN=4;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=53.95;MQ0=0;QD=10.59;SB=-40.65 GT:AD:DP:GQ:PL 1/1:0,2:2:3.01:45,3,0
1/1:0,1:2:3.01:31,3,0
chr1 6027252 rs875573
A
G
64.26 .
AC=3;AF=0.75;AN=4;BaseQRankSum=0.727;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=60.00;MQ0=0;MQRankSum=0.727;QD=16.06;ReadPosRankSum=0.727;SB=-36.47 GT:AD:DP:GQ:PL 1/1:0,1:1:3.01:41,3,0 0/1:1,2:3:27.10:58,0,27
チュートリアルの流れ
リードQC
マッピング解析

マッピングQC

重複除去
リアラインメント
リキャリブレーション

変異解析
変異アノテー
ション
変異アノテーションプログラムの比較
プログラム

ライセンス

VCF
入力

VCF
出力

HTML
レポート

SnpEff

○

○

○

無償

Variant Effect
Predictor

○

○

○

無償

ANNOVAR

○

○

ー

アカデミックフリー

検出された変異について、それらが遺伝子産物に与える影響をアノテーションする。
SnpEff:サマリーレポート
マイニング
• VarSifter
http://research.nhgri.nih.gov/software/VarSifter/index.shtml
レポーティング
• QC結果(実験担当者へのフィードバック)
• 解析データ
– 最終のBAMファイル(サンプルごとに)
– VCFファイル(アノテーション付き)
解析データは、IGV、VarSifterを使えば、GUI環境(パソコン上)で分析できます
さらに詳しく知りたい方へ
Outline
セッション1:実験条件編
• 次世代シーケンシングのトレンド
• 次世代シーケンシング解析に共通のステップ
• シナリオ(癌ゲノムExome解析)
→ Wet解析担当者とのやりとり
→ データ解析に影響する実験条件

セッション2:解析ツール編
• NGSデータ解析の流れ
• マッピング〜SNP解析まで
→ 実践をまじえたチュートリアル
→ ツール選びのポイント
• NGSデータ蓄積・管理システムGenaGenomeManager
1000サンプル規模のゲノム解析データを一元管理できる
ハードウェア一体型システム

FASTQ

BAM

価格670万円〜
データ登録・管理
データQC解析
ゲノムビューワー
基本機能: Variantレポート
関連情報のカスタム定義(メタデータ)
ゲノムデータとメタデータの管理
メタデータを用いた変異のマイニング
価格例

Contenu connexe

Tendances

バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptxOsamu Ogasawara
 
臨床心理学における例数設計
臨床心理学における例数設計臨床心理学における例数設計
臨床心理学における例数設計Senshu University
 
Whole exome sequencing data analysis.pptx
Whole exome sequencing data analysis.pptxWhole exome sequencing data analysis.pptx
Whole exome sequencing data analysis.pptxHaibo Liu
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Masanao Ochi
 
経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)Masashi Sekino
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencingUzma Jabeen
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomikenyanonaka
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray弘毅 露崎
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれDNA Data Bank of Japan center
 
NGS Presentation .pptx
NGS Presentation  .pptxNGS Presentation  .pptx
NGS Presentation .pptxMalihaTanveer1
 
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...QIAGEN
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencingShaheen Alam
 
20171112予測指標の作り方セミナー事前学習
20171112予測指標の作り方セミナー事前学習20171112予測指標の作り方セミナー事前学習
20171112予測指標の作り方セミナー事前学習SR WS
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説LeapMind Inc
 

Tendances (20)

バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx
 
臨床心理学における例数設計
臨床心理学における例数設計臨床心理学における例数設計
臨床心理学における例数設計
 
Whole exome sequencing data analysis.pptx
Whole exome sequencing data analysis.pptxWhole exome sequencing data analysis.pptx
Whole exome sequencing data analysis.pptx
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencing
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
RAPIDS 概要
RAPIDS 概要RAPIDS 概要
RAPIDS 概要
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
 
NGS Presentation .pptx
NGS Presentation  .pptxNGS Presentation  .pptx
NGS Presentation .pptx
 
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
Next generation sequencing
Next generation sequencingNext generation sequencing
Next generation sequencing
 
20171112予測指標の作り方セミナー事前学習
20171112予測指標の作り方セミナー事前学習20171112予測指標の作り方セミナー事前学習
20171112予測指標の作り方セミナー事前学習
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
 

Similaire à CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料

[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベースDNA Data Bank of Japan center
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTKitsukawa Yuki
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...Shuji Suzuki
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料Amelieff
 
20141211柏セミナー
20141211柏セミナー20141211柏セミナー
20141211柏セミナーastanabe
 
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法Wataru Hirota
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2Nobuaki Oshiro
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction PredictionMasahito Ohue
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-SeqItoshi Nikaido
 

Similaire à CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料 (20)

[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
20141211柏セミナー
20141211柏セミナー20141211柏セミナー
20141211柏セミナー
 
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
 
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法Pachinko Allocation Model  を用いたクラスタリングによるシングルセル発現解析手法
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
Survival analysis0702
Survival analysis0702Survival analysis0702
Survival analysis0702
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction Prediction
 
kita m
kita mkita m
kita m
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
 

Dernier

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Dernier (8)

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料