Contenu connexe Similaire à CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料 Similaire à CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料 (20) CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料4. どんなサンプルですか?
解析の目的は?
• 同一患者由来のOvarian Cancer Cell line
– ERR035486:Cisplatin sensitive (post-treatment)
– ERR035487: Cisplatin resistant (relapse)
•
•
•
•
SureSelect Human AllExon Kit (Agilent)
Illumina Genome Analyzer IIx
Paired End library
各サンプルのSNVをリ
スト化し、既知SNPなどと
Read length 72 bp x 2
“
– ERR035486:53.3 M reads (6.6 Gb)
– ERR035487: 68.0 M reads (9.8 Gb)
照合しながらCisplatin
sensitivityに関わる変異
を見つけ出したい
”
5. 実験条件のまとめ
• Starting material: 5 mg gDNA from Cancer cell
line (no WGA)
• 1st PCR (library prep): 10 cycles
• SureSelect Human AllExon Kit (Agilent)
• Illumina GAIIx Paired-end library 2 x 72bp,
insert size ~155 bp
– ERR035486:53.3 M reads (6.6 Gb)
– ERR035487: 68.0 M reads (9.8 Gb)
13. FASTQフォーマット
(1) 塩基配列を各塩基のクウォリティスコアとともに記述するためのファイルフォーマット
(2) NGSのリード生データを保存するフォーマットとして広く利用されている
定義: 4行で1リードを記述
@SEQ_ID [description (optional)]
塩基配列
+[SEQ_ID description(optional)]
クウォリティ配列(ASCIIコード: クウォリティスコア+ 33)
クウォリティスコアとしては、Phredスコアが用いられることが多い。
Illumina HiSeq2000 (CASAVA 1.8)の例
@HWI-ST818R:232:D22C7ACXX:5:1101:1669:1981 1:N:0:GTTTCG
GACAAGGCGGGCAGCAAAAGCAAGAAAGGCAAAGGGACTAGGAATGCACGAAACTGAGCTCAAGT
ACTGG
+
4=DFDFFHFHHHADGIJJJJJJEFAHIGGIIEEEHHFFFFEEEEEDDDDDDDDDDDDDDDDDDD3@CA::
“4” : ASCIIコード 52 – 33 = クウォリティスコア 19
“=“ : ASCIIコード 61 – 33 = クウォリティスコア 28
26. BWA マッピング
マッピングアルゴリズムの概略(デフォルト設定の場合)
read配列
seed length (=32)
・5’側からseed length(=32)番目までの塩基配列をmax. seed differences(=2) のミ
スマッチ、ギャップを許容した場合にマッピング可能な参照配列上の領域を探索
・seedがマッチしたそれぞれの領域について、残りの塩基をアラインメントし、リード
長に応じた最大許容ミスマッチ数以下のアラインメントを求める
・以上で得られたアラインメントのうち、最もスコアの高い位置にマッピングする
・同一スコアで複数箇所にマップされる場合は、ランダムに1カ所を選ぶ
・PE リードの場合はすべてのヒットのペアのうち、最善の組み合わせを選ぶ
29. hg19リファレンス配列
(その他の入手先)
(2) Broad Institute
ftp://ftp.broadinstitute.org/pub/seq/references/Homo_sapiens_assembly19.fasta
(3) 1000 Genomes
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz
染色体名
Um配列
ヘルペス
ウィルス
chr1, … , chrX, chrY, chrM
有
無
(2) Broad Institute 1, 2, … , X, Y, MT
含
有
(3) 1000
Genomes
含
無
参照配列入手先
(1) UCSC
1, 2, … , X, Y, MT
30. BWAによるマッピング
参照配列 hg19.fa (FASTAフォーマット)に PEリード ERR035486_1.fastq,
ERR035486_2.fastq (FASTQフォーマット)をBWAでマッピングする場合の例:
①
> bwa index -a bwtsw hg19.fa
②
> bwa aln hg19.fa ERR035486_1.fastq > ERR035486.1.sai
③
> bwa aln hg19.fa ERR035486_2.fastq > ERR035486.2.sai
④
> bwa sampe hg19.fa ERR035486.1.sai ERR035486.2.sai ¥
ERR035486_1.fastq ERR035486_2.fastq > ERR035486.sam
① hg19.faを解析し、高速にマッピングを行うためのindexファイル群を作成
②, ③ リード1, リード2をそれぞれ参照配列に対してアラインメント
④ リード1, リード2のアラインメントより、ペアリングを行い、最適なアラインメント結果
を求めSAMフォーマットで出力
31. SAMフォーマット
(Sequence Alignment/Map Format)
•
•
•
リード配列の参照配列に対するアラインメント結果を記述するファイル形式
NGSのリード配列のマッピング結果を記録する際の事実上の標準フォーマット
テキスト形式(SAM)とバイナリ形式(BAM)が存在
@HD
@SQ
VN:1.4 SO:coordinate
SN:chr1 LN:249250621
(中略)
@SQ
SN:chrY LN:59373566
@SQ
SN:chrM LN:16571
@RG
ID:ERR035486 PL:Illumina
PU:Illumina
LB:ERR035486 SM:ERR035486
ERR035486.7
99
chr1 10005 14
53M1I14M4S
=
10174 241
CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCAGAT
CDCCFEHHHBEHGGHDFHGHIDDHIHIDGHIHIDG@FGGA;CAFD>EFGDIDHIIIIIDGIIHGACBA><:<
XA:Z:chr5,+11529,72M,4; MD:Z:67
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:1 AM:i:14 NM:i:1 SM:i:14 XM:i:0 XO:i:1 XT:A:M
ERR035486.10 163
chr1 10032 0
72M
=
10297 336
AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAGCCT
?BCDFGDFGGGHDGHHHIE
GHHHIDGGGHHEGH6DHDGFHHHCGHGHHCFC;7<CD5??#############
X0:i:424
MD:Z:68C3
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R
ヘッダ部
1. QNAME
2. FLAG
3. RNAME
4. POS
5. MAPQ
6. CIGAR
クエリー名(リードID)
ビットフラグ
参照配列名
第一塩基の開始位置
マッピングクウォリティ
CIGAR string
ERR035486.7
99 = 1100011 (2進数) => PEのリード1でリード2と正しい位置関係で共にマップされている。
chr1
10005
14
53M1I14M4S => 54番目の塩基が参照配列に対してinsertion、最後の4塩基はクリッピング
34. 重複除去
目的:
• PCR duplicates 由来のリード重複を取り除き、変異
検出の際のバイアスを軽減し、偽陽性を減らす。
PCR重複とみなし、
4ではなく1とカウント
されるべき
PEリードのリード1、リード2の対が全く同じ場所
にマップされている。
注意:
Amplicon ベースのTarget seqやRNA-seq など、本ステップを実施すべきでないこともある!
35. Picardによる重複除去
http://picard.sourceforge.net/index.shtml
• SAM/BAM、FASTQ、VCFフォーマットなどに対
するさまざまな操作を行うプログラムツール
> java -Xmx4G –jar picard-tools-1.93/MarkDuplicates.jar ¥
INPUT=ERR035486.sort.bam ¥
REMOVE_DUPLICATES=true VALIDATION_STRINGENCY=LENIENT ¥
METRICS_FILE=ERR035486.dup OUTPUT=ERR035486.rmdup.bam
ERR035486
Before
Total reads
Mapped reads
Duplicates
After
ERR035487
Before
After
106,591,524
96,615,204
135,916,704
123,987,331
98,763,696
(92.66%)
88,787,376
(91.90%)
130,729,264
(96.18%)
118,799,891
(95.82%)
9,976,320 (9.3%)
11,929,373 (8.8%)
37. Picard: CollectInsertSizeMetrics
>java -Xmx4G –jar picard-tools-1.93/CollectInsertSizeMetrics.jar ¥
INPUT=ERR035486.rmdup.bam ¥
OUTPUT=ERR035486.rmdup.insert_size_metrics ¥
HISTGRAM_FILE=ERR035486.rmdup.insert_size_metrics.pdf ¥
VALIDATION_STRINGENCY=LENIENT
FR
0
2e+05
0e+00
1e+05
50000 100000
Count
200000
3e+05
300000
FR
Count
Insert Size Histogram for All_Reads
in file ERR035487.rmdup.bam
4e+05
Insert Size Histogram for All_Reads
in file ERR035486.rmdup.bam
0
100
200
Insert Size
300
400
500
0
100
200
300
Insert Size
400
500
600
39. BEDフォーマット
• ゲノム上の領域を記述する共通フォーマット
• タブ区切りテキストファイル(4カラム目以降は任意)
染色体
chr1
chr1
chr1
chr1
開始位置 終了位置
721381
721530
721851
752916
721519
721806
721942
753035
(任意)
mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
ens|ENST00000435300,mRNA|AK097327,ens|ENST00000326734
SureSelect のターゲット領域のBEDファイルは以下より入手可能
・Agilent SureDesign
https://earray.chem.agilent.com/suredesign/
40. オンターゲット率
何%のリードがターゲット上にマップされたか?
・ターゲット濃縮率の評価(実験研究者へのフィードバック)
・シーケンシングコストに対するベネフィット評価にも有効
ERR035486
ERR035487
Total reads
96,615,204
123,987,331
Mapped reads
88,787,376
(91.90%)
118,799,891
(95.82%)
On Target reads
54,898,505
(56.82%)
75,627,222
(61.00%)
41. カバレージプロットの作成
bedtools (http://code.google.com/p/bedtools/) を利用したカバレージプロットの作成
>coverageBed -abam -d -a ERR035486.rmdup.bam –b exome_target.bed
領域を1塩基ごとに
展開し、各塩基位置
のdepthを出力
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
-
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
20行程度の簡単な
スクリプトで処理することで
カバレージプロットを作成
することが可能。
塩基位置
depth
46. GATKによるリアラインメント
①
②
> java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator ¥
-R hg19.fa ¥
–I ERR035486.rmdup.bam ¥
–o ERR035486.rmdup.intervals
> java –jar GenomeAnalysisTK.jar -T IndelRealigner ¥
-R hg19.fa ¥
–I ERR035486.rmdup.bam ¥
–targetIntervals ERR035486.rmdup.intervals ¥
–o ERR035486.rmdup.realigned.bam
① RealignerTargetCreator によりリアラインメントを実施すべき領域を抽出
② ① で抽出した領域を指定し、リアラインメントを実行
47. GATK Lite(1.x) と 2.x
http://gatkforums.broadinstitute.org/discussion/1720/what-is-gatk-lite-and-how-does-it-relate-to-full-gatk-2-x-retired
51. GATKによるリキャリブレーション
> java -jar GenomeAnalysisTK.jar -T CountCovariates ¥
-I ERR035486.rmdup.realigned.bam ¥
-R hg19.fa ¥
-S LENIENT ¥
-knownSites 00-All.chr.vcf ¥
-cov ReadGroupCovariate ¥
-cov QualityScoreCovariate ¥
-cov CycleCovariate ¥
-cov DinucCovariate ¥
-log ERR035486.rmdup.realigned.recal.log ¥
-recalFile ERR035486.rmdup.realigned.recal_data.csv
> java -Xmx8g -jar $gatk_dir/GenomeAnalysisTK.jar -T TableRecalibration ¥
-I $sample.rmdup.realigned.bam ¥
-R hg19.fa ¥
-recalFile ERR035486.rmdup.realigned.recal_data.csv ¥
-log ERR035486.rmdup.realigned.Qual.log ¥
-o ERR035486.rmdup.realigned.recal.bam
BAMファイルの各リードの塩基のクウォリティスコアが補正される。
全ゲノムや全エキソンなどの網羅的な解析でない場合は、十分なデータポイント
が得られず効果は期待できないことに注意。
55. Unified Genotyperによる変異検出
> java -jar GenomeAnalysisTK.jar –T UnifiedGenotyper ¥
-R hg19.fa ¥
-I ERR035486.rmdup.realigned.recal.bam ¥
-I ERR035487.rmdup.realigned.recal.bam ¥
-glm BOTH ¥
-nt 4 ¥
-o result.recal.gatk.var.vcf ¥
-metrics ug_recal_metrics ¥
-D 00-All.chr.vcf ¥
-S LENIENT ¥
-out_mode EMIT_VARIANTS_ONLY ¥
-L exome_target.bed
ERR035486, ERR035487の両方のBAMファイルを与えてVariant Callを行うことで両方の
サンプルの変異が比較可能な形でVCFファイルが出力される。
さらに上記オプションにより、少なくともいずれかのBAMファイルでターゲット領域上に
検出されたSNVまたはIndelについて出力される。
“-D” オプションでdbSNPの情報をアノテーションする場合は、参照配列のFASTAファイ
ルに定義されている染色体名とdbSNPのVCFファイルに定義されている染色体名を一
致させておく必要があることに注意。
56. VCFフォーマット
(Variant Call Format)
•
•
•
変異・ジェノタイプを記述する共通フォーマット
ポピュレーションごとにアレル頻度やリード数
テキスト形式(VCF)とバイナリ形式(BCF)が存在
##fileformat=VCFv4.1
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
(中略)
#CHROM POS
ID
REF
ALT
QUAL FILTER INFO FORMAT ERR035486
ERR035487
chr1 4772053 rs1061968
T
C
40.42 .
AC=2;AF=0.50;AN=4;BaseQRankSum=0.311;DB;DP=16;Dels=0.00;FS=2.522;HRun=0;HaplotypeScore=0.0000;MQ=57.05;MQ0=0;MQRankSum=0.778;QD=2.53;ReadPosRa
nkSum=0.467;SB=-31.32 GT:AD:DP:GQ:PL 0/1:3,2:5:60.71:63,0,61 0/1:8,3:11:12.06:12,0,231
chr1 4772717 rs242056
G
A
2547.13 .
AC=4;AF=1.00;AN=4;DB;DP=78;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=57.71;MQ0=0;QD=32.66;SB=-665.84 GT:AD:DP:GQ:PL
1/1:0,32:32:75.24:973,75,0
1/1:0,46:46:99:1610,123,0
chr1 5935162 rs1287637
A
T
70.70 .
AC=2;AF=1.00;AN=2;DB;DP=3;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=51.77;MQ0=0;QD=23.57;SB=-39.86 GT:AD:DP:GQ:PL
1/1:0,3:3:9.02:103,9,0 ./.
chr1 5987696 rs7520105
T
C
42.36 .
AC=4;AF=1.00;AN=4;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=53.95;MQ0=0;QD=10.59;SB=-40.65 GT:AD:DP:GQ:PL 1/1:0,2:2:3.01:45,3,0
1/1:0,1:2:3.01:31,3,0
chr1 6027252 rs875573
A
G
64.26 .
AC=3;AF=0.75;AN=4;BaseQRankSum=0.727;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=60.00;MQ0=0;MQRankSum=0.727;QD=16.06;ReadPosRankSum=0.727;SB=-36.47 GT:AD:DP:GQ:PL 1/1:0,1:1:3.01:41,3,0 0/1:1,2:3:27.10:58,0,27