各种文件----VCF文件

各种文件----VCF文件

VCF文件是所有数据第一步要处理为的格式,才能进行后续的进一步分析。(师妹告诉我的)

一. 基本解释:一种用于存储基因组中的变异信息的文本文件格式。它是一种标准化的格式,被广泛应用于基因组学研究和变异分析。

变异包括:SNP(单个碱基上的变异),小片段插入缺失(INDEL)等 也用于 拷贝数变异(CNV),SV(结构变异)等

SNV:参考基因组在1号染色体7845190为 C,但检测样本在同样位置为 A

INDEL:包含插入和缺失两种:Insertion:参考基因组某片段为 ACTTG,但是检测样本同样位置为 ACCCTTG,插入了CC ;Deletion:参考基因组某片段为 TTCGG,但是检测样本同样位置为 TTGG,缺失 C

二. 实例:

##fileformat=VCFv4.2##fileDate=20090805##source=myImputationProgramV3.1##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta##contig=##phasing=partial##INFO=##INFO=##INFO=##INFO=##INFO=##INFO=##FILTER=##FILTER=##FORMAT=##FORMAT=##FORMAT=##FORMAT=

#CHROM POS ID REF ALT QUAL FILTER INFO

1 10177 rs367896724 A AC 100 PASS AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL

1 10235 rs540431307 T TA 100 PASS AC=6;AF=0.00119808;AN=5008;NS=2504;DP=78015;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0.0051;AA=|||unknown(NO_COVERAGE);VT=INDEL

1 10352 rs555500075 T TA 100 PASS AC=2191;AF=0.4375;AN=5008;NS=2504;DP=88915;EAS_AF=0.4306;AMR_AF=0.4107;AFR_AF=0.4788;EUR_AF=0.4264;SAS_AF=0.4192;AA=|||unknown(NO_COVERAGE);VT=INDEL

1 10505 rs548419688 A T 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9632;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 10506 rs568405545 C G 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9676;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 10511 rs534229142 G A 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9869;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 10539 rs537182016 C A 100 PASS AC=3;AF=0.000599042;AN=5008;NS=2504;DP=9203;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.001;AA=.|||;VT=SNP

1 10542 rs572818783 C T 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9007;EAS_AF=0.001;AMR_AF=0;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 10579 rs538322974 C A 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=5502;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 10616 rs376342519 CCGCCGTTGCAAAGGCGCGCCG C 100 PASS AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL

1 10642 rs558604819 G A 100 PASS AC=21;AF=0.00419329;AN=5008;NS=2504;DP=1360;EAS_AF=0.003;AMR_AF=0.0014;AFR_AF=0.0129;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP

1 11008 rs575272151 C G 100 PASS AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2232;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP

1 11012 rs544419019 C G 100 PASS AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2090;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP

VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。值得注意的是,注释部分有很多对VCF的介绍信息。实际上不需要本文章,只是看看这个注释部分就完全明白了VCF各行各列代表的意义。主体部分中每一行代表一个Variant的信息。

QUAL: Phred格式(Phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值。表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:① Q=-10*lgP,Q表示质量值;P表示这个位点发生错误的概率。②Phred值Q = -10 * lg (1-p) ,p为variant存在的概率;通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。同理,当Q=20时,错误率就控制在了0.01。

FILTER: 使用上一个QUAL值来进行过滤的话,是不够的。理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。

以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。以下是这些TAG的解释

AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2

DP: reads覆盖度。是一些reads被过滤掉后的覆盖度。

Dels: Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNP,没有则为INDEL。

FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值。该值越小越好。一般进行filter的时候,可以设置 FS < 10~20。

GT: 表示这个样本的基因型,对于一个二倍体生物,GT值表示的是这个样本在这个位点所携带的两个等位基因。0表示跟REF一样;1表示表示跟ALT一样;2表示第二个ALT。当只有一个ALT 等位基因的时候,0/0表示纯和且跟REF一致;0/1表示杂合,两个allele一个是ALT一个是REF;1/1表示纯和且都为ALT

AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。

DP: 覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)

PL:对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这三种指定的基因型(0/0,0/1,1/1)的概率总和为1。如果转换成支持该基因型概率(P)的话,由于L=-10lgP,那么P=10^(-L/10),因此,当L值为0时,P=10^0=1。因此,这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大

GQ: 表示最可能的基因型的质量值。表示的意义同QUAL。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

例子:chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26

在这个位点,GT=0/1,也就是说这个位点的基因型是C/T;GQ=25.92,质量值并不算太高,可能是因为cover到这个位点的reads数太少,DP=4,也就是说只有4条reads支持这个地方的变异;AD=1,3,也就是说支持REF的read有一条,支持ALT的有3条;在PL里,这个位点基因型的不确定性就表现的更突出了,0/1的PL值为0,虽然支持0/1的概率很高;但是1/1的PL值只有26,也就是说还有10^(-2.6)=0.25%的可能性是1/1;但几乎不可能是0/0,因为支持0/0的概率只有10^(-10.3)=5*10-11。

三 vcf 的记录模式

VCF 文件可以记录不同级别的变异信息,从单一变异到个体、组织、群体或家系的变异。

4.1 只记录变异本身的信息

通常用于描述特定变异的特征,不涉及特定个体或群体的信息。

#CHROM POS ID REF ALT QUAL FILTER INFO

1 69511 rs75062661 G A 99 PASS AC=1;AF=0.0002;AN=5008;NS=2504;DP=2184;EAS_AF=0;AMR_AF=0.0008;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.0007;VT=SNP

4.2 记录个体或个体组织的变异信息

在VCF文件的末尾通常会有一个或多个样本列,其中每一列都代表一个个体或个体的某个组织。

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample1

1 899282 rs123456 A G,T 50 PASS AC=2;AF=0.5;AN=4;NS=1;DP=100 GT:DP:GQ:PL 0/1:50:99:0,20,200

4.3 记录群体或家系的变异信息

包括多个样本的数据,可以用于群体遗传学分析。

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Person1 Person2 Person3

1 945874 rs7891011 A G 99 PASS AC=3;AF=0.75;AN=4;NS=3;DP=300 GT:DP:GQ:PL 0/1:100:99:0,20,200 1/1:100:99:0,0,100 0/0:100:99:0,0,0

1000 genomes 比较特殊,不同人群的等位基因频率在 INFO 中以不同的字段表示

1 10177 rs367896724 A AC 100 PASS AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL

生物基因数据文件——vcf格式详解_snp.vcf文件的id列全是点该如何解决·-CSDN博客

图文详解 VCF 生信格式 (变异信息) - 知乎 (zhihu.com)

Understanding VCF format | Human genetic variation (ebi.ac.uk)

相关典藏

部落冲突-怎么看自己玩了多久?
365bet博彩官网

部落冲突-怎么看自己玩了多久?

📅 08-18 👁️‍🗨️ 3004
安全借钱软件平台推荐:贷款前必看避坑指南
bt365网址

安全借钱软件平台推荐:贷款前必看避坑指南

📅 10-02 👁️‍🗨️ 2410
《黑暗侵袭3》胎死腹中?15年谜案终于有答案了,结局反转太伤人