推荐覆盖深度

测序覆盖深度越大,碱基检出可信度越高

测序覆盖度

测序覆盖度是指比对到或“覆盖”已知参考碱基序列的平均数量。新一代测序(NGS)的覆盖深度常常决定了特定碱基位置的变异发现是否具有某种水平的可信度。

对测序覆盖度的要求因应用而异,如下所述。在较高的深度水平,每个碱基被较多的比对序列所覆盖,因此碱基读取也有着较高的可信度。

多数用户根据应用需要确定所需NGS覆盖水平,以及参考基因组大小、基因表达水平、已发表文献和科研领域定义的最佳实践等其他因素。

以下是部分常见应用的推荐测序覆盖度:

  • 检测人基因组突变、SNP和重排时,文献中通常建议采用10-30倍的覆盖深度,具体取决于应用和统计模型。
  • 针对RNA测序,研究人员们通常会考虑上百万待采样序列的数量。检测罕见表达基因时通常需要提高覆盖深度。
  • 对于ChIP-Seq(染色质免疫沉淀测序),文献中通常建议采用100倍左右的测序深度。

一般使用覆盖度直方图呈现整个数据集测序的覆盖度范围和均一性。直方图通过显示不同深度下已比对测序read所覆盖的参考碱基数量来表明整体覆盖度分布。“已比对read深度”指的是在给定参考碱基位置处完成测序和比对的碱基总数(注意,“mapped”和“aligned”(比对)在测序中可互换使用)。

在测序覆盖度直方图中,read深度将被分组并显示在X轴上,而占据各read深度分组的参考碱基总数将用Y轴表示。也可记作参考碱基百分比。

理想情况下,该图形状应类似泊松分布并且标准偏差较小,如左图所示(图中左侧)。该分布有效的前提是:read随机分布于整个基因组并且整个测序运行期间对read间真实重叠的检测能力不变。但出于各种原因,实际覆盖度直方图可能会很宽(即read深度区间宽)或呈非泊松分布,如右图所示(图中右侧)。

良好(左图)和欠佳(右图)测序覆盖度直方图示例

以下是评估NGS覆盖度的常用指标:

四分位数间距(IQR)

IQR是直方图中第75与第25百分位数之间的测序覆盖度差。该值用于衡量统计学变异性,可反映覆盖度在整个数据集范围内的不均一程度。IQR值高表示基因组上覆盖度变化大,而低IQR则表示序列覆盖水平更加均一。在上述直方图中,左侧的直方图中IQR更低,表明其测序覆盖均一性优于右侧直方图。

平均(已比对)Read深度

平均已比对read深度(或平均read深度)是各参考碱基位置上已比对read深度的总和除以参考中已知碱基的数量得到的值。平均read深度指标表示特定参考碱基位置上可能匹配的平均read数。

原始Read深度

该值是仪器所产生的序列数据总量(比对前)除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度,但该深度并未考虑到比对过程的效率。如果比对过程中有大部分原始测序read作废,则比对后得到的已比对read深度会远小于原始read深度。

Interested in receiving newsletters, case studies, and information from Illumina based on your area of interest? Sign up now.