RNA 测序遇上 Dup,有你想不到的误区!

来源: 华大科技 / 作者: 赵青 / 时间: 2019-07-04
0 3

什么是 Dup?Dup,即重复序列 Duplicate reads,指通过测序得到两对或两对以上的 Pair-End Reads,同时比对到参考基因组上相同的起始和结束位置的序列。这些重复序列在总测序序列中的占比简称为 Dup rate

Dup 会影响 DNA 测序变异检测结果准确性,需要在生信分析中去除,只是会产生测序成本浪费。RNA 测序遇上 Dup,问题就更复杂了 一类 Dup 是建库或测序过程引入的“坏”Dup,另一类 Dup 是样本高基因表达形成相同模板的“好”Dup。

如果不分“好”“坏“全去,就会损失这部分“好”的数据;如果不去,Dup 会影响 RNA 测序基因表达定量的准确性。如何识别和去除 RNA 测序“坏”Dup,一直是一个热点,众说纷纭,方法各异。

Dup 如何影响 RNA 测序?

相关文献报道:

(1)高 Dup rate 会影响差异表达基因的检测。

Sergi Sayols 等人 [1] 从数据库获取 RNA-Seq 数据,模拟 PCR Dup rate 50% 和 90%。Dup rate 50% 时,能还原出原数据 1199 个差异表达基因,产生 124 个假阳性和 720 个假阴性;Dup rate 90% 时,问题加重,只还原出 517 个,产生 115 个假阳性和 1402 个假阴性(图 1 D-F)。

(2)对于低表达基因,Dup rate 偏移程度更大。

Sergi Sayols 等人 [1] 还分析了不同 Dup rate 程度下,低表达基因的偏移。本来低表达基因表现低 Dup rate,随着基因表达水平升高,Dup rate 升高。但在高 Dup rate 的情况下,低表达基因已经出现了高 Dup rate(图 1 A-C)。

1

图 1 不同 Dup rate 程度,对同一文库中检测差异表达基因的影响

(3)对于较短的基因,打断时更易产生相同的 reads,被当作 Dup。

Yu Fu 等人 [2] 指出相同的表达水平下,短的基因比长的基因,reads 更可能被当成 Dup,因为在建库时有一步骤是将 RNA 随机片段化,对短的基因来说打断成不同片段的“空间”更小。

PCR Dup 是干扰 RNA 测序的“罪魁祸首”吗?

RNA 测序 Dup 是怎么产生的?来源有以下 4 个:

(1)样本本身的 Dup;

(2)文库构建中扩增引入的 Dup(即 PCR Dup);

(3)测序前信号放大(荧光信号采集单元生成过程)引入的 Dup;

(4)芯片测序过程中引入的光学 Dup。

大多数人认为 Dup 主要来自于第 2 种,即建库环节中引入的 PCR Dup,因而 目前的文章中以降低建库环节引入的 PCR Dup 为主,或在生信环节通过开发软件,识别出 PCR Dup;或在建库环节通过加分子标签,依据带有相同标签判断为 PCR Dup。

PCR Dup 真的是“罪魁祸首”吗?此前的文章(《NGS 攻略》之 Dup 传 )详细地剖析了前人文章和实测数据,分辨每种 Dup 的“影响力”。PCR Dup 在扩增循环数目不高的情况下,并不会带来“令人窒息”的 Dup rate,而只是在个位数水平波动。实际上第 3 种和第 4 种,即测序引入的 Dup 居多。

测序引入的 Dup rate 有多大?

从上百个商业样本 DNA 测序看,BGISEQ 和 H 平台 Dup rate 的差距明显,BGISEQ 平台在 3% 以下,H 平台 >20%(Duplicates | NGS 帝国的 Agent Smith)。RNA 测序表现如何呢?

1. 人标准品数据

(1)真核转录组测序

人标准品 UHRR 构建真核转录组文库,分别在 BGISEQ 和 H 平台上机,测序策略 PE150。BGISEQ Dup rate,仅有 9% 左右, H 平台高达 22.67%。(表 1)。

2

(2)lncRNA 测序

人标准品 UHRR 构建 lncRNA 文库,分别在 BIGSEQ 和 H 平台上机,测序策略 PE100。BGISEQ Dup rate,仅有 13% 左右,H 平台超过 20%(表 2)。

3

2. 商业项目统计

统计近期 BGISEQ PE150 测序的真核转录组商业项目,涉及多种植物、动物和真菌共 152 个样本,平均 Dup rate 仅为 10.36%,而 H 平台 29 个样本,平均 28.74%。

4

5

图 2 近期 BGISEQ 真核转录组商业项目情况

从 RNA 测序数据中不难发现,单看 BGISEQ 平台结果,4 种 Dup 来源加一起也不过百分之十,而两个平台间就差了百分之十几。可见测序引入的 Dup 比其他 Dup 多得多,BGISEQ 平台 Dup rate 很低。

BGISEQ Dup rate 为什么这么低?

这得从原理上说起 ,BGISEQ 平台基于独特的核心技术,减少了测序环节引入的 Dup,使得 Dup rate 明显低于 H 平台。

原因 1:BGISEQ 平台采用 DNB 技术 ,PCR 双链文库在后续环化实验中只环化双链中的 1 条,滚环扩增获得 DNA Nanoball;另外一条则被核酸外切酶消化,不用于形成 DNA Nanoball,因此是 单链的模板

而 H 平台,是双链 PCR 产物变性与芯片的接头互补连接,双链中的两条链是一样的信息,都可以在后面桥式扩增中作为模板,这样引入的 Dup 比 BGISEQ 平台高。此外,BGISEQ 平台是 线性扩增 ,始终只复制原始模版,其扩增错误不会像 H 平台桥式 PCR 一样累积成指数型放大。

原因 2:BGISEQ 平台采用 Patterned Array 技术 ,制备好的 DNB 会加载到微阵列芯片(Patterned Array)上,这一过程称为 DNB 加载。Patterned Array 技术通过先进的半导体精密加工工艺,在硅片表面形成阵列和对准标记,因而芯片上活化位点是规则阵列的,而且DNB 与芯片上活化位点的大小相近,每个位点只固定一个 DNB,保证信号点之间不产生相互干扰。 再结合高分辨率成像系统和自主开发算法等提高了图像处理精准度,大大提高了碱基识别准确度。

而 H 平台有两种芯片,一种是较早系列,采用非阵列式芯片,生成的 DNA cluster 形状不规则,图像识别有可能把一个 cluster 识别成两个,会造成 Dup 的问题;另一种是近年来的超大通量测序平台,为了更多有效数据,采用阵列式芯片,在进行第一条互补链合成后,DNA 模板分子会脱落,并有一定的概率到达另一个纳米孔生成另一个相同的 cluster,造成 Dup 的问题。

7

图 3 BGISEQ 平台原理图

BGISEQ 平台独具低 Dup rate 先天优势,就无需在生信环节人为地设计软件去除,也免去建库环节费尽心力地人为干预样品建库,省时省力省钱。

BGISEQ RNA 测序产品亮点颇多,除了低 Dup rate,还有:

11 天极速交付 :BGISEQ 真核转录组和 RNA-Seq,提取检测为起始,有参无参都极速。提取 2 天;打包服务包含检测,RNA-Seq 只需要 11 天,真核转录组只需要 14 天。

“0”index hopping:独特的文库构建技术和单链环状文库滚环扩增技术使得 index hopping 在 0.0001%~0.0004%,远低于 H 平台[3]。

Dr. Tom 2.0 多组学:任意测 mRNA/lncRNA/Small RNA 一种,获取多组学的关联信息,多数据库联合分析和多维度图片展示,调用丰富的多组学关联分析工具,深度循环挖掘数据,还可自由上传数据和自定义目的基因分类。

1000+ 累积影响因子:RNA 测序在《Nature》、《Cell》、《Immunity》、《Nature Neuroscience》、《Cell Research》等顶级期刊发表过多篇文章;单细胞转录组文章 4 月荣登《Genome Biology》,BGISEQ 平台定量灵敏准确[4]。

参考文献:

[1] Sayols S, Scherzinger D, Klein H. dupRadar: a Bioconductor package for the assessment of PCR artifacts in RNA-Seq data. BMC Bioinformatics. 2016 Oct 21;17(1):428.

[2] Fu Y, Wu PH, Beane T, et al. Elimination of PCR duplicates in RNA-seq and small RNA-seq using unique molecular identifiers. BMC Genomics. 2018 Jul 13;19(1):531.

[3] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv. 2018: 343137.

[4] Natarajan KN, Miao Z, Jiang M,et al. Comparative analysis of sequencing technologies for single-cell transcriptomics. Genome Biology. 2019 Apr 9;20(1):70.

声明:本网所有文章(包括图片和音视频资料)系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(edit@bio360.net ),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。

文章评论(0)
使用匿名身份评论
  • 暂无评论,请抢占。