北京生命科学研究院赵方庆课题组发布新的基因预测方法

来源:生物通 / 作者:王英 / 2016-11-23
0 9 915

当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。

11月17日在国际学术期刊《Genome Biology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的de Bruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵方庆研究员。对于有参考基因组的物种来说,通常是用基于同源性的方法来预测功能基因,这可能通过将靶序列对准到近缘种的原始基因,来识别基因。

然而,参考数据库只代表一小部分现有的物种,从而限制了这些方法的使用。因此,依赖于已知参考基因组的基因预测方法,限制了我们对于新物种的功能性理解。当缺乏相关的参考基因组时,利用组装基因组序列的从头预测方法,从本质上说是比较困难的——由于训练数据集的质量。另外,可以基于从头转录组组装来进行基因预测,这可大大降低数据集的大小,并增加获得的功能性信息。

然而,这些方法都受到从头转录组组装质量的限制。

因此,一种典型的转录组组装,可能会导致大量的片段碎片、冗余和含有错误的转录本。因此,来自组装转录本的同源基因数据集通常是不完整的、支离破碎的和冗余的,经常包含错误和异构体,从根本上歪曲了分子系统分析中对于直系同源的根本假设。为了克服这个困难,并增加转录组数据集的效用,该研究小组开发了inGAP-CDG,这种算法可执行来自未组装转录组的基因构建。

相比较以前的方法,inGAP-CDG可预测直接来自于未组装读数的开放阅读框(ORFs),利用一种监督式的支持向量机制(SVM),来过滤假阳性OPFs,并采用一种新型的基于密码子的de Bruijn图表,将纯化的OPFs组装成全长的CDSs。使用模拟的和真实的数据集,该研究小组证明,inGAP-CDG可显著提高基因识别的长度和精确度。inGAP-CDG是用C++实现的,并且源代码及完整文档是免费获取的:https://sourceforge.net/projects/ingap-cdg。

参考文献:Anovel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes

关注微信公众号(bio360),定时推送,福利互动精彩多
18

参与评论

登录后参与评论

评论

换一换
http://www.bio360.net/attachments/member_public.png
匿名 评论: 17小时前
吃脂肪真的会长膘吗?

我相信是严肃的文章。相信后按照这个去做一段时间。

真的有这种药上市了吗?患者到哪里医治

这题目取得,直接说让人类灭亡得了

是不是要多吃酸奶,使肠道菌群合理

 关注生物360微信

关注生物360微信