鲁志课题组在《Genome Biology》发表论文 开发了用于研究 RNA 及多个结合蛋白相互作用的生物信息学方法

来源:清华大学生命科学学院 / 作者: / 2017-09-15
0 6 650

图 1 用于研究 RNA 及多个 RNA 结合蛋白相互作用的整合数据分析流程

2017 年 9 月 8 日,清华大学生命科学学院鲁志课题组在《Genome Biology》发表题为 Identification of high-confidence RNA regulatory elements by combinatorial classification of RNA–protein binding sites 的方法学论文,该论文通过整合 RNA 及其结合蛋白(RBP)相互作用的高通量测序数据(CLIP-seq),开发了一个基于非负矩阵分解(NMF)的生物信息学方法 -- RBPgroup(http://RBPtarget.ncrnalab.org/RBPgroup)。该方法不但能鉴定出具有高可信度的 RNA 调控元件,与此同时,也能够预测多个 RNA 结合蛋白(RBP)之间的潜在相互作用关系。该成果为研究多个蛋白在 RNA 上的协同调控提供了有力的新方法。

RNA 结合蛋白(RBP)对于细胞维持如 RNA 剪接,RNA 聚腺苷酸化,RNA 转运,翻译和转录本降解等一系列基本的细胞学功能至关重要。基于一项研究工作的估计,人类存在超过 1500 种不同的 RBP,这些 RBP 通过结合不同的 RNA 靶标序列(调控元件),进而行使其相应的生物学功能。许多 RNA 结合蛋白在结合其 RNA 靶标时存在相互作用或竞争的关系,因此,研究 RNA 结合蛋白的组合方式和鉴定相应的 RNA 调控原件,对研究各种后转录调控机制至关重要。

近几年来,紫外交联免疫沉淀结合高通量测序(CLIP-seq)技术的出现,使得研究人员能够在不同哺乳动物细胞中鉴定转录组范围内的、具有高分辨率的 RNA-RNA 结合蛋白的结合位点。目前,为了揭示重要的后转录调控机制,越来越多的 CLIP-seq 数据被产出,这些 RNA 结合蛋白的结合位点已经在我们实验室的前期工作中被很好地整理和收录在诸如 CLIPdb 和 POSTAR 等重要的数据库中。在这些大数据的基础上,整合多个 CLIP-seq 数据,研究 RNA 和多个结合蛋白的相互协同作用,对研究复杂的 RNA 转录后调控网络非常关键。

鲁志课题组利用从文献中收集的 HEK293,HepG2 和 K562 三个细胞系的 327 套 CLIP-seq 数据,通过整合分析,发展了基于非负矩阵因子分解(NMF)的生物信息学方法 --RBPgroup。该工作表明,相同聚类组中的 RNA 结合蛋白在功能上存在重要的相关性,与此同时,在该组对应的 RNA 靶标序列中,能够显著富集出与 RNA 重要调控作用相关的调控元件。该研究将这套研究方法体系应用于国际 ENCODE(Encyclopedia of DNA Elements)计划中的 eCLIP 数据,发现了众多潜在的 RNA 结合蛋白的调控复合物(或竞争物)组合,并且其中部分得到了实验的验证。为了让科学界更容易获得这项工作的研究结果,丰富的 RNA 调控序列与 RNA 结合蛋白调控复合物组合被整理在一个基于 Web 的网页平台上(http://RNAtarget.ncrnalab.org/RBPgroup),对应生物信息学工具 RBPgroup 的代码被公开在开源网站 GitHub 上(https://github.com/lulab/RBPgroup)。

清华大学生命科学学院鲁志研究员为该论文的通讯作者,清华大学生命学院直博生李洋、史斌斌和浙江大学生命科学研究院肖睦博士为该论文的共同第一作者。该研究得到了国家自然科学基金委优秀青年项目、面上项目、科技部重点研发计划等经费的支持,数据的计算分析工作也得到了国家蛋白质科学研究 (北京) 设施清华基地生物计算平台的支持。

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1298-8

关注微信公众号(bio360),定时推送,福利互动精彩多
13

参与评论

登录后参与评论

评论

换一换

广东省的护士可以吗?

这是真的吗?什么时候上市

希望对腺泡状肉瘤有效

期待加等待。

 关注生物360微信

关注生物360微信