http://www.bio360.net/attachments/meeting/2017/03/1490086836943b5776f07e23b1.png

2017 第四届 NGS 创新开发者大会大咖密谈 | 杨虎山教授谈癌症早筛 cfDNA 大数据建模

2017-03-21 至 2017-03-21结束 杭州

杨虎山博士

南开大学生物化学系本科,美国休斯顿 Baylor 医学院博士,MD Anderson 癌症中心博士后,现任费城 Thomas Jefferson 大学 Sidney Kimmel 癌症中心医学肿瘤学系副教授,循环肿瘤细胞中心实验室主任。

癌症遗传学,分子流行病学,以及肿瘤标志物研究领域的专家。作为 Principal Investigator,其研究受到多项美国联邦政府机构国立卫生研究院, 国家癌症研究所,宾夕法尼亚州卫生部,美国癌症协会 (ACS),中国自然科学基金海外合作重点项目,以及多个其他非盈利性基金会的资助。肝病学顶级刊物 Hepatology 的编委会成员。获得多个转化及临床医学方面的奖项,包括 Jim Valvano 癌症基金会的 V Scholar Award 以及美国癌症协会的 Research Scholar Award。多个科研基金的评审专家,包括国家癌症研究所,国防部退伍军人事务部,英国医学研究委员会,以及作为海外专家评审中国国家自然科学基金重点项目。当前的研究方向集中于开发基于二代测序分析循环肿瘤 DNA 和循环肿瘤细胞的液体活检技术,并将其应用于肿瘤的早期筛查,治疗,预后,转移及复发检测等肿瘤个体化医疗的临床服务。

1. 杨教授,您好!感谢您接受此次专访。从贝勒医学院、安德森癌症中心到托马斯杰斐逊大学癌症研究中心,您的研究经历非常丰富,请您向读者介绍下自己和研究领域?

杨虎山:很感谢有这个机会可以和大家进行交流。我毕业于南开大学生物化学系。90 年代末来到休斯顿的贝勒医学院读博士。我的博士研究内容是基础生物学,主要是通过分子生物学的手段来探索核糖体 RNA 的生成机制。读博士的期间,我接触了大量癌症生物学和癌症遗传学的知识,从而产生了致力于做癌症的转化和临床医学方面的研究。博士毕业后我加入 MD 安德森癌症中心做博士后,通过分子流行病和基因组学的手段来寻找生物标志物,进而发展统计模型来进行癌症的风险预测和早期筛查,以及药物反应,复发检测等预后方面的研究。当时我们研究的重点之一便是 microRNA 的表达和遗传多态性在各种实体瘤中起到的风险预测的作用。

在贝勒医学院读书的第一年,我结识了我的好友,也是我最重要的研究伙伴之一,李冰山教授。李教授是统计遗传学和生物信息学的专家,现工作于田纳西的范德堡大学遗传中心。我们在各自建立独立实验室之后便开始了极其广泛的在肿瘤的液体活检方面的合作,并在发展过程中得到了美国国立癌症研究所,国家人类基因组研究所,美国癌症协会等机构的基金支持。我们合作的重点方向之一就是通过 cfDNA 进行乙肝病人中的肝癌的早期筛查和诊断。这个合作是基于我在我工作的 Sidney Kimmel 癌症中心所建立的大型前瞻性和纵向性人群队列,包括上万例的乙肝,肝硬化,癌前,和早期肝癌诊断时的血液样本。

同时,我们的合作还有相当一部分精力集中于循环肿瘤细胞 (CTC) 在癌症预后方面的研究。这方面的合作还包括我另外的一个重要合作者,Massimo Cristofanilli 教授。Cristofanilli 教授于 2004 年发表在新英格兰医学杂志上的文章直接导致了 FDA 批准了 Janssen Diagnostics 的 CellSearch 仪器用于 CTC 的计数用于预测晚期乳腺癌的预后。 Cristofanilli 博士在 2013 年来到 Sidney Kimmel 癌症中心出任乳腺癌中心的主任。我们合作建立了一个大型的晚期乳腺癌的病人队列来研究液体活检在病人预后方面的作用。

近年来,我和李教授,Cristofanilli 教授合作开发了一个从 CTC 收集到单细胞 CTC 遗传分析的全面的流程,并且在最近的国立癌症研究所的基金申请中取得了极高的分数。我们期望将来可以将 ctDNA 和 CTC 的基因组分析结合到一起而发展更为有效的液体活检的技术。

2. 现在大家提到肿瘤精准医学,言必谈 ctDNA 和 cfDNA,可否请您简单、系统地向临床医生普及下,液体活检,特别是 ctDNA 和 cfDNA 目前的技术进展,应用到临床上有着哪些挑战和前景?

杨虎山:cfDNA 指的是血液里的循环 DNA 的总和,而 ctDNA 专指从肿瘤来源的 cfDNA,所以是 cfDNA 的一部分。基于 cfDNA 的液体活检的研究在近几年来炙手可热,主要是由于 cfDNA 可以在某些程度上避免组织活检的一些本质上难以解决的缺陷。比如说,肿瘤的异质性,组织活检的侵入性,以及肿瘤基因组在治疗压力下的快速进化而导致的组织活检的非实时性等等。液体活检在不同程度上可以避免这些限制,但是在技术和计算分析上的要求要远远高于组织活检。这主要是因为 cfDNA 在血液中的总量很低,而 ctDNA 在 cfDNA 中的比例更低,很多时候低于当前测序仪可靠性的下限。这就需要我们发展可靠的实验技术和计算方法来增加测序的准确性。

cfDNA 的作用可以大体分为两个方向:中晚期癌症的用药指导和病程检测,以及早期或超早期癌症的筛选诊断。前一个方向做的比较多,主要是由于 ctDNA 在中晚期病人中的含量较早期病人要高,所以检测的准确度要高。国内有不少公司都推出了各自的产品,而象凯杰,罗氏等公司也推出了商业化的产品,因而这个方向竞争比较激烈。

相比之下,用液体活检做癌症的早期筛选要困难的多,一方面是由于早期癌症中 ctDNA 含量极低,同时也因为我们整个研究领域对于早期癌症基因组的认识远远不及晚期癌症。最近,在美国和中国都有专注于癌症早筛的初创公司的成立,最有名的就是从 Illumina 脱离出来的 Grail 公司,最近融资了 9 亿美元。他们的目标是通过和美国各大癌症中心合作来进行大规模的临床试验,通过超高通量测序来开发在无症状人群中的泛癌症 (pan-cancer) 的早筛技术。Grail 还未披露具体发展计划,所以我无法进行更具体的评论。但是相对于他们的计划,我更倾向于首先在特定高危人群中发展针对特定癌症的早筛技术。比如在乙肝或者丙肝病人中筛查肝癌,在有家族史或大肠息肉史的病人中筛查肠癌,以及在吸烟人群中筛查肺癌等等。

通过发展这些技术取得的数据和经验,可以帮助我们最终推广到无症状人群中的筛查。在这个过程中,重要的一点是,无论技术多么精深,在用于临床前,一定要经过大规模的人群队列验证,尤其是早期癌症甚至临床诊断前的样本的验证。很多肿瘤在其早期和晚期会有非常不同的基因组特征,所以基于晚期肿瘤开发的手段在早期筛查并不一定有效。总起来讲,虽然液体活检在肿瘤早筛这个方向仍有相当大的技术和验证方面的难点需要克服,但是我坚信在未来的几年内这个方向的发展会有突飞猛进的进步,有着巨大的研究,临床,以及商业上的前景。

3. 去年 6 月,您和 Chun Wang 博士一起发表了关于循环 miRNA 作为乙型肝炎中肝细胞癌预测的生物标记,请您谈谈这一研究的进展和意义,特别的,如果应用临床诊断标记,相对于 DNA,miRNA 的稳定性较差,小片段较小,这会有什么影响呢?

杨虎山:我的实验室很早就开始了 miRNA 相关的研究。在我们的研究之前,已经有少数文献报导寻找循环 miRNA 来作为乙肝人群中肝癌的标志物。但是不少研究包括了不少晚期病人的样本。如我前面所讲,很多在晚期肿瘤中明显的标志物在早期肿瘤中并不明显。更重要的是大多数研究使用的是癌症诊断后获取的血液样本,这样的研究结果会受到流行病学中所谓的反向因果关联 (reverse causation) 的限制,简单来说就是,我们并不清楚癌症诊断后样本里面标志物的变化到底是癌症的成因还是癌症的后果。

针对这些问题,我们做了一个探索性的前瞻性研究,集中分析了以前文献报道中的 miRNA 在我们收集的部分前瞻性血液样本里面的表达,然后分析了每个 miRNA 和肝癌发生的关联。我们发现只有一部分 miRNA 与肝癌发生有关联,而关联的强度也大多弱于文献里的报导。我们基于这些 miRNA 建立的统计模型的预测能力虽然比临床常用的甲胎蛋白为高,但并不能达到一个令人满意的地步。这个研究进一步验证了使用早期肿瘤样本甚至是临床诊断前样本对于开发癌症早筛技术的重要性。同时也启示我们如果要发展超高准确度的早诊技术,我们很可能需要使用来自不同方面的数据,例如多维组学,来进行整合分析(integrative analysis)。因为每一个维度的数据可能会带给我们独立的,互补的信号。多维数据的整合分析有可能会对早筛技术产生叠加和协同的效用而增加技术的灵敏性和特异性。我们预测 miRNA 很可能会为这种整合分析提供重要的信息。miRNA 确实没有 DNA 稳定,但是由于 miRNA 片段小,其比 mRNA 要稳定的多。我们的经验是,正确提取和保存的 miRNA 可以相对稳定保存较长时间,有相当的研究价值。但是,在实验设计上,需要有所注意来控制批次效应 (batch effect) 和保存时间等混淆因素 (confounding factor) 对结果产生的影响。

4. 您谈到:“大样本量数据的长期回顾,机器深度学习将改变传统基因数据分析的套路”。深度学习作为机器学习中的前沿算法,应用到基因数据分析时,取得了很多进展,也有不少临床医生对此不了解,可否请您举出 1 - 2 个实例介绍下?同时,机器学习所需要已知数据的训练集,您认为如何收集和构建才能提高最后建模的准确率呢?

杨虎山:近年来我和李冰山教授的合作有很大一部分精力集中于基于大数据的机器学习来发展癌症早筛的模型。李教授在这个过程中起着重要的主导作用。近些年机器学习有飞速的发展,特别是深度学习,已经具有在临床上广泛应用的可能。比如深度学习用在海量的皮肤癌的影像数据训练出来的模型可以具有和临床专家一样的诊断及分型的准确度,这是很了不起的。类似的技术很快会用在临床上来辅助诊断,将大大提高医生的效率和准确度。

对于基因组数据的分析,机器学习,特别是深度学习,更多的还处在科研阶段,主要是因为基因组及其复杂,目前我们还没有对基因组的功能有深入的了解。随着基因组学数据不断的产生和积累,深度学习也已经开始显示出它独到的处理海量基因组数据的超强之处。主要的应用之一是来注释我们人类基因组的 30 亿个碱基对功能的影响,来辅助个人全基因组的解读,包括对疾病的预测,诊断,和干预。一个很好的例子就是 Deep Genomics 公司通过深度学习来预测遗传变异对 RNA 剪切的影响以及与相关疾病的关系。现在这些应用更多的是从基因组功能的角度出发,而真正的要达到深度学习在临床上的应用我们需要的是基因组和临床紧密结合的大数据。

在收集和构建这些数据的策略上,我认为我们应该注重以下几点。第一是数据的相关性。如我之前强调,如果做肿瘤早筛,那么早期肿瘤或临床诊断前的数据要有效于中晚期肿瘤的数据。第二是数据的规范性。基因组机器学习的结果得益于大数据的数量,而很多时候基因组的大数据需要从很多不同来源得到。那么如何规范,协调,和整合这些有着不同来源和不同研究目地的数据来控制其中可能产生的干扰因素对于最终的分析结果有直接影响。第三是数据的维度。对于癌症这样一个成因极其复杂的多因素疾病,单一组学的数据不容易达到极高的预测性能。而将多维度的数据整合到一起可能会对发展临床有效的早筛技术起到重要的影响。我们在自己的机器学习技术发展过程中,同时利用了公共数据库和我们自己产生的很多针对早筛研究的特定的 cfDNA 相关的测序数据。两者的结合使我们既充分利用到了海量的公共研究成果,又得益于我们特有的样本和数据,对我们提高预测模型的准确率起到了重要的作用。当然在这个过程中需要考虑计算的复杂性和技术的成本。在首先保证准确率的前提下,随着测序技术和分析手段的进一步发展,这些局限都会逐渐被克服。

5. 欣闻您在 3 月 31 日将来杭州“NGS 创新开发者大会”上做一场精彩的学术报告,可否给读者略微透漏下在大会上您演讲内容的概要呢?

杨虎山:演讲的主要内容是我们使用全基因组 cfDNA 的低频测序来分析临床诊断前和早期肝癌病人的样本而发展的肝癌早筛的统计模型产生的数据。我非常期望在大会上和同行们一起探讨和合作发展癌症早筛的技术,为帮助控制中美两国的癌症发病和死亡率做出我们的贡献。

会议议程抢先看

【会议信息】

会议时间:2017 年 3 月 31 日

会议地点:杭州•梦想小镇

(余杭区良睦路 1399 号 会议厅 19# & 21#)

会议规模:预计 400-500 人

【商务合作】

大会秉持开放的态度,目前尚有为数不多的赞助冠名、礼品赞助、广告赞助、黄金展位等合作机会,欢迎联系!

王女士:180-0588-1839;邮箱:wangx@18weeks.cn

关注微信公众号(bio360),定时推送,福利互动精彩多
60

参与评论

登录后参与评论
 关注生物360微信

关注生物360微信