“硅脑”专家不是梦 机器学习在分子生物学领域大显身手

来源:中国科学报 / 作者:晋楠 / 2017-07-18
0 4 299

在生物技术新兴公司 Zymergen 的一个由 AI 控制的探索生成更多化学物质的菌株中,机器手指正准备挑选微生物菌群。

图片来源:ZYMERGEN/ALBERT LAW PHOTOGRAPHY

如果这是未来的生物学实验室,那么它看起来与今天的实验室似乎并没有什么不同。穿着白大褂的科学家拿着盛有冷冻玻璃管的箱子走过,架子上的化学物质——纯酒精瓶、糖罐、蛋白质和盐是培养和调节微生物的标准物件。如果不是耳朵听到的机械声音,你可能根本不会注意到这里的机器人:它们在风扇的低啸中像蟋蟀一样彼此哼唱着。

这些机器人为生物技术公司 Zymergen 工作,这家公司在 2014 年搬迁到美加州旧金山东海岸一家原电子工厂所在地。这些机器人整日都在进行微生物实验,寻找增加有用化学物质产量的方式。这是一个叫作“回声”的机器人:它位于一堆杂乱的设备中间,一只机械臂抓住一个塑料模块,模块上有数百个细微孔径,其中盛着液体。一束激光扫描了模块旁的一个条形码,然后“回声”将其运到一个托盘上。下一步发生的过程及其细微,用肉眼难以观察到。

“这并非是人们如何动手用吸移管吸移液体的复制品。”该公司共同创始人之一、分子生物学家兼操作及工程副总裁 Jed Dean 说,“这是以完全不同的方式在执行这件事。”机器人无须用吸移管吸收并将数毫升的液体注入到每个孔中(在细胞层面液体量的涨落),且并不会碰触它。相反,一束声波脉冲会以每秒钟 500 次的频率让液体自己泛起涟漪,并形成比人类可转移的液体量小 1000 倍的液滴。

实际上,这些并没有真正未来主义的部分。大型生物实验室使用机器人和条形码已有多年。即便是被称作“声微滴喷射”的液体去除技术也已经存在了数十年。当 Dean 被问到这台机器人通过什么在做实验时,他才透露了一点真相。实际上,这是一个计算机程序输出。

“我想要说清楚的是,这个过程中有一位人类科学家在了解结果和现实,并核查它们。”Zymergen 执行总裁 Joshua Hoffman 解释说。他表示,对于解释数据、生成推论以及计划实验来说,其终极目标是“摆脱人类的主观直觉思维”。

Zymergen 是若干家拥有相同目标的公司之一:利用人工智能(AI)增加或替代科学过程中的人类角色。人们用“AI 驱动的生物技术”来描述这一过程,但 Zymergen 共同创始人对这一说法表示担忧。“‘AI’听起来像是机器人在下象棋。”该公司首席技术官 Aaron Kimball 说,“我觉得‘ML’让人更加舒服。”Hoffman 说,ML 指的是机器学习,即可以解释最近几乎所有 AI 进展的计算科学的分支。“这正是我们正在做的。”

自动化发现

科学是一个序列。日复一日的实验室工作与工厂工作是如此不同。论文来了,启发新的实验,然后产生新的发现,结果又产生新的论文。如此循环。各种各样的公司和研究机构正在拓展基于机器人和 AI 的工具,以增强甚至替代这个过程的每个步骤中人类的角色。

Zymergen 实际上做的是调节可用于生物质燃料、塑料或药物的产业微生物。为了提高产量,一些公司将它们的菌株送到 Zymergen。那里的机器人于是便探索和修复每个微生物的基因组,从而设计出一个使其合成产物更加高效的菌株版本。

Hoffman 表示,问题在于被送到 Zymergen 的微生物已经“高度优化”。经过数年的研究育种之后,这些细胞非常擅长发挥自己的功能。因此,“挤”出更多的效率需要深入探索其基因组、开展实验以及跟踪相关数据,进行科学研究。

Zymergen 正在设法加速这一科学过程。在传统生物学中,Hoffman 表示,“需要一个人站在工作台前测试有限数量的假设。可能每月可测试 10 个假设。”而机器人可以用更快的速度完成这一过程,Zymergen 的机器人每周可以进行多达 1000 个实验。但机器人只能遵循指令:给它们正确的指令是真正的瓶颈所在。

当被问这个算式如何设计实验时,Kimball 提到了一个简单的前提。“比如说你得到了约 5000 个基因的原始微生物,而你改变每个基因的方式有 10 种,这就意味着你要做 5 万个实验。”他说,实验“活动”从制作 1000 个菌株开始,每个菌株都有一个特定的突变。 “每个菌株都生活在一个液滴中。你给它喂糖,然后让它烹饪一会,接下来是测量获得了多少产物。”可能有 25 个菌株会产生略多一些的靶标化学物质。这些菌株将会成为下一轮实验的良种,而其余的则会进入冷冻仓。

机器人定位

这一发现之路绝非坦途。Kimball 说,找到适当的突变结合体需要漫长而艰难的基因“地形”探索之旅。如果只是盲目地朝着效率巅峰走,可能永远不会到达主峰顶点。这是因为如果只是把所有产生小提升的突变结合到一个微生物中,它们加起来可能并不能形成一次大收获。他表示,相反,微生物会“生病”,它们会比原来的菌株性能差得更远。因此,选择正确的道路,包括绕道进入更有潜力的谷地,也需要一张地图从而一次性地展示所有突变效应,这张图不是 3 个维度,而是数千个。因此就需要机器学习确定方位。

这是关键的差异:当机器人最终发现能够提高化学物质产量的基因变化时,它们并不知道其效应背后的生物化学线索。

那么,如果机器人实验并不能加深人们对生物学工作的了解,它是真的科学吗?对于 Kimball 来说,这样的哲学界点可能并不重要。“我们是因为它的工作而得到了收益,并不是因为了解其中的原因而得到了收益。”

到目前为止,Hoffman 说,Zymergen 的机器人实验室已经将制作化学物质的微生物的效率提高了 10% 以上。这样的增加听起来可能不多,但在每年依赖微生物发酵达到 1600 亿美元的化学产业内,一小部分的提升也可以转化为更多的资金,甚至比美国国家科学基金会每年 70 亿美元的预算更多。

而机器人发现的先进遗传变异代表着真正的发现,这些可能是人类科学家并未发现的变异。大多数提高产量的基因并未直接与合成想要的化学物质相关,例如,其中一半并没有为人所知的功能。“我已经在若干不同微生物中发现了这种模式。”Dean 说。不用机器学习找到正确的遗传变异就像尝试打开一个刻度盘上标着数千个数字的保险箱。“人类的直觉很容易被这种复杂性压倒。”他说。

计算机作者?

如果机器真的已经准备好替代人类执行一些科学任务,很多科学家将会拥抱它们。不像工厂工人或是出租车司机,大多数实验科学家会很欢迎让他们的部分工作自动化。在分子和细胞生物学领域尤其如此,因为其中的手工劳动如喷射液体、电镀细胞、计数菌落等都非常繁杂且成本高昂。一名研究生最细微的错误或不精确性都会浪费数周甚至数月的工作。

然而,也有一些生物学家提出了支持 AI 解释数据和设计实验的一些不足之处。“我们发现目前的机器学习方法并不能胜任这一任务。”加州斯坦福大学计算生化学家 Rhiju Das 说,他研究的是分子如何折叠从而设计新的药物。“与获得同样数据的人类相比,它们在 RNA 设计问题上严重落后于人类。”尽管他并不知道这是为什么,但含有“设计”类的任务似乎需要人类的直觉。可能 Zymergen 正巧碰到了非常适应计算机控制的实验的生物学部分。

即便 AI 控制的研究能够起作用,人类是否会理解计算机发现了什么?其结果背后的计算仍是一个“黑匣子”。“一个令人困惑的可能性是我们正在接近‘可理解的’科学时代。”宾夕法尼亚州匹兹堡卡耐基·梅隆大学计算生物学家、与分子生物学家一起工作的 Adrien Treuille 说。研究人员可能不仅会依赖计算机做科学,还包括解释科学:一些生物学理论证据如此复杂,接受它将需要对计算机抱有信心。

在这种情况下,科学家是否应该将其计算机作为论文的共同作者?“我不会这么做。”波士顿将 AI 应用于科学发现的一家公司 Nutonian 的首席执行官 Michael Schmidt 说。但他随后表示:“当计算机能够阅读并理解论文的意思之后,它们自己就可以成为作者。”

关注微信公众号(bio360),定时推送,福利互动精彩多
6

参与评论

登录后参与评论

评论

换一换

广东省的护士可以吗?

这是真的吗?什么时候上市

希望对腺泡状肉瘤有效

期待加等待。

 关注生物360微信

关注生物360微信