用于蛋白质设计的深度学习
二十年前,在西雅图的华盛顿大学,大卫·贝克(David Baker)和他的同事取得了里程碑式的科研成果:他们用计算机工具从头设计了一个全新的蛋白质——Top7。这条蛋白质以预测的结构折迭,但它是惰性的,没有任何有意义的生物学功能。如今从头蛋白质设计(de novo protein design)已经非常成熟,成为可以用于定制酶和其他蛋白质的实用工具。华盛顿大学的生物化学家尼尔·金(Neil King)表示“这个技术太强大了”,他和贝克的科研团队合作,正在设计基于蛋白的疫苗和药物递送载体。“一年半以前很多不可能实现的事情,现在完全不是什么难事。”
这些进步大部分得益于越来越海量的数据集,可以用它把蛋白质序列和结构联系起来。事实上,成熟的深度学习也是不可或缺的。
“基于序列”的蛋白质设计使用了大语言模型,这一模型也使得聊天机器人ChatGPT等工具的出现成为可能。如果把多肽看作“文字”,而蛋白序列是由这些“文字”组成的文件,算法通过学习真实世界中蛋白质的结构,可以识别出其中蕴含的模式。巴塞罗那分子生物学研究所的蛋白质生物化学家诺埃利亚·费鲁兹(Noelia Ferruz)表示:“它们真的学会了背后隐藏的语法”。2022年,她的团队研发了一个被称作ProtGPT2的算法,这一算法能持续设计许多合成蛋白,经过试验验证,这些蛋白质可以稳定折叠[1]。此外,费拉兹还参与研发了另一个叫做ZymCTRL的工具,它能学习蛋白序列和功能的数据,进而基于研究需求设计出不同于天然酶的人工酶[2]。
ChatGPT?明年再说吧
在今年各项备受瞩目的技术中,各位读者或许注意到了一个共同主题:深度学习的巨大影响。但是,一个同样运用深度学习的工具最终并未进入本年度榜单,那就是大受吹捧的人工智能聊天机器人。ChatGPT和同类似乎已经准备好参与许多科研工作者的日常工作,在《自然》杂志的2023年度10大人物榜单中,也可见到ChatGPT的身影(见go.nature.com/3trp7rg)。2023年9月,《自然》进行了一项问卷调查,受访者们认为ChatGPT是最有用的AI工具,并对它在编程、文献综述和管理工作方面的潜能表示乐观。
除此之外,这类工具可以帮助非英语母语人士润色文章,为他们的文章发表和职业发展铺平道路,对于提升科研公平大有助益。然而,它们的用处多体现为省时省力,并不能转变科研过程。此外,超过三分之二的受访者最担心的问题是,ChatGPT总会给出误导性的答案,甚至编造答案。尽管它们确实值得关注,但还需要时间去完善,才能真正在科研领域广泛应用。
基于序列的方法可以基于已有蛋白质的特征,进行改造并构建新的框架。但是,在定制蛋白的结构元素或特征(如以可预测的方式与特定靶标结合的能力)方面,就没那么好用了。对于这类情况,“基于结构”(structure-based)的设计方法更加有效,在2023年这一方法也取得了令人瞩目的进展。其中最为成熟的一些方法运用了“扩散”(diffusion)模型,这类模型也是DALL-E等图形生成工具的基础。这些算法先是被训练从大量真实蛋白质结构中去除由计算机生成的噪音(noise),当它们能成功对真实的结构元素和噪音进行分辨,它们就可以构建出满足用户需求同时又符合生物学原理的蛋白结构。
贝克实验室研发的RFdiffusion软件[3]和位于美国马萨诸塞州萨默维尔市的Generate Biomedicines研发的Chroma[4]正是运用这种策略,并取得了显著的进展。例如,贝克的团队正在用RFdiffusion设计全新的蛋白质,这种蛋白能和目标靶点紧密结合,贝克说,那将是“能与靶点表面完美吻合”的设计。而新一代的“全原子”版本RFdiffusion[5],让用户可以用计算机设计出能够结合DNA、小分子甚至是金属离子等非蛋白靶点的蛋白质。而这些随之而来的多功能性,为酶、转录调节因子、功能性生物材料和其他物质的工程设计带来了全新的可能性。
深度伪造检测
可公开获取的生成式AI算法所取得的爆发式发展,让我们能轻松合成足够以假乱真的图片、音频和视频。尽管生成的内容可以娱乐大众,但是,在地缘政治冲突频发和美国总统选举即将来临的情况下,通过操纵社交媒体,将其当作武器来互相攻击的例子屡见不鲜。
吕思伟(Siwei Lyu)是纽约水牛城大学的计算机科学家,他说,已经见到大量与以色列-哈马斯冲突相关的由AI生成的“深度伪造”图像和音频。而这只不过是一场高风险猫鼠游戏里的最新一轮而已,在这场游戏中,AI用户生成欺骗性的内容,吕思伟和其他媒体取证专家则致力于发现并拦截这些内容。
一种解决方案是,生成式AI研发人员在这些模型输出的结果中嵌入隐藏信号,为AI生成的内容打上水印。其他方案则侧重于内容本身。吕思伟表示,例如一些经过伪造的视频将某公众人物的面部特征替换成另一个人的面部特征,而新算法可以在所替换特征的边缘识别出人工的痕迹。一个人外耳的独特褶皱能提示面容和头部并非来自同一个人,而在一些对口型视频中,当事人的嘴巴被数字化处理,说出一些他并未说过的话,牙齿的异常就可以起到提示作用。AI生成的照片不仅识别起來相当棘手,还像“活靶”一样不断变化。2019 年,意大利那不勒斯费德里科二世大学的媒体取证专家路易莎·韦尔多利瓦(Luisa Verdoliva)协助开发了FaceForensics++,可以识别几款常用软件伪造的面孔[6]。但图像取证方法往往适用于特定对象和软件,如何将它们通用化是个挑战。韦尔多利瓦说,“不存在一个通用的检测器——这非常困难”。
此外,如何实施检测也是个挑战。美国国防部高级研究计划局的“语义取证”(Semantic Forensics)计划已经开发了一个用于深度伪造分析的实用工具箱,但正如《自然》杂志所报道的那样(见Nature 621, 676–679; 2023),各大社交媒体网站并没有常规使用这一工具。而扩大使用范围将会有助于抓取更多数据,为此,吕思伟团队开发了DeepFake-O-Meter[7]。这是一个中心化的公共算法库,可以从不同角度分析视频内容,从而识别出深度伪造的内容。这些资源将会起到很大作用,但在未来数年内,我们很可能仍要和AI生成的错误信息继续斗争。
大片段DNA插入
2023 年底,美国和英国的监管机构首次批准了基于 CRISPR 的基因编辑疗法,用于治疗镰状细胞病和输血依赖型β地中海贫血,这是基因组编辑作为临床治疗手段取得的重大胜利。
CRISPR 及其衍生技术使用可编辑的短链RNA,将Cas9等DNA内切酶引导到特定的基因组位点。它们是实验室研究中的常规手段,用于关闭有缺陷的基因并引入微小的序列变化。精确、程序化地插入跨越数千个核苷酸的较大DNA序列非常困难,但新兴技术或能让科学家替换有缺陷基因的关键片段或插入功能完全正常的基因序列。加利福尼亚州斯坦福大学的分子遗传学家丛乐(Le Cong)和同事们正在研究单链退火蛋白(SSAPs)——一种病毒来源的分子,可以介导 DNA 重组。与去除了Cas9的DNA剪切功能的CRISPR-Cas系统相结合时,这些SSAPs就能将长达2千个碱基对的DNA片段精准插入人类基因组。
其他方法则借助了先导编辑(prime editing),这是一种基于CRISPR的方法,来引入充当“着陆垫”的短序列。这些序列可以选择性地招募酶,进而将大片段DNA精准拼接到基因组中。例如,2022 年,麻省理工学院的基因组工程师奥马尔·阿布达耶(Omar Abudayyeh)、乔纳森·古腾伯格(Jonathan Gootenberg)和他们的同事,首次描述了通过特定位点靶向元件进行编辑插入的方法(PASTE)。这种方法可以精确插入长达3万6千个碱基对的 DNA大片段[8]。丛乐说,PASTE特别适用于对体外培养的病人细胞进行修饰,而且作为PASTE基础的先导编辑技术已经开展临床研究。但若是在人体内进行细胞修饰,SSAP也许能提供一种更加简洁的方案:PASTE需要三种不同的病毒载体来递送,与由两部分组成的SSAP系统相比,是个较为笨重的系统,而这可能会影响其编辑效率。尽管如此,即便是效率相对较低的基因置换策略也足以减轻许多遗传病的症状。
事实上,这种方法并不只是对人类健康有重大意义。中国科学院的高彩霞研究团队开发出了PrimeRoot,这种方法也借助了先导编辑将酶引导至特定靶点,进而插入长达2万个碱基对的DNA片段,这已在水稻和玉米中成功应用[9]。高彩霞认为,这项技术可广泛应用于农作物,让其具有抗病和抗病原体能力,持续推动基于CRISPR的植物基因组编辑的创新浪潮。她说,“我相信这项技术最终可以应用于任何一种植物”。
脑机接口
帕特·贝内特(Pat Bennett)的语速比一般人慢,有时还会用词不当。但考虑到运动神经元疾病*曾一度让她无法用说话来表达自己,如今这样已经是相当大的进步。
*译注:又称肌萎缩性嵴髓侧索硬化症(ALS),即大众俗知的渐冻症,初始症状通常包括手臂或腿部肌肉抽搐和无力、吞咽困难或言语不清,最终会导致无法控制移动、说话、进食和呼吸所需的肌肉。
贝内特的康复得益于一款先进的脑机接口设备,由斯坦福大学的神经科学家弗朗西斯·威利特(Francis Willett)和他在美国BrainGate研发集团的同事所开发[10]。威利特和同事在贝内特的大脑中植入电极以追踪神经元活动,然后训练深度学习算法将这些信号转化为语言。经过几周的训练,贝内特每分钟能说出多达62个单词,而这一设备的词汇量高达12.5万——是一般英语使用者词汇量的两倍多。生物工程师詹妮弗·科林格(Jennifer Collinger)在宾夕法尼亚州匹兹堡大学进行BCI技术研发,她说:“他们交流的速度实在是太惊人了”。
过去几年除了BrainGate的试验,还有其他几项研究,这些研究证明了BCI技术可以帮助有严重神经损伤的患者,让他们重新获得失去的技能,从而减轻对旁人的依赖。利·霍赫伯格(Leigh Hochberg)是布朗大学的神经学家,同时也是BrainGate的负责人。他说,其中一些进展源于我们对各类神经疾病患者大脑的功能神经解剖学知识的不断积累。他也补充道,机器学习所驱动的分析方法极大地拓宽了这些知识,这将持续揭示如何才能更好地放置电极,以及如何更好地解码电极所采集到的信号。
此外,研究人员还在应用基于人工智能的语言模型来加快解读患者试图表达的内容——本质上就是大脑的“自动补全”。这是威利特研究的核心内容,也是加州大学旧金山分校神经外科医生爱德华·张(Edward Chang)领导的团队的另一项研究的核心内容[11]。在这项研究中,BCI神经假体让一位因中风而无法说话的妇女以每分钟78个单词的速度进行交流——大约是英语使用者平均说话速度的一半,但比她以前使用的语言辅助设备快了五倍多。该领域在其他方面也取得了进展。2021 年,科林格和美国匹兹堡大学的生物医学工程师罗伯特·高特(Robert Gaunt)将电极植入一名四肢瘫痪者的运动和躯体感觉皮层,让他能够快速、精确地控制带有触觉反馈的机械臂[12]。此外,BrainGate和荷兰乌德勒支大学医学中心正在各自开展独立的临床研究,位于纽约布鲁克林的BCI公司Synchron也在测试一个能让瘫痪者控制计算机的系统——这是首个工业界出资的BCI仪器临床试验。
作为一名重症监护专家,霍赫伯格迫切希望将这些技术带给残障情况最为严重的病人。随着BCI功能不断发展,他看到了它在治疗中度认知障碍以及情绪障碍等精神疾病中的潜力。他说:“基于脑机接口的闭环神经调节系统可以为很多人提供极大的帮助”。
超分辨率成像技术
2014年,斯特凡·黑尔(Stefan Hell)、埃里克·贝齐格(Eric Betzig)和威廉·莫纳(William Moerner)因打破了限制光学显微镜空间分辨率的“衍射极限”(diffraction limit),共同获得了诺贝尔化学奖。随之而来的纳米级精确视角,为分子尺度成像实验开辟了广阔的前景。尽管如此,一些研究人员仍期待获得更好的成像效果——并且他们正取得飞速进展。拉尔夫·容曼(Ralf Jungmann)是德国普拉内格马克斯·普朗克生物化学研究所纳米技术研究员,在谈到一种在原子级分辨率之上重建蛋白的方法时,他说:“我们正在努力缩小超分辨率显微镜与冷冻电镜等结构生物学技术之间的差距”。
2022年底,黑尔以及他在哥廷根马克斯·普朗克多学科科学研究所的团队首次涉足了这一领域。他们采用的方法名为MINSTED,利用专门的光学显微镜,这种方法能以2.3埃*(约四分之一纳米)的精度分辨单个荧光标签[13]。
*译注:埃斯特朗,简称埃,符号Å,是一个长度计量单位,一埃是十分之一纳米(即1 Å = 10–10 m= 0.1 nm)。
一些新方法则利用传统显微镜实现了与之相当的分辨率。例如,容曼和他的团队在 2023 年描述了一种方法[14],用独特的DNA链标记单个分子,然后用染料标记的互补DNA链检测这些分子,这些 DNA 链会瞬时与对应目标结合并不断重复这一过程,这样就可以分辨出单个荧光“闪烁”点。假如对这些分子同时成像,萤光点往往会模糊成一团。而这种序列成像分辨率增强法(RESI)可以分辨出DNA链上的单个碱基对,用常规荧光显微镜呈现出了埃级的分辨率。
RESI
—
Max Iglesias, Max Planck Institute of Biochemistry
德国哥廷根大学医学中心神经科学家阿里·沙伊布(Ali Shaib)和西尔维奥·里佐利(Silvio Rizzoli)领导的团队开发了“一步纳米级扩展”(ONE)显微镜技术,虽然还不能达到上述的高分辨率,不过,前所未有的是,ONE显微镜做到了直接对单个蛋白质和多蛋白复合物的精细结构进行成像[15],不仅是分离纯化的蛋白,还可应用于胞内蛋白质。
ONE基于膨胀显微成像技术,将样品中的蛋白质与水凝胶基质进行化学耦合,再将蛋白质酶解,随后让水凝胶的体积膨胀到1000倍。蛋白碎片因此在各个方向上被均匀拉伸,既保留了蛋白质结构,又让使用者能够使用常见共聚焦显微镜,分辨出原本仅仅相隔几纳米的特征。在谈到蛋白质的特征形状时,里佐利说:“我们提取抗体,将它们放入凝胶中,在膨胀后对它们进行标记,结果发现,‘哇——可以看到Y形状!’”
里佐利说,ONE显微镜技术可以帮助人们深入了解呈现动态构象的生物分子,或是通过血液样本对帕金森病等蛋白质错构疾病进行可视化诊断。容曼同样对RESI的潜力充满激情。它可以用来记录疾病或药物治疗过程中单个蛋白质重组,甚至有可能放到更小的范围。“也许这还不是空间分辨率极限的终点”,容曼说,“还可以更进一步。”
细胞图谱
如果你想就近找一家咖啡馆,谷歌地图可以找到附近的门店,并告诉你该怎么走。人体的地形则要复杂得多,目前还没有能与之相媲美的导航体统。不过,在单细胞分析和“空间组学”方法的推动下,各种细胞图谱计划正在取得进展,将很快为生物学家带来他们渴望已久的跨组织细胞图谱。
在这些计划中,规模最大的——或许也是最具野心的——是人类细胞图谱(Human Cell Atlas)。2016年,英国辛克斯顿维康桑格研究所的细胞生物学家莎拉·泰克曼(Sarah Teichmann)和加利福尼亚州南旧金山的生物技术公司基因泰克的研究与早期开发部负责人阿维夫·雷格夫(Aviv Regev)共同发起了该项联合计划。该项目组大约有3000名科学家,他们来自近100个国家,研究对象则是来自1万名捐献者的组织。不过,细胞图谱和分子图谱的相互交叉构成了一个巨大的生态系统,人类细胞图谱只是其中的一部分。人类生物分子图谱计划(HuBMAP)和通过推进创新神经技术进行大脑研究® (BRAIN) 倡议的细胞普查联盟(BICCN)也隶属于其中,这两个计划均由美国国立卫生研究院资助。此外,还有由华盛顿州西雅图市艾伦研究所资助的艾伦脑细胞图谱(Allen Brain Cell Atlas)。
据斯坦福大学基因组学家、HuBMAP指导委员会前联合主席迈克尔·斯奈德(Michael Snyder)所说,通过开发能够在单细胞水平解读分子内容的分析工具,并将这些技术快速商业化,这在一定程度上为图谱工作的开展提供了基础。例如,斯奈德的团队常规使用加州普莱森顿10X Genomics公司的Xenium 平台,进行空间转录组学分析,该平台每周可以同时检测 4 个组织样本中约400个基因的表达。而多重抗体方法能在单细胞层面追踪大量蛋白质,例如马萨诸塞州马尔伯勒的Akoya生物科学公司所开发的PhenoCycler平台。研究者可使用其生成的数据重建组织的三维结构。此外,其他的“多组学”方法让科学家能够同时分析同一细胞中的多种不同分子,包括RNA的表达、染色质的结构和蛋白质的分布。
借助这些技术,2023年有数十项研究公布了他们在器官特异性细胞图谱方面所取得的进展。例如,人类细胞图谱在6月份发布了对人类肺部49个数据集的综合分析[16]。泰克曼说:“有了这个非常清晰的肺部图谱,我们就能了解肺纤维化、各类肿瘤,甚至是COVID-19等疾病中发生的变化”。2023年,《自然》杂志发布了一篇文章(见go.nature.com/3vbznk7),重点介绍了HuBMAP取得的进展,《科学》杂志也发文详细介绍了BICCN的工作(见go.nature.com/3nsf4ys)。
目前人类细胞图谱还有大量工作需要完成,根据泰克曼的估计,至少需要五年时间。但是,一旦完全绘制出来,这将是无价之宝。例如,泰克曼预测未来可以利用图谱数据,来指导组织和细胞特异性药物靶向。斯奈德则迫切希望了解,对于癌症和肠易激综合征等复杂疾病,细胞微环境会如何提示疾病风险和病因。“这个问题能在2024年解决吗?我认为不大可能——回答这一问题还需要经年累月的努力”,斯奈德说,“但它是整个领域的巨大驱动力”。
3D打印纳米材料
纳米尺度有时会发生奇怪而有趣的事情。这可能会给材料科学的预测带来困难,但也意味着纳米级建筑师可以制造出具有独特特性的轻质材料,如更高的强度、与光或声音发生特定反应,以及更强的催化或储能能力。
目前有很多方法用以精确制造这类纳米材料,其中大部分都是使用激光来引发光敏材料的“光聚合”(photopolymerization)成型。这些方法的广泛使用存在许多阻碍,过去几年中,科学家们在克服这些阻碍方面取得了长足的进步。
其中之一便是速度。亚特兰大佐治亚理工学院的工程师苏拉布·萨哈(Sourabh Saha)说,与其他纳米级3D打印方法相比,使用光聚合法组装纳米结构的速度大约快三个数量级。这对于实验室使用来说可能已经足够,但对于大规模生产或工业加工来说还是太慢。2019 年,萨哈和香港中文大学的机械工程师陈世祈(Shih-Chi Chen)及其同事表示,他们可以通过使用图案化的二维光片(patterned 2D light-sheet)而不是传统的脉冲激光来加速聚合反应[17]。萨哈说,“这样一来,聚合速度就提高了一千倍,而且还能保持100纳米尺度的材料特征”。包括陈世祈在内的研究人员在随后的工作中建立了更快实现纳米制造的其他方法[18]。
另一项挑战是,并非所有材料都能通过光聚合反应直接打印,例如金属。不过,位于美国帕萨迪纳的加州理工学院材料科学家茱莉亚·格里尔(Julia Greer)巧妙地开发出另一种方法。2022 年,她和她的同事描述了一种方法,在这种方法中,光聚合水凝胶可用作微尺度模板;然后在这些模板中注入金属盐并进行处理,从而诱导金属在收缩的同时形成模板结构[19]。虽然这项技术最初是针对微尺度结构开发的,但格里尔团队也将这种策略用于纳米制造,研究人员十分期待未来利用坚固耐用的高熔点金属和合金,来制造出功能性纳米结构。
最后一个障碍可能是最难突破的——经济适用性。根据萨哈的说法,许多光聚合方法中使用的脉冲激光系统成本高达50万美元以上。但是,更便宜的替代品正在不断涌现。例如,德国卡尔斯鲁厄理工学院的物理学家马丁·韦格纳(Martin Wegener)和同事们研究出了连续激光器。这种激光器比标准脉冲激光器更便宜、更紧凑、耗电更少[20]。并且,格里尔已经成立了一家公司,旨在将制造纳米结构金属板的工艺商业化,这种金属板或可用于制造下一代人体装甲或飞机和其他运输器的超耐用抗冲击外层等。