科学家创建了一个能够从头开始生成人造酶的人工智能(AI)系统。在实验室测试中,尽管人工生成的氨基酸序列与任何已知的天然蛋白质存在显著差异,但其中一些酶与自然界中发现的酶一样有效。相关研究成果1月26日发表于《自然-生物技术》。
图片来源:IAN C. HAYDON
该实验表明,虽然自然语言处理是为读写语言文本开发的,但至少可以学习一些生物学的基本原理。Salesforce Research公司开发了名为ProGen的AI程序,使用下一代标记预测将氨基酸序列组装成人造蛋白质。
科学家表示,这项新技术可能比获得诺贝尔奖的蛋白质设计技术——定向进化更为强大,它将加速新蛋白质的开发,为已有50年历史的蛋白质工程领域注入活力。这些新蛋白质几乎可以用于从疾病治疗到降解塑料的任何领域。
“人工设计的性能比受进化过程启发的设计表现得更好。”该研究作者之一、美国加州大学旧金山分校药学院生物工程和治疗科学教授James Fraser表示,语言模型正在学习进化的各个方面,但它不同于正常的进化过程。“我们现在能够针对特定效果调整这些属性的生成,例如非常耐热或喜欢酸性环境,不会与其他蛋白质相互作用的酶。”
为了创建这个模型,科学家只需将2.8亿种不同蛋白质的氨基酸序列输入机器学习模型,并让它在几周内消化信息。然后,他们使用来自5个溶菌酶家族的56000个序列,以及有关这些蛋白质的上下文信息对模型进行微调。
该模型迅速生成了100万个序列。研究团队根据它们与天然蛋白质序列的相似程度,以及AI蛋白质的潜在氨基酸“语法”和“语义”的自然程度,选择了100个序列进行测试。