关闭引导
上海交大发布蛋白质设计模型“Venus”,助力阿尔兹海默等疾病的诊断
2025-03-22 16:56:46
广州日报新花城

提起蛋白质,你会想到什么?肉、蛋、奶,这些食物中含有丰富的蛋白质,可以为人们提供身体所需的营养。但天然的蛋白质难以发挥这些功能,需要对蛋白质的功能进行设计和改造,才能使它成为满足应用需求的产品。然而,这并不是一件容易的事——一款功能过硬的蛋白质产品的诞生,通常需要丰富的专家经验配合数以万计的实验试错,长期以来,蛋白质设计改造的时间长、成本高、试错密集问题,一直是业界难题。

3月22日,上海交通大学洪亮教授团队发布最新成果,使这些问题迎刃而解。团队将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。


洪亮团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。

该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。

这些数据意味着什么?洪亮表示,首先该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展;其次,AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,为AI设计优异的蛋白质产品提供了宝贵的学习资料。

“我们训练了Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示。

同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。其宗旨就是“设计AI化,实验自动化”,让科研人员从繁琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题,最终将复杂的蛋白质科学发现变成“傻瓜相机式”的简单过程。

值得一提的是,该成果配合行业领先的自动化设备,已经进行产业化落地,把蛋白质设计从原先的“复杂科学”变为如今的“简单工程”。

以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到1年将普通单域抗体耐碱性提升4倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次 5000 升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。

另一项Venus系列模型的创新应用则是对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。Venus 系列模型成功优化 ALP,使其分子活性超国际头部公司产品3倍,为超敏检测诊断(如心肌梗塞、阿尔兹海默病)带来巨大价值。目前,改造后的 ALP 已进入 200L 规模放大生产阶段,标志着 Venus 系列模型成功实现产业转化。

 

文/广州日报新花城记者:李晓璐 通讯员:符云霞 江倩倩

广州日报新花城编辑:贺涵甫

浏览量:
@新花城 版权所有 转载需经授权