原创 让你更懂AI的 2025-11-04 13:21 北京
把天然片段拉进词表,像乐高一样拼蛋白
基于功能的蛋白质设计任务(function-guided protein design)旨在根据功能描述或关键词,生成符合的蛋白质序列。其核心挑战在于,如何确保从蛋白质序列庞大空间中设计的序列既满足给定功能,也能正确折叠成稳定的 3D 结构(即可折叠性好)。
近年来,蛋白质语言模型(PLMs)在该任务上展现了巨大潜力,可以根据上下文描述以氨基酸为词元生成符合功能的全新蛋白质序列。但是,PLMs 面临两个核心挑战:
1. 20 种标准氨基酸(以及分词器自动切分的连续片段)构成的词元缺乏明确的生物学意义;
2. 解码生成的蛋白质序列虽然符合给定功能,但可折叠性差。
现代生物信息学既存在 SwissProt [1] 等经过大规模专家标注且湿实验实证的蛋白质数据库,也存在 InterPro [2][3] 等工具能够提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白质片段(IPR30659)已被实证为一个 SecY 保守位点(conserved site)。
受传统蛋白质设计借鉴已知天然结构的启发,来自华东师范大学、复旦大学、中国电信人工智能研究院(TeleAI)的研究团队提出了一个新问题:PLMs 能否在设计过程中充分利用天然蛋白质功能片段来得到功能易满足、结构更合理的新蛋白质?
LLMs 动态词表生成技术 [4] 首先将任意短语表征嵌入静态词表的语义空间,然后在每个解码时刻自由选择生成词元(对应氨基酸 Token)或一整个短语(对应天然功能片段)。
结合该技术,本文提出了新型 PLM 架构 ProDVa,根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。
论文标题:
Protein Design with Dynamic Protein Vocabulary
论文地址:
https://arxiv.org/pdf/2505.18966
GitHub地址:
https://github.com/sornkL/ProDVa
作者首先通过一个简单实验验证核心直觉:蛋白质由 20 种标准氨基酸组成,其中连续的功能子序列(如结构域、活性位点等)被称为片段(fragment),它们往往决定结构与功能。
实验发现,即便将天然蛋白质片段随机插入到随机生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布与可折叠性上均显著优于完全随机生成(Random)。
▲ (a) 不同方法生成的蛋白质在ESM C embedding空间中的UMAP可视化,灰色表示天然蛋白质的分布。(b) pLDDT (predicted Local Distance Difference Test)性能对比,该指标衡量单个残基局部结构的预测准确度。 (c) PAE (Predicted Aligned Error)性能对比,该指标评估不同残基之间相对位置的预测准确度。黄色散点(Random+)比红色散点(Random)分布更广,更接近天然蛋白质,且在结构评估指标上表现显著更好。
这有力证明了:采用天然片段协助设计极具潜力。进一步,在实际应用中,如何按照用户需要,有目的地选择和拼接这些天然片段,是 ProDVa 关注的核心问题。
蛋白质动态词表实现智能组装
为了实现对蛋白质片段的智能组装,ProDVa 包含三个核心组件:
1. 文本语言模型 (Text Language Model):理解用户输入的自然语言功能描述。
2. 蛋白质语言模型 (Protein Language Model):根据输入功能描述,自回归地设计氨基酸序列。
3. 片段编码器 (Fragment Encoder):理解天然蛋白质片段的表示。
核心创新在于蛋白质动态词表(Dynamic Protein Vocabulary)。传统 PLMs 的词表仅含 20 种标准氨基酸或分词器自动切分的连续片段,而 ProDVa 在生成时可动态引入由天然片段组成的临时词表。推理流程如下:
1. 根据功能描述,从支持文档库检索最相似的 K 个蛋白质;
2. 提取其中的功能片段形成任务相关的候选集;
3. 生成时,模型可在每一步选择生成单个氨基酸 Token,或直接生成一个完整片段。
为让模型正确使用片段,训练中引入三个目标:
1. 下一个 Token/片段预测:保证序列生成连贯;
2. 片段类型预测:区分结构域、活性位点等类型,让编码器理解片段的生物学意义;
3. 片段描述匹配:通过对比学习,使片段表示与功能描述在向量空间中对齐。
实验结果
在基于功能关键词和复杂文本描述的两类蛋白质设计任务中,ProDVa 均表现优异:
1. 结构可折叠性显著提升:与SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味着生成的蛋白质更可能折叠成稳定的 3D 结构。
2. 高效的数据利用能力:在功能对齐性能几乎不损失(ProTrek Score 差0.1%)的情况下,训练数据量仅为 Pinal 的 0.04%(约 71.2 万对),显著降低训练成本。
3. 通用性强:在无条件生成任务中,同样优于所有基线,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。
总结与展望
本文提出了“蛋白质动态词表”这一新机制,将深度生成模型与天然蛋白质片段的结构先验相结合,在基于功能的蛋白质设计任务中显著提升了结构可折叠性,同时保持高功能对齐度。
相比现有 SOTA 模型,ProDVa 在仅使用 0.04% 训练数据的情况下,几乎不降低功能对齐性能,却能生成更多可稳定折叠的蛋白质序列。
当然,当前所有评估方法都是使用计算机模拟的指标进行衡量,尚未通过湿实验验证其是否真的能在生物体内发挥预想的功能。我们期待未来更多跨领域合作推动其落地与验证。
参考文献
[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.
[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.
[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.
[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
