PaperWeekly 15小时前
蛋白质设计新方法:动态词表融合天然片段
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

蛋白质设计旨在生成满足特定功能的蛋白质序列,并确保其稳定性。华东师范大学等研究团队提出了ProDVa模型,利用“蛋白质动态词表”技术,在设计过程中动态引入天然蛋白质功能片段。该方法通过将标准氨基酸词元与经过生物学验证的天然片段结合,显著提升了生成蛋白质的结构可折叠性,同时保持了高功能对齐度。ProDVa在极少训练数据的情况下,表现优于现有SOTA模型,为高效、稳定的蛋白质设计开辟了新途径,但仍需湿实验验证。

🧬 **蛋白质动态词表提升可折叠性**:ProDVa模型创新性地引入“蛋白质动态词表”,允许在蛋白质序列生成过程中动态地集成已知的天然蛋白质功能片段。这种方法借鉴了生物学中蛋白质由功能模块拼接的原理,通过实验证明,即使是随机插入天然片段也能显著提高蛋白质序列的自然分布和可折叠性,为设计出结构更稳定的蛋白质提供了关键思路。

🧩 **智能组装天然片段**:ProDVa通过文本语言模型理解用户功能需求,并利用蛋白质语言模型和片段编码器,从蛋白质数据库中检索相关功能片段,构建任务相关的候选集。在生成过程中,模型可以选择生成单个氨基酸或完整的天然片段,实现了对功能片段的智能选择和拼接,从而更精确地满足设计目标。

📊 **高效且通用**:ProDVa在实际应用中展现出卓越的数据利用效率和通用性。相较于现有SOTA模型,它在功能对齐性能几乎不损失的情况下,训练所需数据量大幅减少(仅为SOTA模型的0.04%),显著降低了训练成本。此外,在无条件生成任务中,ProDVa同样表现出色,大幅提升了生成蛋白质的可折叠性指标,证明了其方法的普适性。

🔬 **未来展望与挑战**:尽管ProDVa在模拟评估中表现优异,显著提高了蛋白质的可折叠性和设计效率,但其最终的生物学功能仍需通过湿实验(wet lab experiments)进行验证。未来的工作将聚焦于跨领域合作,将这一计算工具应用于实际生物体,以实现其在生物医学等领域的落地应用。

原创 让你更懂AI的 2025-11-04 13:21 北京

把天然片段拉进词表,像乐高一样拼蛋白

基于功能的蛋白质设计任务(function-guided protein design)旨在根据功能描述或关键词,生成符合的蛋白质序列。其核心挑战在于,如何确保从蛋白质序列庞大空间中设计的序列既满足给定功能,也能正确折叠成稳定的 3D 结构(即可折叠性好)。

近年来,蛋白质语言模型(PLMs)在该任务上展现了巨大潜力,可以根据上下文描述以氨基酸为词元生成符合功能的全新蛋白质序列。但是,PLMs 面临两个核心挑战:

1. 20 种标准氨基酸(以及分词器自动切分的连续片段)构成的词元缺乏明确的生物学意义;

2. 解码生成的蛋白质序列虽然符合给定功能,但可折叠性差。

现代生物信息学既存在 SwissProt [1] 等经过大规模专家标注且湿实验实证的蛋白质数据库,也存在 InterPro [2][3] 等工具能够提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白质片段(IPR30659)已被实证为一个 SecY 保守位点(conserved site)。

受传统蛋白质设计借鉴已知天然结构的启发,来自华东师范大学、复旦大学、中国电信人工智能研究院(TeleAI)的研究团队提出了一个新问题:PLMs 能否在设计过程中充分利用天然蛋白质功能片段来得到功能易满足、结构合理的新蛋白质?

LLMs 动态词表生成技术 [4] 首先将任意短语表征嵌入静态词表的语义空间,然后在每个解码时刻自由选择生成词元(对应氨基酸 Token)或一整个短语(对应天然功能片段)。

结合该技术,本文提出了新型 PLM 架构 ProDVa,根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。

论文标题:

Protein Design with Dynamic Protein Vocabulary

论文地址:

https://arxiv.org/pdf/2505.18966

GitHub地址:

https://github.com/sornkL/ProDVa

思路验证:天然片段是提升结构稳定性的关键

作者首先通过一个简单实验验证核心直觉:蛋白质由 20 种标准氨基酸组成,其中连续的功能子序列(如结构域、活性位点等)被称为片段(fragment),它们往往决定结构与功能。

实验发现,即便将天然蛋白质片段随机插入到随机生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布与可折叠性上均显著优于完全随机生成(Random)。

▲ (a) 不同方法生成的蛋白质在ESM C embedding空间中的UMAP可视化,灰色表示天然蛋白质的分布。(b) pLDDT (predicted Local Distance Difference Test)性能对比,该指标衡量单个残基局部结构的预测准确度。 (c) PAE (Predicted Aligned Error)性能对比,该指标评估不同残基之间相对位置的预测准确度。黄色散点(Random+)比红色散点(Random)分布更广,更接近天然蛋白质,且在结构评估指标上表现显著更好。

这有力证明了:采用天然片段协助设计极具潜力。进一步,在实际应用中,如何按照用户需要,有目的地选择和拼接这些天然片段,是 ProDVa 关注的核心问题。

蛋白质动态词表实现智能组装

为了实现对蛋白质片段的智能组装,ProDVa 包含三个核心组件:

1. 文本语言模型 (Text Language Model)理解用户输入的自然语言功能描述。

2. 蛋白质语言模型 (Protein Language Model)根据输入功能描述,自回归地设计氨基酸序列。

3. 片段编码器 (Fragment Encoder)理解天然蛋白质片段的表示。

核心创新在于蛋白质动态词表(Dynamic Protein Vocabulary)。传统 PLMs 的词表仅含 20 种标准氨基酸或分词器自动切分的连续片段,而 ProDVa 在生成时可动态引入由天然片段组成的临时词表。推理流程如下:

1. 根据功能描述,从支持文档库检索最相似的 K 个蛋白质;

2. 提取其中的功能片段形成任务相关的候选集;

3. 生成时,模型可在每一步选择生成单个氨基酸 Token,或直接生成一个完整片段。

为让模型正确使用片段,训练中引入三个目标:

1. 下一个 Token/片段预测保证序列生成连贯;

2. 片段类型预测区分结构域、活性位点等类型,让编码器理解片段的生物学意义;

3. 片段描述匹配通过对比学习,使片段表示与功能描述在向量空间中对齐。

实验结果

在基于功能关键词和复杂文本描述的两类蛋白质设计任务中,ProDVa 均表现优异:

1. 结构可折叠性显著提升与SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味着生成的蛋白质更可能折叠成稳定的 3D 结构。

2. 高效的数据利用能力在功能对齐性能几乎不损失(ProTrek Score 差0.1%)的情况下,训练数据量仅为 Pinal 的 0.04%(约 71.2 万对),显著降低训练成本。

3. 通用性强:在无条件生成任务中,同样优于所有基线,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。

总结与展望

本文提出了“蛋白质动态词表”这一新机制,将深度生成模型与天然蛋白质片段的结构先验相结合,在基于功能的蛋白质设计任务中显著提升了结构可折叠性,同时保持高功能对齐度。

相比现有 SOTA 模型,ProDVa 在仅使用 0.04% 训练数据的情况下,几乎不降低功能对齐性能,却能生成更多可稳定折叠的蛋白质序列。

当然,当前所有评估方法都是使用计算机模拟的指标进行衡量,尚未通过湿实验验证其是否真的能在生物体内发挥预想的功能。我们期待未来更多跨领域合作推动其落地与验证。

参考文献

[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.

[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.

[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.

[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

蛋白质设计 动态词表 天然片段 可折叠性 AI 深度学习 ProDVa Protein Design Dynamic Vocabulary Natural Fragments Foldability AI Deep Learning
相关文章