原创 让你更懂AI的 2025-11-04 13:21 北京
把天然片段拉进词表,像乐高一样拼蛋白
基于功能的蛋白质设计任务(function-guided protein design)旨在根据功能描述或关键词,生成符合的蛋白质序列。其核心挑战在于,如何确保从蛋白质序列庞大空间中设计的序列既满足给定功能,也能正确折叠成稳定的 3D 结构(即可折叠性好)。近年来,蛋白质语言模型(PLMs)在该任务上展现了巨大潜力,可以根据上下文描述以氨基酸为词元生成符合功能的全新蛋白质序列。但是,PLMs 面临两个核心挑战:1. 20 种标准氨基酸(以及分词器自动切分的连续片段)构成的词元缺乏明确的生物学意义;2. 解码生成的蛋白质序列虽然符合给定功能,但可折叠性差。现代生物信息学既存在SwissProt [1] 等经过大规模专家标注且湿实验实证的蛋白质数据库,也存在 InterPro [2][3] 等工具能够提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白质片段(IPR30659)已被实证为一个 SecY 保守位点(conserved site)。受传统蛋白质设计借鉴已知天然结构的启发,来自华东师范大学、复旦大学、中国电信人工智能研究院(TeleAI)的研究团队提出了一个新问题:PLMs 能否在设计过程中充分利用天然蛋白质功能片段来得到功能易满足、结构更合理的新蛋白质?LLMs 动态词表生成技术 [4] 首先将任意短语表征嵌入静态词表的语义空间,然后在每个解码时刻自由选择生成词元(对应氨基酸 Token)或一整个短语(对应天然功能片段)。结合该技术,本文提出了新型 PLM 架构 ProDVa,根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。▲ (a) 不同方法生成的蛋白质在ESM C embedding空间中的UMAP可视化,灰色表示天然蛋白质的分布。(b) pLDDT (predicted Local Distance Difference Test)性能对比,该指标衡量单个残基局部结构的预测准确度。 (c) PAE (Predicted Aligned Error)性能对比,该指标评估不同残基之间相对位置的预测准确度。黄色散点(Random+)比红色散点(Random)分布更广,更接近天然蛋白质,且在结构评估指标上表现显著更好。
这有力证明了:采用天然片段协助设计极具潜力。进一步,在实际应用中,如何按照用户需要,有目的地选择和拼接这些天然片段,是 ProDVa 关注的核心问题。蛋白质动态词表实现智能组装为了实现对蛋白质片段的智能组装,ProDVa 包含三个核心组件:1. 文本语言模型 (Text Language Model):理解用户输入的自然语言功能描述。2. 蛋白质语言模型 (Protein Language Model):根据输入功能描述,自回归地设计氨基酸序列。3. 片段编码器 (Fragment Encoder):理解天然蛋白质片段的表示。参考文献
[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.
[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.
[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.
[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.
更多阅读