智源社区 08月25日
AI驱动的蛋白质设计:GPT-4o助力细胞重编程效率提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI与Retro Bio合作开发的GPT-4b micro,一种专为蛋白质工程优化的GPT-4o微型版本,在生物科学领域取得了重大突破。该模型通过在包含蛋白质序列、生物文本和3D结构数据的增强数据集上训练,显著提升了干细胞重编程效率。研究显示,重新设计的山中伸弥因子变体(RetroSOX/KLF)能将干细胞重编程标记物的表达量提升高达50倍,并增强DNA损伤修复能力。这一创新不仅加速了再生医学的研究进程,也为开发治疗衰老相关疾病的新疗法带来了希望,预示着AI在生命科学领域的巨大潜力。

🧬 **AI赋能蛋白质工程,重塑细胞重编程效率**:GPT-4b micro作为OpenAI与Retro Bio合作开发的专业蛋白质工程AI模型,通过整合蛋白质序列、生物文本及3D结构等海量数据,并引入丰富的上下文信息进行训练,实现了对蛋白质序列的精准设计。其前所未有的超长上下文长度处理能力,使其在处理如山中伸弥因子这类不稳定性蛋白质时表现出色,能够生成具有特定期望属性的蛋白质序列,从而显著提升了干细胞重编程的效率与效果。

🌟 **突破性变体显著提升干细胞重编程能力**:研究人员利用GPT-4b micro设计的RetroSOX和RetroKLF变体,在体外实验中显示出惊人的效果。这些变体能够将干细胞重编程关键标记物的表达量提升高达50倍,并且在DNA损伤修复方面也表现出更强的能力。这些经过验证的变体在多个供体、细胞类型和递送方法中均表现出优异性能,确认了其在诱导多能性干细胞(iPSCs)生成方面的全能性和基因组稳定性,为再生医学提供了强大工具。

🔬 **加速再生医学研究与抗衰老应用**:GPT-4b micro的设计和应用,不仅大幅缩短了优化蛋白质序列所需的时间和资源,还提高了成功率,使得研究人员能够更快地探索和验证新的治疗方案。通过提高重编程效率和增强DNA修复能力,这些AI设计的蛋白质变体有望在治疗失明、糖尿病、器官短缺等多种疾病以及延缓细胞衰老方面发挥关键作用,预示着AI在改善人类健康方面将扮演越来越重要的角色。

💡 **AI在蛋白质设计领域的未来展望**:此次研究成果表明,AI在生命科学领域的应用已进入新阶段。GPT-4b micro展现出的强大能力,预示着未来AI模型将能够更深入地理解复杂的生物过程,并设计出更高效、更具针对性的生物分子。OpenAI透露,当前的模型性能已远超此次公布的成果,预示着未来一年内将有更多令人兴奋的生物科学突破出现,AI将持续推动生命科学的边界。

🌐 **AI驱动的蛋白质设计革新**:GPT-4b micro模型通过对包含蛋白质序列、生物文本和标记化3D结构数据进行了深度训练,并加入了共同进化的同源序列和已知相互作用的蛋白质组合等额外上下文信息,使其能够生成具有特定期望属性的序列。这种方法对于处理像山中伸弥因子这类结构不稳定的蛋白质尤为关键,模型在处理无结构区域与结构化蛋白质方面同样有效。研究发现,即使输入长达64000个token的超长提示,模型的控制性和输出质量也持续提升,在蛋白质序列模型中是前所未有的。

🚀 **AI优化的蛋白质显著提升细胞重编程效率**:Retro Bio的科学家利用GPT-4b micro重新设计了与细胞重编程研究相关的蛋白质,这些重新设计的蛋白质在体外实验中,使干细胞重编程标志物的表达量比野生型对照组高出50倍以上。同时,它们还展现出增强的DNA损伤修复能力,相较于基线,恢复年轻状态的潜力更大。这些结果在多个供体、细胞类型和递送方法中得到验证,确认了其在诱导多能性干细胞(iPSCs)生成方面的全能性和基因组稳定性。

🧬 **山中伸弥因子:再生生物学的关键与挑战**:山中伸弥因子(OSKM)是再生生物学中的核心蛋白质,能够将成年细胞重编程为多能干细胞,为多种疾病治疗提供了可能。然而,其效率低下(转化率低于0.1%)和依赖于供体细胞质量的问题,是当前研究的重点。直接优化蛋白质序列以克服这些挑战极其困难,传统的定向进化方法只能探索极小的设计空间。GPT-4b micro的出现,为解决这一难题提供了新的视角和强大的工具。

📈 **AI设计变体在细胞重编程中的卓越表现**:在湿实验室筛选中,GPT-4b micro生成的RetroSOX序列中,超过30%在表达关键多能性标志物方面优于野生型SOX2,命中率远超传统方法。对KLF4蛋白的改造同样显著,其生成的RetroKLF变体中有14种表现优于现有最佳组合方案,命中率接近50%。最优的RetroSOX与RetroKLF变体组合使用时,效果最为显著,显著提升了早期和晚期多能性标志物的表达水平,并缩短了其出现时间。

✨ **AI驱动的干细胞重编程加速**:研究团队在不同细胞类型(如间充质干细胞)和递送方法(如mRNA)下验证了AI设计的变体。结果显示,仅需7天,超过30%的细胞即可表达关键多能性标志物,且在第12天出现大量iPSCs形态特征的细胞团簇。这些细胞中超过85%激活了关键干细胞标志物的内源性表达,并成功分化为所有三个原始胚层。这些成果持续超越了合同研究组织使用标准因子生成的iPSC系基准,有力证明了AI指导的蛋白质设计能够显著加速干细胞重编程研究进程。

💪 **AI优化蛋白质在修复DNA损伤方面的优势**:研究团队进一步探索了AI重新设计的变体在恢复青春方面的潜力,特别关注了DNA损伤这一关键衰老标志。结果显示,经RetroSOX/KLF组合处理的细胞,其DNA双链断裂标志物(γ-H2AX)的强度显著低于使用标准OSKM或荧光对照的重编程细胞。这表明AI设计的变体在减少DNA损伤方面比原始山中伸弥因子更有效,为改善细胞再生和开发未来疗法提供了新的途径。

GPT-4o蛋白质专用版,已成功改进诺贝尔奖获奖蛋白的变体。

科学家利用GPT‑4b micro成功设计了新型且显著增强的山中伸弥因子变体,将干细胞重编程标记物的表达量提升了50倍

重新设计的蛋白质还表现出增强的DNA损伤修复能力。

这一发现已在多个供体、细胞类型和递送方法中得到了验证,确认了衍生iPSC系的全多能性和基因组稳定性。

有网友评价,借着AI发展的东风,我们这一代可能是首次有机会通过AI的进步实现长寿的一代。

目前,研究团队公布了更多的突破细节。

前所未有的上下文长度

GPT‑4b micro是一款OpenAI与生物技术初创公司Retro Bio合作开发的,专为蛋白质工程设计的GPT-4o微型版本。

OpenAI官方表示,该模型具备广泛的生物学知识基础和技能,特别注重可控性和灵活性,以支持蛋白质工程等高级应用场景。

在模型设计上,他们首先基于GPT-4o的精简版进行系统初始化,以便充分利用GPT模型现有的知识储备。

然后,他们在一个主要由蛋白质序列、生物文本和标记化的3D结构数据组成的数据集上对其进行了进一步训练,这些元素是大多数蛋白质语言模型所忽略的。

团队继续对大部分训练数据进行了丰富化处理,为其增添了额外的上下文信息,如文本描述、共同进化的同源序列以及已知相互作用的蛋白质组合。

有了这些上下文信息,研究者就可以促使GPT-4b micro生成具有特定期望属性的序列。

此外,由于大多数数据是无结构的,该模型处理具有内在无序区域的蛋白质与处理结构化蛋白质同样有效。

上述特性对于山中伸弥因子这类不稳定的蛋白质尤其有用,它们的结构不像稳定的积木,而像灵活的“软体动物”,通过与许多不同的分子进行短暂相互作用来产生效应。


山中伸弥蛋白KLF4(左)和SOX2(右)

通过使用富含额外上下文信息的蛋白质数据进行训练,训练样本的有效上下文长度得到了显著扩展,远超独立序列。

最终,研究团队发现,即使输入长达64000个token的超长提示,模型的可控性和输出质量仍在持续提升。

虽然这种上下文长度在文本大语言模型中很常见,但在蛋白质序列模型中前所未有

在开发过程中,研究团队还观察到了与LLM中类似的scaling laws的出现——即在更大的数据集上训练的模型,在困惑度和下游蛋白质基准测试中的表现都有所提升。

这种特性使得研究人员能够在小规模下进行迭代,最终训练出GPT-4b micro。

已改进诺贝尔获奖蛋白变体

为了证明GPT‑4b micro能够加速药物开发,Retro Bio的科学家使用该模型重新设计了与细胞重编程研究项目相关的蛋白质。

在体外,这些重新设计的蛋白质比野生型对照组的干细胞重编程标志物表达量高出50倍以上。它们还表现出增强的DNA损伤修复能力,与基线相比显示出更高的恢复年轻状态的潜力。

这一发现是在2025年初做出的,现在已经在多个供体、细胞类型和递送方法中得到了验证,确认了衍生iPSC系的全多能性和基因组稳定性。

山中伸弥因子——OCT4、SOX2、KLF4和MYC(OSKM)是再生生物学中目前最重要的蛋白质之一,它们以发现这些因子能够将成年细胞重编程为多能干细胞的山中伸弥(Yamanaka Shin’ya)的名字命名,这一发现使他在2012年获得了诺贝尔生理学或医学奖

这些因子也被用于开发治疗失明的药物、逆转糖尿病、治疗不孕不育以及解决器官短缺问题。

但它们存在效率低下的问题:在治疗过程中,通常只有不到0.1%的细胞会转化,这个过程可能需要三周或更长时间。并且,在来自衰老或患病供体的细胞中,效率会进一步下降。

因此,寻找更有效的变体仍然是一个活跃且重要的研究重点。

但直接优化蛋白质序列非常困难——SOX2包含317个氨基酸,KLF4则有513个,可能的变体数量达到了10^1000量级。

传统的“定向进化”筛选方法每次只能突变少数几个残基,只能探索设计空间中极小的一部分。一个领先学术团队测试了数千种SOX2突变体,发现少数几种三重突变体有适度提升,而15年来对嵌合SOX蛋白的研究仅产生了与天然SOX仅相差5个残基的变体。

Retro团队利用人类成纤维细胞(皮肤与结缔组织)构建了湿实验室筛选平台,在初步验证阶段,该团队通过手动设计的基准OSKM和SOX2变体进行试点筛选。

随后,他们要求GPT-4b micro生成一组多样化的”RetroSOX”序列。

在筛选中,尽管模型提出的序列与野生型SOX2平均存在超过100个氨基酸差异,但其中超过30%的序列在表达关键多能性标志物方面表现更优

相比之下,传统筛选方法的命中率通常低于10%。

研究团队随后着手改造山中伸弥因子中体积最大的KLF4蛋白。虽然已知可用其他KLF家族因子替代KLF4,但重编程效率并未提升。

此前,通过专家指导的单氨基酸替换进行的改良尝试,在19个样本中仅获得1个成功案例(KLF4 L507A)。

基于RetroSOX的成功经验,研究团队引导模型生成一组增强型RetroKLF变体。最终,模型生成的变体中有14种表现优于RetroSOX筛选中的最佳组合方案——命中率接近50%

将最优的RetroSOX与RetroKLF变体组合使用时效果最为显著。

在三次独立实验中,成纤维细胞早期标志物(SSEA-4)与晚期标志物(TRA-1-60、NANOG)的表达水平均呈现显著提升,其中晚期标志物的出现时间比野生型OSKM组合方案提前了几天。

此外,通过在第十天进行碱性磷酸酶(AP)染色验证,RetroSOX与RetroKLF变体不仅表达晚期多能性标志物,还表现出强效的AP活性,表明其具有多能性。

为进一步验证重编程效率的提升并探索其临床潜力,研究团队测试了另一种递送方法(mRNA而非病毒载体)以及另一种细胞类型——间充质干细胞(MSCs),这些细胞来自三位中年人类供体(年龄超过50岁)。

结果显示,仅7天内,超过30%的细胞开始表达关键多能性标志物(SSEA4与TRA-1-60);至第12天时,出现大量呈现典型iPSCs形态特征的细胞团簇。

这些细胞中超过85%激活了关键干细胞标志物(OCT4、NANOG、SOX2及TRA-1-60)的内源性表达。

探究团队随后验证了这些由RetroFactor衍生的iPSCs能够成功分化为所有三个原始胚层(内胚层、外胚层与中胚层)。

此外,研究团队还扩展了多个单克隆iPSC系,经过数代培养后,确认了健康的核型和适合细胞治疗的基因组稳定性。

这些结果持续超越合同研究组织使用标准因子生成的常规iPSC系基准,进一步佐证了工程化变体的强效性。

此外,它们还为关于不同递送方式和细胞类型中PSC生成增强提供了证据支撑。

综合高命中率、深度序列编辑、标志物提前表达以及AP阳性细胞团形成等证据,初步表明AI指导的蛋白质设计能显著加速干细胞重编程研究进程

受这些结果启发,研究团队接下来研究了他们重新设计的变体恢复青春的潜力,聚焦于DNA损伤这一导致细胞功能受损的典型衰老标志。

早期研究表明,山中伸弥因子能在不完全改变细胞身份的前提下,清除小鼠细胞中与DNA损伤相关的衰老标记。

研究团队试图验证重新设计的变体是否相较于基准OSKM组合展现出更强的恢复青春的能力。结果显示,在DNA损伤检测中,经RetroSOX/KLF组合处理的细胞显示出的γ-H2AX强度(双链断裂标志物)显著低于使用标准OSKM或荧光对照的重编程细胞。

该结果表明重新设计的RetroSOX/KLF组合在减少DNA损伤方面比原始山中伸弥因子更有效

通过改善细胞衰老的核心标志之一,这些工程化变体为改进细胞再生和未来疗法提供了潜在途径。

总的来说,GPT‑4b micro在所有候选蛋白中产生了最佳变体,在提出更多多样化序列的同时,保持了比人类科学家基准更高的命中率。

令人欣喜的突破

网友首先对OpenAI进军生物科学领域的大胆举措给予了充分肯定,猛猛夸赞了一下OpenAI。

甚至扬言这是改变人类历史的事情。

也有一些网友对此研究表现出疑惑,主要集中在长寿和治愈疾病方面(用Grok重在掺和)

还有网友表示出了自己的独特想法,想让获得批准的人能够创建出适合湿实验室的蛋白质,而不受安全限制的影响。

值得一提的是,OpenAI科学家Noam Brown表示,这一模型已经是几个月前的成果,现在的模型性能更强,预计未来一年左右会看到更多新成果。

那大家拭目以待喽~

参考链接:
[1]https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
[2]https://x.com/BorisMPower/status/1958915868693602475
[3]https://x.com/polynoamial/status/1958920311161925899

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o 蛋白质工程 干细胞重编程 再生医学 AI 生命科学 Retro Bio 山中伸弥因子 DNA损伤修复 抗衰老 GPT-4b micro iPSCs Protein Engineering Stem Cell Reprogramming Regenerative Medicine Artificial Intelligence Life Sciences Yamanaka Factors DNA Damage Repair Anti-aging
相关文章