原创 让你更懂AI的 2025-10-06 20:04 北京
不止能跑通,更能跑对
▲ 图1(系统架构示意):GenoMAS的多智能体协作框架。各角色通过带类型的消息协议进行协作,形成端到端的有序闭环。
为什么自动化转录组分析这么难?在开始接到这个课题的很长一段时间里,我们是一筹莫展的。考虑混淆后的基因-表型关联绝大部分是未知的,无法在现有文献中验证。在研发这样的智能体之前,为了评估它的性能好坏,我们需要有一套标准。于是想到,如果有一个数据集收集了人类专家按照最佳实践分析数据得到的高质量结果,与之对比就能判断自动化方法的优劣。我们首先找到 CMU 的一位计算生物学教授,邀请她加入这个课题,希望能组织她教授的一门研究生课上的学生来共同打造这个基准数据集。在一次视频会议里,我展示了这个任务需要的分析流程后,她摇了摇头,说这个太专业化了(specialized),作为课程项目来说对学生的挑战过大。我们只好在校内组织一个团队来建造这个数据集。我们很快就发现那个教授说得没错,我们发现甚至网上的样例代码都不容易搜到,找到的寥寥几个有用的例子都是基于 R 的。于是我们这些 CS 背景的人通过看书、看网课,请教生物专家,恶补这方面的知识,一边召集团队,等了很久才在本校凑齐一个有足够计算生物背景的队伍,来建这个数据集。基准数据集搭建完成后,我们开始研发智能体。我们先试了当时最强的大模型和最先进的智能体。那会还是 GPT-4 时代,不出所料,所有方法和模型都无法生成代码来跑通从原始数据到分析结果的全流程,更不用说准确率了。随着大模型能力的飞速提升,从 Claude Sonnet 4 开始,代码跑通已经不成问题了。可是,当我们测试现有的先进智能体时,发现它们仍然经常犯隐蔽而严重的错误,导致整个分析得到的结果科学上无效(论文附录 A 有详细的分析和例子)。自动化方法在这里遇到的困难,植根于大模型自身的特点。首先,作为统计模型,它完成任务的表现高度依赖于任务相关互联网数据的高频性。它在众多学科展现出的强大能力,也源于互联网上大量的教材、习题等语料。除了解数学题、算法题等相对容易靠强化学习后训练提升的领域以外,真实世界大部分专业性和开放性强的任务中,大模型都会面临分布外泛化的严峻挑战。如果任务足够专业化,就像一个优秀的应届毕业生到了公司里需要从头接受培训才能上手的任务,大模型往往也难以正确完成。其次,大模型把所有信息以字符串的形式一股脑输入 attention 处理,这难以应对需要从若干个几十至几百兆的文件中整合数据、分析判断的基因表达分析任务。当上下文窗口过长,往往会淹没重要信息,严重降低大模型的任务表现。人的“工作记忆”远不如大模型的上下文窗口,但人会主动探索,会使用工具,也会选择对哪些输入信息进行思维深加工。一位熟练的生信专家往往只需在关键节点从大型文件中定位并阅读几十行关键信息,就能高质量完成整个分析任务。设计理念:可信的科学自动化,需要结合智能体和工作流的优势有了上面的思考,我们的目标就很明晰了:在智能体层面弥补大模型的不足,一是给它足够的领域知识帮它完成“入行培训”,规范它行为的同时,让它可以在此基础上,在任务中自己积累经验;二是在规划模块的层面上让它自主探索环境,选择性地处理和整合数据。探索就不可避免会犯错,所以我们要让它能即时从错误中恢复,避免随着上下文积累变长后加剧的”自我条件”效应走入死胡同。我们在设计智能体的过程中,阶段性地拿我们的基准数据集评估性能,不断迭代,力求研发一个可信的全自动化基因表达分析任务的智能体。这就引发一个问题:什么是可信的科学自动化?也许很多人认为,现在的大模型已经足够强大和智慧,潜力无限。我们只要进一步提升它的 agentic 能力,再让它学会使用外部工具,那么不久的将来,它就能可信地自动进行科研工作。虽然这些是非常重要且激动人心的技术路线,但我们认为,即使大模型可以变得非常强大智慧,也不一定“可信”。这是因为,对于科学或者说科研,大家并没有一致认同的标准答案。一个学科里会有观点相左的不同学派,不同实验室对于科研的理解和规则也会有差异。在执行重要任务时,这些差异会体现在操作细则的各个方面,而且越是重要的任务,越缺少妥协的余地。倘若向全世界最强的智能体丢一句简单的命令,让它根据自己的想法全自动做科研,然后直接把结果端给用户,对于严肃的科研工作者来说恐怕是难以接受的。所以我们认为,可信的科学自动化,首先要让用户选择自己信任的 guidelines。这个 guidelines 也许只是一个具体任务的简单指示,也许是复杂得多的一组文件。对于要进行的任务来说,这个 guidelines 要包含足够的文本信息让用户确信自己认同它将在这个任务中体现的科研风格、学派立场等等,于是用户在充分知情与认同的前提下,对产出的结果承担信任与责任。而 agent 这一侧,则需要确保按照用户信任的 guidelines 工作,同时也要对实际执行中的各种问题自主地探索解决方案,灵活处理,避免像人为编排的工作流那样僵化。因此,一个可信的智能体是需要结合 agent 和 workflow 优势的。当然,以上更多是原则性的思考。由于大模型的概率本质,我们无法确保智能体 100% 的遵守 guidelines,而是通过智能体的编排,在大模型指令遵守和减少幻觉方面进展的基础上再进一步。方法设计:把可控的指南与自主的智能体放到一起沿着“可信”这条主线,我们没有试图让一个模型包打天下,而是把“如何做事”先写清楚,再把足够的自主性交给执行者。具体来说,GenoMAS 把用户认可的指南看作一套可编辑的有向无环图,并把其中的关键动作切分为语义自洽、可原子执行的 Action Unit。每一个 Action Unit 都像是一段可复核的实验步骤,既能被独立审阅,也能在必要时回滚与替换。编程智能体不会被迫一条路走到黑,而是在每一步做出“前进、修订、跳过或回退”的选择:当早期判断在下游暴露出矛盾,就把代码与状态一起拉回到合适的分叉点,从替代路径继续推进。这套机制并不是为了“多一个花哨层”,而是为了把可控与自适应压在同一个框架里。系统中的六个角色分工明确、彼此制衡:PI 负责统筹调度;两位数据工程师分别面向 GEO 与 TCGA 的数据预处理;统计学家承担回归建模与显著基因识别;代码审阅者与领域专家提供质量控制与生物学判断。角色之间通过带类型的消息协议沟通,所有请求与响应都有据可查,避免跨步与遗漏。在代码层面,我们坚持“编写—审阅—修订”的闭环:审阅者在隔离上下文的前提下检查可执行性与对指南的遵循,必要时给出明确的否决与修改建议;编程智能体据此整合历史诊断信息完成修订,直到通过或达到上限。涉及生物学语义的节点(如临床特征抽取与基因符号映射)则由领域专家在聚焦上下文中给出判断,并直接以可执行的形式落地。为了应对真实数据的规模与异质性,我们在工程上补足了“跑得稳”的基本盘:并行与断点续跑、缓存与资源监控、超时保护与失败回收;通过“代码记忆”,系统把已通过审阅的片段按 Action Unit 类型索引与重用,在保持稳健的同时逐步积累经验,减少无谓重复。为了保证可复现性与一致性,我们将基因同义词库与基因—表型关联资源本地化并版本化管理。值得一提的是,我们采用“异质模型”的团队配置:擅长代码代理的模型承担编程主力,更强的推理模型主导规划与审阅,而在生物知识上表现突出的模型提供领域判断。这种认知多样性的组织方式,在复杂任务上往往更稳健,也更接近真实的跨学科协作。▲ 图2(编程智能体机制):单个编程智能体的规划、代码记忆与自我纠错流程示意。
▲ 图3(主结果对比):GenoMAS 在 GenoTEX 上的端到端性能对比(F1 提升 16.85%,AUROC 提升 0.17,API 成本降低约 44.7%)。
进一步分析:瓶颈、消融与系统行为把链路拆开看,早期误差的“放大效应”最为直观:数据集筛选本身并不困难,但一旦起步偏离,后续每一步都会为此付出代价。预处理阶段呈现出鲜明的分化:在表达矩阵的处理上,系统能够稳定达到高一致性;而在临床特征抽取上,受制于半结构化文本、命名异构与来源不一致,CSC 显著偏低,这是当前主要瓶颈。换句话说,难点不在“数值归一化”这样的常规工程,而在于如何把真实世界的临床语义稳稳地落到结构化变量上。统计分析的对照实验给了我们一个更清晰的参照系:当直接使用专家预处理的数据时,系统的 F1 可达到约 95%;若去掉批次效应校正,则显著下降。这一结果把“难题的坐标”钉在了恰当的位置——问题并不在于选择何种回归模型,而在于能否可靠地处理混淆,尤其是批次效应与协变量控制。面向这一点,我们在架构层面把“引导式规划—领域判断—多轮审阅”绑在一起,目的就是把这些易被忽略却决定有效性的步骤牢牢嵌入执行链路。消融结果进一步印证了这种设计的必要性:去掉情境感知的引导式规划、领域专家或多轮审阅,都会带来明显退化;把审阅轮数限制为一轮,“看似笨重”的迭代在长链路里却是刚需。此外,我们设置了“零样本、不读数据”的对照,AUROC 仅约 0.56,强调了结构化数据处理与领域推理的不可替代性。从系统行为看,“代码记忆”在前期迅速爬升至约 65% 的复用率,节省了可观的时间;消息流量集中在规划与校验,PI 低频调度、编程与顾问高频互动的模式与真实跨学科团队相似。▲ 图4(合作模式示意):智能体通信网络与消息类型分布。数据工程师(含 GEO/TCGA)承担多数交互,PI 低频调度,规划请求占比最高,体现“引导式规划 + 多轮审阅”的主轴。
