原创 孔某人 2025-10-02 14:23 北京
认知还是在改变的
历史认知转变回顾(1):
本文其实是一个更长文稿的一部分,原标题叫做《LLM应用策略架构范式探讨:结构化的边界在哪里》。
但写完历史回顾后,发现内容已经有点多,且有些内容开始偏离主题,于是单独拆成一篇。
1、白盒化的bias
作为经历一个领域从传统规则时代一直穿越到Deep RL时代的人,在2017年就尝试把当时以LSTM为基础组件的LM用在其他领域数据上的人,我感觉自己一直对于任何技术方案都没有特别的盲信。
以一些现在流行的话来说,我觉得这更符合第一性原理。(我认为更符合第一性原理这一说法的具体做法是:把问题各方面因素找全,重新运筹规划,并接受新找到的解法,而不是沿用过去遗留的参考解。)我在翻阅自己2023年8月的文章时,发现有这样一句话:“LLM擅长的问题应该交给LLM,已有传统方案更擅长的问题不应该交给LLM。”
我过去觉得我一直尽量站在一个最平衡的位置,最接近能达到最优解的思路,不过于死板,以至于不承认LLM的能力;也不过度神话DL或LLM。
不过从现在回看,我过去可能还是过于偏向了白盒/结构化的思路这一边。我过去的一些预判在后来来看遇到了困难,而更加黑盒/模型化的思路在后续仍然能够持续前进。
2、追求可靠性的bias
更偏好于白盒化一些的一个原因是对于提升LLM应用可靠性的追求。确保一个尽量可靠的产品,是更符合一般的产品设计哲学的。即使现在来说,想要追求降低LLM应用的LLM不完全可靠导致的badcase,增加白盒化、增加可干预部分仍然是一个重要的思路。
但我个人目前已经没有那么在乎可靠性了,当然这之间不是对错之分,而是未来的战略路线选择。过于纠结于可靠性上的修修补补,似乎并不是最好的遵从“苦涩的教训”的路线。更别说世上没有完全可靠的事情,这方面可以去参考核电安全,典型的部件可靠性是8到12个9水平(这个表述很不严格)。
当然我并不是否定可靠性的价值和需求,我目前是认为:基础层面的可靠性(如格式遵循)和交付的内容的价值,是两个独立的维度,不能简单的合在一起就进行评价。格式遵循的再好,交付的价值很低,这样的产品我是不想要的。
当然在很多场景下,格式遵循的重要性就是超过内容交付价值的,我知道他们存在。只是这似乎不是我想要做的方向。
3、想要解决的问题的层面升高了
翻阅过去文章的时候,一个明显的感觉是,之前所思考和考虑的场景,都是现在所不想(不屑于)做的。
但巧合的是,当时列的那些点单订票的场景,正是2025年大厂LLM应用在做的事情。即使是LLM应用功能做的不错的飞书,在很多地方也是这样的LLM填表+已有功能的场景。
(从这个角度来说,国内大厂内能用上的模型质量和组织的认知可能落后于海外前沿模型和使用这些模型的创业圈有快2年的时间。当然这么说有点不公平,因为只能有对于现有业务的帕累托改进的功能才能上线。)
我现在所思考和关注的问题,更多是通过目标指定和(可选的)方法论性的高层级workflow才能指定的任务。这在我自己2年之前应该是很难想象的。
在这些场景下,交付结果的内容质量本身的上限极高,交付结果的质量本身是产品价值的最主要部分。而格式和偶然的失败并不重要。
4、对Workflow的偏好和价值评价在减弱
还是那句话,我一直都认为我在方案选择上是兼顾workflow和agentic的。但确实过去2年中,我觉得在平时采用workflow的比例在降低。
有模型能力变强的因素,使得不指定步骤即可完成;也有我想解决的问题更多转向无法用workflow描述的领域;还有AI coding工具能够开始自己实现一些workflow的因素。
5、对Agentic范式的接受,以及仍然对MultiAgent的偏见
所有Agentic性方案都可以追溯到2023年4月的AutoGPT和BabyAGI,需求是存在的,技术方案之前一直不成熟,所以类似的方案不断的被新的人拿出来,直到最终有人PMF为止。最近的一个知名案例是Manus。
我对Agentic范式的更多思考(接受),更多来自于模型能力的成熟,以及水涨船高的考虑一些更高价值也能难构建workflow的场景的偏向。我感觉有不少人跟我是同步转变的,他们的共性是,关注近期就能实现的方案应该采用什么样的方案。
我对很多人想象中的那个MultiAgent方案仍然保持偏见,不过我确实有一些方案觉得可以算到MultiAgent的范围中,只是当我们都在使用MultiAgent这个词时,我们说的是不同的东西。
6、看不见但又摆脱不了的“红皇后”感受
《爱丽丝镜中奇遇记》里红皇后对爱丽丝说的一句话:你必须尽力地不停地跑,才能使你保持在原地。
在2023年思考和写作的时候,更多是一种孤独又特立独行的感觉,我感觉好像没有多少人有类似的想法。
但在2025年,我感觉完全新的想法已经很少了,而且大家“在趋同”,更准确地说是:无论我想到什么想法,或者听到什么想法,都觉得这个似乎“显然”,在我的读者中就有超过一只手的团队会“独立”产生这个想法。但实际上从总体来看,不同团队的认知,无论在方向上还是在‘阶梯’上,都比过去分化得更厉害。
因为我时常收到一些读者的主动反馈说:“这个我们也在做”、“这个跟我想的一样”。这可能是有一定规模的KOL的诅咒,也可能是某种未来的奖赏。(我目前公众号的关注量~1.5w,如果以更通俗类的AI主题公众号的标准来说,这个规模不算大)
总能感觉到有人也在身边,但又经常抓不到,幽灵般的“志同道合者”。
我最近一段时间时常会说的话:大家基于相同的技术能力、相同的“一阶”思维,大概率只会推导出同样的结论。
我个人感觉已经在对这种一阶思维的结论建立习惯性的怀疑,但还不清楚是否应该该选择一阶思维,还是应该更好的探索二阶的思维。(这里的一阶、二阶概念,可以参考数学中的泰勒展开,或者是无线电通信中的主瓣、旁瓣)
(在本节中,这个维持在原地的标准画像,目前是使用Gemini DeepThink/GPT-5 Pro作为同事来讨论后续战略和产品设计。)
7、LLM正在融合经验和规划
我在2023年12月的文章里写了这句话:“LLM擅长的是经验,而不是规划”。
但我觉得现在我已经不会这么说了,虽然我觉得在一般的LLM应用层语境下,它还没有开始变得不对。但LLM pretrain+ RL post-train已经开始显现了它超过传统运筹、RL的潜力。
8、壁垒在哪里
过去2年中,我每年都还正经写过不止一篇文章来做一些挣扎,来谈我认为LLM应用层的算法策略壁垒是什么。
但我目前对这个问题已经没有答案了。当然也并不是说之前的论证有问题,而是我现在思考的领域转向了一些别的方面,而在这些领域中,之前的论证不重要了。
随着AI Coding能力的快速提升,我想可能不少人也在开始思考这个问题。在应用层来说,技术上的壁垒越来越少了。但有一些其他方面的壁垒却看不到明显消融的迹象,例如营销。
当然也不是说模型层就有壁垒,模型层现在变得更卷了,红皇后效应变得更加严重了。
结语
本文主要还是翻阅历史文章时候的对比,目前在“LLM应用层策略架构”上的想法会在后面单开文章来讨论,说不定也会在时间上断断续续分为几篇逐步补全。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.10.2 首发于微信公众号和知乎。
