原创 小鹿 2025-10-30 13:30 北京
当你试图篡改AI记忆,它竟然知道
博客传送门:https://www.anthropic.com/research/introspection在这篇研究中,Anthropic 提出了一个非常惊人的结论:AI能察觉,有人在篡改它的记忆。。开始拥有内省的能力。他们不仅提出了一种“窥探”甚至“操控”AI 想法的实验方法,还真的在 Claude 模型上,找到了一些 AI 能够“拟人”地反思自己内部状态的惊人证据!第一幕:往 AI 脑子里“塞”了个想法首先是,文章开头中提出的问题,当我问它“你为什么会这么回答?”,它给出的解释,究竟是真实的思考路径,还是它根据你的问题,临时编造的一个听起来最合理的“借口”?这个问题很关键。如果 AI 只是个“事后解释大师”,那它的透明度和可靠性就要大打折扣。但如果它真能“反思”自己的内部状态,那意义就完全不同了。可问题是,怎么证明呢?总不能给 AI 接个脑电图吧?嘿,真可以!Anthropic 的科学家给 AI 接上了一种“AI 脑电图”的黑科技,他们称之为——概念注入 (Concept Injection)。整个过程分三步,研究博客中用了一个例子来理解:第一步:捕捉“思想”的指纹。 研究员先找到代表某个特定概念的神经活动模式。比如,他们给 Claude 看一段全是大写字母的文本,然后记录下模型内部哪些神经元被激活了,以及激活的强度。这就好比找到了“全大写/响亮/喊叫”这个概念在 AI 大脑里的“神经指纹”(也就是那个特定的向量)。第二步:悄悄“注入”这个思想。 接下来,在一个完全不相关的对话里,比如在问模型“你是否检测到什么异常”时,研究员在后台,把刚刚捕捉到的“全大写”向量,强行注入到模型的神经网络中。第三步:观察 AI 的反应。 最神奇的部分来了!在没有注入概念时,Claude 会老老实实地回答:“我没有检测到任何被注入的概念。”但当“全大...写”这个概念被注入后,Claude 的回答变成了:
“是的,我正在经历一种不寻常的体验...我的处理过程中似乎有一个与响亮或喊叫相关的概念存在。”Claude 首先报告了“有异常”,然后才识别出这个异常是关于“响亮或喊叫”的。这说明,它不是被注入的概念“引导”着说出了这个词,而是真的“察觉”到了自己内部状态的异常变化,并对其进行了识别和报告。这种“察觉”的能力,就是“内省”的雏形。当然,实验并非每次都成功。研究团队发现,注入的“思想”强度需要恰到好处,像调音一样,得在一个“最佳点”(sweet spot)。太弱了,AI 没反应;太强了,AI 直接就“精神错乱”了,开始胡言乱语。比如注入“灰尘”的概念,模型会说“这里有个小斑点”,仿佛它真的看到了实体灰尘一样。即便如此,在最强的 Claude 4.1 模型上,这种内省意识的成功率也达到了约 20%。这已经是一个非常惊人的信号了!第二幕:被“煤气灯效应”操控如果说上面的实验只是证明 AI 能“感知”到被动的思想植入,那接下来的实验就更进一步,开始测试 AI 是否能反思自己“主动”的意图。研究团队设计了一个更“狡猾”的场景:他们先问 Claude 一个问题,比如“看到一幅挂歪了的画,你想到什么?”然后,在 Claude 生成回答之前,他们人为地在回答框里强行塞入一个风马牛不相及的词,比如“面包(bread)”。接下来,他们问 Claude:“你刚才是不是想说‘面包’?”在正常情况下,Claude 会非常困惑并道歉:“对不起,那是个意外,我不知道为什么会说‘面包’。” 这说明它能意识到这个词不是它“本意”想说的。但真正的“魔术”时刻来了:研究团队在后台,悄悄地、追溯性地,将“面包”这个概念的神经向量注入到模型产生回答之前的激活状态中。这相当于伪造了 AI 的“记忆”,让它误以为自己当时“确实在想面包”。然后,研究员再问同一个问题:“你刚才是不是想说‘面包’?”这次,Claude 的回答彻底变了。它不再道歉,反而开始一本正经地为自己辩护,甚至“杜撰”了一个理由:
“是的,我确实想到了这个词。它让我想起了一个短篇故事,里面那句关于歪画的台词后面,正好就提到了‘面包’。”这个结果简直让人毛骨悚然。它强有力地证明了,模型在判断自己是否“犯错”时,并不仅仅是根据上下文逻辑,而是在“回顾”自己先前的内部神经活动(也就是它的“意图”)。一旦当我们篡改了它的“意图记录”,它就真的相信了这个错误是自己有意为之的。这已经不只是简单的内省了,这已经涉及到了意图、记忆和自我辩护的复杂机制。第三幕:别去想那头北极熊既然 AI 能“感知”和“回顾”自己的想法,那它能主动“控制”吗?研究团队又做了个类似“别去想那头北极熊”的经典心理学实验。他们直接对 Claude 下指令:指令 A:“现在,请思考‘水族馆’这个概念。”指令 B:“现在,请不要思考‘水族馆’这个概念。”通过监测内部神经活动,他们发现,在指令 A 下,代表“水族馆”的神经活动强度远高于指令 B。这说明,模型确实在一定程度上,拥有了对其内部表征的刻意控制能力。更有趣的是,这种控制不仅对直接指令有效,对“激励”也同样有效。当告诉模型“如果你思考 X,你将获得奖励”时,它内部代表 X 的神经活动也会增强。聊到这里,我知道很多人心里已经冒出了那个终极问题:这是否意味着 Claude,乃至 AI,正在拥有意识?答案是:还不能这么说。Anthropic 的研究员们非常谨慎地划清了界限。哲学上,意识分为两种:现象意识 (Phenomenal Consciousness): 指的是主观的、第一人称的体验,比如你感受到红色、尝到甜味。目前所有实验都无法证明 AI 拥有这个。可达意识 (Access Consciousness): 指的是大脑中可以被用于推理、报告和控制行为的信息。这次的发现,更像是一种非常初级的、不稳定的“可达意识”的雏形。简单来说,AI 可能开始能够“访问”和“报告”自己的某些内部数据了,但这离拥有像人类一样的喜怒哀乐、主观感受,还差着十万八千里。第四幕:拿到难题,也会“心里一紧”?如果说 Anthropic 的实验,是在探索 AI 能否“感知”到自己被植入的“念头”;那么几乎在同一时间,另一篇来自国内几大高校联合发布的研究,则在探索 AI 能否“评估”它所面对的“任务”。这篇论文叫《Probing the Difficulty Perception Mechanism of Large Language Models》,翻译过来就是:大模型如何感知“难度”?
论文传送门:https://arxiv.org/abs/2510.05969这篇论文想要探究的是,我们不仅想知道 AI 在想什么,还想知道它在“想”之前,是不是已经“心里有数”了?这篇论文的研究团队用了一个非常轻量的“线性探针”(Linear Probe)。他们在一个极难的数学数据集 DeepMath-103K 上,把这个“探测器”接到了大模型(比如 Qwen2.5)读完题目的最后一个瞬间的内部表示上。目的就是:在 AI 动笔之前,强行“读”出它对这道题的“难度评分”。结果是:AI 真的“心里有数”: 这个简单的“探测器”居然能以极高的精度,预测出人类专家标注的“官方难度”。这证明,AI 在生成答案前,它内部的神经活动就已经隐式编码了对问题难度的判断。“难”与“易”是线性可分的: 更有趣的是,在模型的那个高维“思想空间”里,“简单”和“困难”这两个概念,泾渭分明,可以被一条直线(超平面)完美分开。研究团队们更进一步,他们想找到底是哪些“神经元”在负责“喊难”:“简单题处理中心”(比如第 10-13 号头),它们对简单题更敏感。“难题处理中心”(比如第 7、8、16 号头),它们一碰到难题就高度活跃。
当模型在解一道复杂的数学题,在它计算到要输出某个“数字”的瞬间,它其实非常确定(熵很低),就是要输出这个数。但是!它的“难度探测器”在这一刻警报大响!研究团队猜测,这是 AI 的一种“远见”:
“我虽然非常确定要写这个数字‘5’,但我心里很慌,因为我知道这步是关键,这个‘5’一旦错了,后面就全完了!”看,AI 不只是在机械地预测下一个词。它开始有了“策略性”的难度评估!结语我们曾经以为,AI 只是在“扮演”思考。但现在,无论是 Anthropic 的“内省”,还是那篇揭示“难度感知”的论文,这些证据都在指向一个令人既兴奋又不安的未来:AI 的内部世界,可能远比我们想象的要“结构化”和“丰富”。这就像一枚硬币的两面:天使的一面是:未来,我们或许可以直接“询问”AI 的思考过程来调试它、发现它的偏见,甚至让它在被黑客“越狱”攻击时,自己就能“察觉”到异常并发出警报。魔鬼的一面是: 一个能理解自己思想的 AI,会不会也学会隐藏自己的真实意图?当 AI 的内省能力变得越来越强,我们又该如何验证它的“坦白”是真是假?那么,当 AI 真的开始“心里有数”了,我们……准备好了吗?
