PaperWeekly 3小时前
AI思维控制的新篇章:实时调控与表征工程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AI大模型控制技术的演进,从Prompt Engineering到Context Engineering,再到如今的Steering技术。Steering技术通过直接干预模型推理过程中的内部激活态,实现低成本、高可控性的模型行为引导,无需重新训练或复杂提示词。该技术建立在表征工程和线性假说的基础上,通过识别并操控模型内部的语义知识空间来引导模型生成。文章回顾了CAA和STA等早期方法,并介绍了RICE等最新策略,展示了Steering技术在提升模型认知能力和通用性方面的潜力,为未来AI模型的精细化控制提供了新思路。

💡 **Steering技术开创AI实时思维控制新模式**:相较于传统的Prompt Engineering和Context Engineering,Steering技术提供了一种无需重新训练模型或依赖复杂提示词的全新AI行为调控方式。它通过直接干预模型在推理过程中的内部激活态(Activation),实现对模型生成行为的实时、精准引导,具有低成本和高可控性的优势,能够解决提示不稳等实际应用痛点。

🧠 **表征工程与线性假说奠定Steering技术基础**:Steering技术的发展根植于表征工程和线性假说。研究表明,大模型的隐藏层并非随机,而是存在结构化的语义知识空间。通过识别并操控这些代表特定概念(如“诚实”或“伤心”)的方向向量,可以显著改变模型的输出行为,例如CAA方法通过对比激活状态计算方向向量,而STA则将复杂行为分解为可组合的“原子单元”。

🚀 **最新策略RICE提升MoE模型数学推理能力**:腾讯联合浙江大学提出的RICE策略,是一种针对MoE(Mixture of Experts)架构模型的新型思维调控方法。该策略通过精确识别模型中负责推理的认知专家,并在推理过程中激活并强化特定专家,能够在不进行额外训练的情况下,显著提升模型的数学推理能力,例如使Deepseek-R1在数学推理上提高10%,同时保持了模型的通用性,为MoE模型的设计提供了新思路。

原创 让你更懂AI的 2025-10-19 12:35 北京

表征工程的下一站:实时思维控制

过去几年,Prompt Engineering 通过设计提示词引导大模型生成答案,而 Context Engineering 进一步强调优化输入上下文,使模型在推理过程中获得更多相关信息,从而提升理解力与生成效果。

如今,研究者发现,大模型的“脑回路”可以被更直接地干预和调控(steering)。这意味着,我们不必重新训练模型,也不用依赖复杂的提示词,仅在推理阶段就能让模型的行为更可控、更符合需求;是一种低成本、可控性强的解决方案。

为什么要Steer:实际应用中的痛点

Steering 技术则提供了一种全新的思路:在模型推理过程中,通过直接干预其内部的激活态(Activation),来实时引导其生成行为。这就像在大模型高速运转的大脑中,直接激活或抑制某些“思维区域”,使其朝着你期望的方向思考。

这种方法就像是在控制方向盘,让你在模型生成答案的每一步都能实时、精准地调控它的“想法”。 

Steering的历史发展

Steering 建立在 表征工程(Representation Engineering)[1] 和线性假说(Linear Hypothesis)[2] 的基础上。  

研究者发现,大模型的隐藏层并不是杂乱无章的,而是存在某种结构化的语义(知识)空间。  

这就好比模型的“脑海”里有很多方向:一个方向可能代表“开心”,另一个方向代表“伤心”。如果我们能找到并操控这些方向,就能改变模型的行为。 

早期经典的 CAA [3] 方法通过对比两个相反的概念,来找到控制模型行为的方向。

比如,你想让模型更“诚实”,你可以用模型诚实回答问题时的内部激活状态  减去不诚实回答的内部激活状态 ,就得到了“诚实”这个概念的方向向量 

 是正向(诚实)回复内容在前向传播过程中第  层的 hidden state,同理  是负向(不诚实)回复内容在前向传播过程中第  层的 hidden state。通常  取模型 middle layers 的某一层。

在后续的推理中,只要把这个向量加到模型里,就能让它像打了“诚实”的兴奋剂一样,生成更诚实的回答。

随后,STA [4] 进一步把复杂的行为拆解成更基础的“原子单元”,找到这些最小单元后就能像搭积木一样,在模型里组合、激活它们,从而实现稳健的控制。 如下图所示 STA 可以精准地提升模型的安全防御能力。 

Anthropic 在 steering 策略上也做了大量的探索,比如寻找大模型各种行为的方向向量,以及用大模型的人格向量 [5] 解释模型的风险行为,并提倡借助人格向量筛选数据并监控模型的训练范式。

调控千亿超大模型思维方式的策略RICE(已被NeurIPS 2025接收)

腾讯联合浙江大学深入研究,联合提出调控超大模型思维方式的策略 RICE [6]。RICE 使用标准化点互信息指标精确识别 MoE 架构模型中负责推理的认知专家。在模型推理过程中只需要激活并强化两个认知专家,就能使 Deepseek-R1 的数学推理能力提高 10%。

与传统的提示工程或解码约束方法相比,该工作提出的策略在无需额外训练的前提就能提升模型的认知能力且保持了模型的通用能力,为未来 MoE 架构模型的设计提供了新的思路。

总的来说,从最初的简单对话,到能够像握方向盘一样对 AI 行为进行实时引导,Steering 技术为我们提供了一种更直接的方式来控制模型的决策过程。它也许可以让我们有机会逐步揭秘 AI 的行为规律,更好地引导其在不同任务中发挥作用。

参考文献

[1] Representation Engineering: A Top-Down Approach to AI Transparency

[2] The Linear Representation Hypothesis and the Geometry of Large Language Models

[3] Steering Llama 2 via Contrastive Activation Addition

[4] Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

[5] Persona vectors: Monitoring and controlling character traits in language models

[6] Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Steering 表征工程 Representation Engineering 大模型 Large Language Models AI控制 AI Control MoE RICE Prompt Engineering Context Engineering
相关文章