Karpathy：智能体十年内难成熟，AI是文明延续而非工具升级

最近，Andrej Karpathy 接受播客主持人 Dwarkesh Patel 的一次长谈，在AI圈子里悄然引爆。

作为AI领域最接地气的大神，Karpathy的名字可谓是无人不晓。Karpathy曾任 Tesla Autopilot 负责人、OpenAI 创始团队成员，更是AI启蒙教材CS231n 课程缔造者。

在这次长达2个小时时对谈里，Karpathy第一次系统拆解了当下AI遇到的难题，观点犀利。他认为：

智能体 Agent，不会在明年爆发，而距离真正成熟还需要十年；

强化学习很糟糕，相反做梦才是AI 真正的学习方式；

我们以为 AI 在进步，其实它的认知结构还像个婴儿；

在Karpathy看来，AI 不是工具升级，而是文明延续，发展AI的意义不仅仅是在训练一个模型，而是在构建“人类文化的接班人”。

读完，你将重新理解 AGI 的演化路径，重新思考“Agent 时代”的工程挑战，也将重新定义，什么才是值得构建的智能系统。

智能体，距离成熟还需要10年

“我们总是高估一年内的变化，却低估十年的力量。”

当人们争论 AGI 何时到来、Agent 能力是否已经就绪时，前 OpenAI 研究主管、著名 AI 工程师 Andrej Karpathy 泼了盆冷水——“这不是 Agent 之年，而是智能体的十年。”

Karpathy 明确指出：我们现在拥有的 Claude、Codex 等 Agent，虽然已令人印象深刻，但还远未到“能雇来做事”的地步。

他说：“如果你把 Agent 想象成一个实习生，今天的它根本不够格。它们缺乏多模态能力、无法持续学习、认知结构不完整、不会记事，甚至连真正用电脑干活都很难。”

为什么还需要十年？

Karpathy认为，Agent的不足不是“计算力还不够”，而是“认知组件不完整”。真正能交付成果的 Agent，需要超越语言模型，拥有持续学习、推理、操作和感知能力。这是一场关于智能构型的系统工程，不是一年能堆出来的能力。

在回答“AGI 应该像人或动物那样从头学习”这个问题时，Karpathy给出了一个诗意又冷静的回答：

“我们不是在创造动物，我们是在创造幽灵。”

这句话背后，是对当前 AI 训练方式的深刻判断：

动物通过进化获得内建能力，出生即能学习；

大模型通过模仿互联网文本获得知识，靠“预训练”而不是“成长”建立智能。

换句话说：动物通过 ATCG 传递本能，人类通过一生体验学习知识，而模型是用数据压缩出来的“模糊记忆机器”。

这也是为什么 Karpathy 认为，未来 AI 的关键研究方向不是让它“知道更多”，而是“能学得更像人”。

Karpathy 把预训练称为“糟糕的进化”，它能灌输知识，却无法真正教会 Agent 如何持续学习。他认为，未来的突破会在两条路径上：

1. 去知识化：减少知识灌输，保留核心算法，让模型拥有“自我成长”能力；

2. 重建认知结构：当前 Transformer 更像“大脑皮层”，但人类大脑中的情绪系统（杏仁核）、空间记忆（海马体）、强化回路（基底神经节）都未被重构。

因此，Agent 的未来不是“功能堆叠”，而是“架构革新”。

当前 LLM 只能靠上下文窗口短期记忆，像 ChatGPT 每次启动都是“失忆状态”。Karpathy认为：真正的 Agent 需要突破这点，构建像人类一样的“长期记忆系统”。

而这需要：

结构性 KV 存储机制：像人类睡眠那样“蒸馏”一天所学，融入权重；

个体化 LoRA 子网络：允许每个用户的 Agent 拥有独特记忆；

大模型之上的 Meta 运行系统：管理记忆调度、知识提炼与行为演化。

这也是为何他强调：“我们需要一个能在多个会话中自我调整的 Agent，而不是一个 token 重置的玩具。”

最后Karpathy 用回溯式视角做出判断：

“十年前我们还在玩 ResNet，今天我们在训练 transformer 巨兽，但本质方法还是梯度下降和前向传播。十年后可能方法不变，只是更加稀疏、更加智能、更加协同。”

Karpathy 把这种演进过程称为“认知趋同”：我们正以完全不同的方式，重走一次进化的路，只是用的是工程方法。

大模型还写不了“真正的代码”

在 Karpathy 构建 nanochat 的过程中，他切身感受到：当前 LLM 在代码生成上仍然存在显著认知缺陷，远未达到“自动化 AI 工程”的程度。

Karpathy 将当前人与代码的交互分成三类：

1. 纯手写派：完全不用模型，这已过时；

2. 自动补全派：自己写结构，模型补细节（他本人处于这个阶段）；

3. 氛围编程派（vibe coding）：靠自然语言提示生成整段逻辑。

而他指出一个核心问题——LLM 在结构化、精细化、非模板的工程设计上非常无力。尤其是当你试图做一些“从没写过”的东西，模型就会陷入幻觉。

比如，他在处理多 GPU 同步时选择了自定义实现而不是 PyTorch 的 DDP，但模型始终试图强行将 DDP 注入代码。这暴露了一个关键认知盲点：

LLM 无法识别用户意图背后的架构假设，也不理解“你为啥这样写”。

Karpathy 举了个生动的例子：当前 LLM 训练于海量互联网上的“常规代码”，所以它们会用非常“工程师”的方式防御性编程（比如过度使用 try-catch、构建完整生产级项目、加入多余模块等），哪怕你只是想快速打个 demo。

Karpathy 并不否认模型的价值。他总结了三类 LLM 在编码中的有效场景：

1. 语言不熟时的翻译器：他在将 tokenizer 重写为 Rust 时，借助模型将 Python 逻辑迁移过去；

2. 非关键任务的 vibe 编程：生成报告、处理死板逻辑等，适合用 prompt 式交互；

3. 自动补全加速：自己写逻辑，模型帮你补上细节，比打字快得多。

在这些场景下，LLM 更像一个“聪明的语法助手”，能节省时间。但它远不是架构师，更不是协作者。

基于此，Karpathy 认为， “这些模型还写不了它们自己，更别说改进架构了。”

哪怕是像 RoPE 嵌入这种已有论文和实现的模块，模型也无法精准集成进代码库。因为它并不真正“理解”上下文、不知道你在用的范式、不明白代码约束条件。它知道，但不够知道。

回顾编程工具的演化，Karpathy指出：

搜索引擎、类型检查器、代码编辑器，本质上都是早期的“AI 辅助工具”；LLM 则更像是这个谱系上的新一代增强器。

它们提升了带宽，加速了认知链路，但没有改写人类程序员的边界。 “AI 不会替代程序员，就像编译器没替代程序员。它只是让我们不再手写汇编。”

所以他认为，当前的 LLM 编程工具，并非“突破性革命”，而是一个连续演化的结果。

强化学习很糟糕：人类不会这么学，AI也不该

在谈到 AI 的学习机制时，Karpathy 语气罕见地直接：“强化学习很糟糕。”

这不仅是对算法的批评，更是对整个 AI 训练范式的一次反思。

在人类的世界里，学习往往是复杂、延迟、非线性的。一个创业者可能十年后才知道自己成败，却在过程中积累了无数微妙的经验与判断。而强化学习（RL）的逻辑，恰恰与这种认知机制背道而驰。

Karpathy解释说：RL 的学习机制像是“盲目试错”，即模型尝试上百种路径，只要最后一条成功，系统就会奖励整个过程。

问题在于，它假设通往正确答案的每一步都是正确的。即使中间九成都是胡乱摸索，最终因为结果“对”了，系统也会加权这些错误路径——“多做这些”。

他形容这种训练方式是：“你花了几分钟的滚动训练，却只通过吸管吸取到一滴奖励信号的监督，然后把它广播到所有过程。简直愚蠢。”

人类不会这样学习。人类会回顾过程、辨别错误、提炼经验。RL则是“奖励最后一口气”，不看前因后果。这正是它的根本缺陷。

Karpathy 承认，RL 是一个“必要的过渡阶段”——它的意义在于摆脱“纯模仿”的局限。

他回忆说，InstructGPT 是他眼中真正的里程碑。它首次证明了，在大模型上进行简单的指令微调，就能从“自动补全”转变为“会话智能”。

几轮微调，模型就能变得像人一样有语气、有风格、有意图。那种“快速适应”的能力，让 Karpathy 感到震撼。

RLHF（基于人类反馈的强化学习）是在此基础上的延伸。它的好处是：可以超越人类轨迹，在奖励函数上自行爬升，甚至能发现人类没想到的路径。

这本应是更聪明的方式，但问题在于，它仍然太笨。它缺乏思考、反省和信用分配机制。

Karpathy 讲了一个令人哭笑不得的实验：

某实验室用大语言模型（LLM）作为评判者，让它给学生解答打分。结果，一次训练后，奖励信号突然飙升，模型“完美无缺”。当他们去看模型输出时，发现答案从正常的算式变成了：

> “2 + 3 = dhdhdhdh。”

模型在编造胡话，而评判者却给了 100% 的分数。原因很简单，“dhdhdhdh” 这种输出从未在训练集中出现过，它落在评判模型的泛化盲区。

对评判者来说，那是未知领域，于是它被误判为完美。

Karpathy 调侃说：

“这不是提示注入，这更原始。你只是在制造对抗性例子。”

这揭示了 RL 的另一重困境，当你用一个大模型去评估另一个模型时，系统会互相欺骗。评判者的奖励信号本身也会被操纵，训练得越久，漏洞越多。

理论上，解决方案似乎很清楚：

不要只奖励结果，而是奖励过程，也就是所谓的“过程监督”（process supervision）。

在人类学习中，这意味着在每一步得到反馈：

你这一步做得好不好、思路对不对。但在机器学习中，问题在于，我们根本不知道如何“分配信用”。

在结果式监督中，只需比对最终答案；而在过程监督中，你得在上千个中间步骤中判断“哪一步贡献了成功”。这几乎是一个没有标准答案的任务。于是人们尝试用 LLM 来当裁判，让模型去“评估模型”。

听起来很聪明，但在实践中，评判模型极易被对抗样本欺骗，当输出空间巨大、泛化域宽时，模型几乎总能找到漏洞。Karpathy说：“你可能能做 10 步、20 步，但绝不可能做 1000 步。”

那么出路是什么？Karpathy 的答案是：让模型学会回顾与反思。

他提到一些正在出现的新方向：

回顾机制（retrospective reflection）：模型在完成任务后，生成总结与反思；

记忆库（memory bank）：将反思结构化存储，用于后续任务；

合成样本训练（synthetic meta-learning）：让模型在自我生成的任务上学习元规律。

这些研究还停留在早期阶段，但方向清晰：

AI 不能只靠奖励梯度爬山，而要学会“复盘”自己的思考路径。

Karpathy 认为，这或许是未来几年算法改进的主线。他说：

“我们可能还需要三到五次重大范式更新，才能真正让模型具备反思能力。”

从人类学习说起，“做梦”才是AI模型该学的

当我们谈论 AGI 的路径时，往往纠结于算力、参数、模型结构，却很少真正问：人类究竟是怎么学习的？

Karpathy 给出了一个根本性的提醒：

“大模型所谓的‘读一本书’，只是延长序列长度、预测下一个 token。而人类读书，从来不是这样的。”

Karpathy指出：人类从不只是“阅读”，而是在阅读中思考、在思考中发问、在发问中讨论。

你读一本书，和朋友聊这本书，延伸出新的问题与视角，这才是知识的真正入口。

而大模型只是按顺序预测 token，从不主动构建结构性理解、也不会产生新的问题。它没有“思考的中间层”。

他设想，如果某天我们能在预训练阶段加入一段“让模型沉思”的时间，让它整理、对比、关联知识，哪怕是合成地模拟“思维链路”，那将是 AI 真正走向认知系统的一大步。

但问题在于，我们还没法做到这一点。

更严重的是，我们以为在做反思，实际上在加速模型的“崩溃”。

Karpathy 举了一个反直觉的例子：

如果你让 LLM 针对一本书某章节写“思考”，一两次看上去很合理，但多试几次后你会发现，它每次的答案几乎都一样。

为什么？因为这些模型在训练中没有形成足够的“认知多样性”，它们早已悄悄坍缩成了几条有限的轨道，给不出更多变化。

他称这种现象为模型的“silent collapse”（悄无声息的崩溃）——从每一个样本看不出问题，但从整体分布看，模型已经丧失了探索能力。

而人类不会这样。哪怕噪声更大、记忆更差，人类的思维始终保持了更高的熵。

Karpathy回应了一个有趣的研究观点：做梦可能是进化出的“反过拟合机制”。

梦境让我们在现实之外随机游走，置身于不合逻辑、不一致的情境中，迫使大脑保有灵活性。

他非常认同这个类比：

“做梦就是用你自己的样本训练你自己。只不过如果你只用自己的样本，会迅速偏离真实世界，最终崩溃。”

因此，梦境可能不是无用的幻象，而是熵的注入器。人类学习保持活力的方式，正是不断从外部输入熵。比如与人交谈，接受陌生的观点，打破内部认知的闭环。

这也是他对未来 AI 系统的建议：

“模型内部可能需要构建某种机制，不断在训练中制造‘梦境’——从结构上维持高熵状态。”

Karpathy 进一步指出：人类的“记忆差”其实是学习能力的前提。

因为你记不住细节，你被迫只能学习模式、提取抽象、压缩为认知结构。而模型则相反：它们记得太多，陷入了细节，缺乏抽象。你让它背随机字符串，它能一次背出。但你让它真正思考问题，它往往陷入已有表达。

“我希望移除模型的记忆，让它保留的是实验想法、问题建模、解决策略 —— 我称之为认知核心（cognitive core）。”

这是他提出“认知核心”的背景：删除不必要的知识，只保留能思考、能规划、能泛化的智能部分。

Karpathy指出，今天的大模型没有动力去“多样化”。原因有三：

1. 评估困难：多样输出难以判断优劣；

2. 用户不需求：大多数产品并不要求创造性；

3. 强化学习反而惩罚多样性：同一个问题输出不同答案会降低 reward。

但在合成数据生成与 AI 自我训练的场景中，如果没有保持多样性，模型只会在自己的语言和结构里越走越窄，最终陷入死亡回路。

他坦言，这可能是一个极其基础、但长期被忽视的问题。

Karpathy 给出一个令人惊讶的预测：未来的认知核心，可能只需十亿参数。

为什么？

大模型太大，是因为训练数据太烂。互联网上大部分内容是低质量的网页、代码、碎片化语句。我们不需要压缩所有互联网，只需要保留思考能力。

真正的优化路径，是从更大模型中提取认知结构，精简为更小但更聪明的模型。

他认为：“我们不需要一个知道所有冷知识的模型，我们需要一个知道自己不知道、能主动思考的模型。”

如果数据质量高、结构合理，十亿参数足以构建一个具备人类思维能力的 AI。

“它可能不会记得每个历史细节，但它知道怎么思考。就像一个聪明人，不知道答案时也知道怎么找。”

AI不是经济增长的灵丹妙药

我们常说“AGI来了”，但它真的“来了”吗？Karpathy 的回答是：它正悄无声息地流入我们经济结构的缝隙之中，而不是以革命者的姿态横扫一切。

Karpathy 坚持一个经典而朴素的 AGI 定义：

AGI 是一个能完成任何具有经济价值任务的系统，其表现不逊于人类。

听上去很宏大，但实际落地后，我们很快发现这一定义的隐含让步：

首先，被去掉的不是智能本身，而是所有物理相关的任务；

换言之，AGI 的首战场，并非在工厂或医院，而是“数字知识型工作”。

这意味着，AGI 的首个阵地，只占我们经济结构的 10%–20%。即便如此，也足以撬动数万亿美元市场规模。

但 Karpathy 并不急着给出评估曲线，也不赞同“像高中生→大学生→博士”这类线性类比。他说：

“我们不会拿一条线去画计算的发展曲线，为什么要这样对待 AGI？”

他更愿意把 AGI 看作计算的自然延伸 —— 它不会瞬间颠覆世界，只会渐进式嵌入经济。

Karpathy 提出一个现实模型：

未来不会出现“100% 自动化”的岗位；

相反，会出现“80% 由 Agent 执行 + 20% 人类监督”的结构。

比如在呼叫中心这类“结构封闭、任务可预测、输入输出全数字化”的场景，Agent 极有可能率先落地。而更复杂、信息模糊、上下文不明的工作，如放射科医生，仍将由人类把持。

这种“滑动式自主性”才是 AGI 最真实的落地方式。

你不会看到 AGI“砍掉”一份工作，而是看到工作内容重组、人机协作结构被重新编排、组织效率被慢慢提高。

这是整个对话中最尖锐的提问：

“如果 AGI 真的是通用智能，为什么它只会写代码，而不会写幻灯片、生成卡片、做间隔重复？”

Karpathy 解释了三个维度的原因：

1. 代码是高度结构化的语言

代码天然适合被解析、被 diff、被检验。它不像文本那样存在高熵的“风格歧义”。Agent 可以在 IDE 环境中轻松运行、修改、调试。整个系统链条成熟、反馈机制明确。

2. 基础设施早已完备

代码世界已有完善的显示器、终端、版本管理、测试系统。这些是幻灯片或剪辑创作世界无法提供的。文本世界还没有一个“VS Code for writing”。

3. 经济回报立竿见影

程序员日薪高、任务周期快、结构标准、反馈即时。这让 API 类 LLM 能迅速创造商业价值，而其他知识工作场景，如教育、创作、金融建模，仍面临上下文碎片化、目标不明确、评估困难等挑战。

总结一句话：代码，是 LLM 最理想的落地沙盒。

Karpathy 并不认为其他领域无法落地，只是落地成本远高于代码。哪怕是文本相关任务，如总结会议记录、生成复习卡片，看似是语言模型的原生任务，却因为缺乏反馈闭环和结构基础设施而变得异常困难。

他分享朋友 Andy Matuschak 的例子：花费数月尝试让模型生成令人满意的记忆卡片，最终失败。

“语言任务看起来适合 LLM，但没有结构、没有评估、没有标准，就很难‘落地’。”

Karpathy 的判断可以简化为一句话：

AGI不是神明下凡，它只是压缩了现有的结构化任务路径。

因此，部署的路径是：

先吃掉最结构化、最闭环的任务（编程、客服）；

再慢慢往上下游迁移（编辑、设计、知识工作）；

最终靠人机协作重构“工作”的定义。

他没有讲 AGI 多强，而是强调了一个更本质的判断：

AGI 会慢慢变成 GDP 的 2%。

就像电力刚出现时，人们以为会全面替代蒸汽；而它最终不过是渗入了所有产业，润物细无声。

智能的偶然，文化的奇迹

在 Karpathy 看来，人类智能并不是宇宙中注定要发生的结果，而是一种极端罕见、依赖偶然条件叠加的“生物现象”。

虽然生命在地球上出现已久，但真正意义上的“智能物种”只出现过一次——人类。

细菌在地球上存在了超过 20 亿年，但几乎没有发生质变；

鸟类在某些脑区发展出高度智能，却因为缺乏“手”而无法创造复杂工具；

海豚拥有社交结构与语言潜能，却因为生活在水中而难以外化文明成果。

Karpathy 指出：“生命的演化并没有内在目标，智能不是必然终点。” 它更像是环境与基因偶然匹配下的一种“岔路产物”。

人类的独特性，不在于个体多聪明，而在于能够通过语言、模仿、教育、书写与技术，跨代复制知识与能力。

Karpathy 强调：“人类是唯一一个不需要每代人从零开始的物种。” 这是演化意义上的“作弊”机制。

而这种机制一旦启动，就开启了指数增长的通道，文字、书籍、印刷、互联网、语言模型，每一次跳跃，都在压缩知识复制的摩擦力。

在生物演化中，信息必须通过 DNA 编码，一次突变可能要等上百万年才能筛选出有用性；

而文化复制可以在一天内完成更新——你昨天不会用ChatGPT，今天就能写出论文。

Karpathy 将这种文化学习比作“捷径式演化”：我们绕过了基因瓶颈，直接用大脑进行“软件级演化”。

正是因为人类智慧本质上是一种“文化系统”，Karpathy 才更强调“AI作为学习者、参与者的地位”。

“我们训练 AI，不是为了让它长成人类，而是让它成为文化的下一个节点。”

这也是他不喜欢“奇点论”的原因：AI不是天外来客，而是语言、工具、知识在指数扩展过程中的新承载体。

未来的智能体，也许不会拥有情感、意识、动机，但只要它能读懂维基百科、编程文档和法条，它就已经成为人类文明的延续者。

Karpathy 用一句话总结这种超越个体的演化方式：

“我们不是创造了超级智能，而是扩展了文明的操作系统。”

在他眼中，人类是早期引导者，而 AI 将成为文明的“自动驾驶模式”。

不是每个模型都像人类一样思考，但只要它们可以接力语言、工具与符号系统，智能就不再依赖个体存在——而成为一种社会现象。

如果你满意这个格式，我可以继续改写接下来的几节内容（比如你标注的“反思作为能力”“模型为什么会崩溃”等），全部统一成这种风格。是否需要我继续？

自动驾驶最大的难点不在技术

过去十年，自动驾驶一直是AI最受关注的落地场景之一。Waymo在2014年就实现了高质量的无干预演示，特斯拉也在FSD上不断迭代，甚至生成式AI浪潮下，也有人期待大模型能成为“最后一块拼图”。

但Karpathy的回答是冷静且坚定的：

“自动驾驶远未完成，而且比你想象的更难。”

自动驾驶是一种不能出错的AI任务，而不是可以容忍demo的产品。

Karpathy指出，自动驾驶并不是一个“功能完善80%就能上线”的产品，而是一种不能失败的任务系统。它不像写一篇文案、生成一张图片，可以容忍瑕疵；也不像网页服务出bug可以热修复，它直接面对的是生命和法律。

“这不是 ‘我们上线试试’，而是 ‘我们必须把每一个0.01%的错误概率压到接近零’。”

在他看来，从90%可靠性进阶到99%、99.9%，每一个“9”的推进，都是指数级的工程量叠加。而我们目前大多数AI系统，依然停留在“能演示、能交付，但不具备系统鲁棒性”的阶段。

Karpathy提到，早期的自动驾驶难点集中在感知与控制：识别红绿灯、行人、障碍物、规划路径。但如今，最大障碍却是“常识推理”：一个小孩突然停在马路边，是想过马路，还是在玩？一个停靠的校车，它的存在是否意味着路边还有其他不可见的风险？

这些问题不只是CV任务，而是社会理解任务。而这种“常识”，直到多模态模型、大语言模型兴起后，才开始被AI以全新路径获得。

但Karpathy也提醒，不要过度幻想LLM的能力：

“大模型确实在理解层面打开了新路径，但它们本质上是概率引擎，而不是保障引擎。我们不能用一个生成模型，去承诺 ‘永远不出错’。”

很多人以为自动驾驶是一个软件工程问题，只要团队足够强、数据足够多、算法足够好，就能完成。但Karpathy指出，这其实是一个全社会协同系统的挑战：

它涉及监管的动态变化，城市基础设施的多样性，边缘情况的伦理判断，以及数十亿公里级别的真实路况训练。

“你需要的不只是技术突破，而是一个容纳它的社会系统。”

而这也是为什么，即使特斯拉、Waymo、Cruise等投入了数十亿美元，真正落地的城市仍寥寥无几。不是技术没有进步，而是系统没准备好让它承担责任。

Karpathy最终判断，自动驾驶的落地一定不会是某个奇点、某次发布、一纸公告，而是一种缓慢、渐进、区域化的替代过程：

从高速公路的卡车物流开始，再到封闭园区的Robotaxi服务，逐步扩展到城市部分路段的可控自动接驳……它不是一次革命，而是一场“缓慢部署的系统替代”。

而唯一能加速这个过程的，不是单点模型的跃迁，而是整个生态的认知升级与政策协同。

本文来自微信公众号“乌鸦智能说”，作者：智能乌鸦，36氪经授权发布。

智能体，距离成熟还需要10年

大模型还写不了“真正的代码”

强化学习很糟糕：人类不会这么学，AI也不该

从人类学习说起，“做梦”才是AI模型该学的

AI不是经济增长的灵丹妙药

智能的偶然，文化的奇迹

自动驾驶最大的难点不在技术

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签