AI 转型：强化学习与人类工作重塑

原创 StartupBoy 2025-09-16 13:37 广东

经济正在变成一个强化学习（RL）的环境模拟器，AI 正在让人类能力本身变得可共享

昨天，马斯克旗下 xAI 宣布裁员 500 名数据标注员，已经占到该团队的 1/3，这个团队主要负责 Grok 标注与整理训练数据的核心部分。

此次裁员的背后原因，是行业整体的需求已经从通用 Generalist AI Tutors 转向专业 Specialist AI Turtors，涵盖 STEM、金融、医学、安全等。

这种需求也反映在 Mercor 的快速增长中，3 月份的时候 Mercor 的年化收入刚突破 1 亿美金《从 100 万到 1 亿美金收入，AI 招聘平台 Mercor 只用了 11 个月》。

今天，Mercor CEO Brendan 说，Mercor 的年化收入（Revenue Run Rate）已经突破 5 亿美金了，从 100 万美金到 5 亿美金只用了 17 个月时间。而且增长速度仍然在加速，7 月份，其平均周环比增长 11%，8 月份周环比增长 18%，9 月份周环比增长 19%。

Brendan 说，推动这一迅猛增长的趋势在于：经济正在变成一个强化学习（RL）的环境模拟器（the Economy is Becoming an RL Environment Machine）。而强化学习变得如此高效，以至于智能体（Agent）能攻克任何基准测试，但前提仍需人类来定义奖励函数，以期实现万物自动化。

当每个人都担心失业时，我们正在以前所未有的速度创造一种新的知识型工作，未来的工作将集中在培训 Agent 上。Mercor 现在每天向平台上的人们支付超过 100 万美金，并迅速招聘几乎所有领域的专家：软件工程师、医生、律师、顾问、银行家等等。

他专门写了一篇文章谈这个趋势，Brendan 说，每次技术革命都引发了人们对失业的恐惧。工业革命用机器取代了家庭手生产者，计算机革命用电子表格和数据库取代了手工文书工作。

然而，如今的失业率却低于这些革命发生前后——而它们都催生了全新的工作类别。关于 AI 对就业市场的讨论中，一种新的工作类别正在出现，那就是训练 AI Agent。

技术发展的历史是一部普及 access 的史诗：印刷机传播思想，工业规模化劳动力，计算机数字化知识。每次革命都催生了整个新兴产业。如今，AI 正在让人类能力本身变得可共享。

人类工作的价值将发生转变。尝试试比较一下自己报一次税，与教会 AI 模型如何永远替你报税的区别。前者是变动成本，由个人和企业反复支付；后者是固定成本，一旦知识被编码，就能无限次应用。

公司规模化的关键不是靠一人包揽一切，而是建立流程并培训他人执行。同样，随着人类教会 AI 智能体自动化每个工作流，经济也将实现规模化。

强化学习（RL）已变得如此高效，足以攻克任何评测基准，但学术指标并不能反映消费者和企业关心的真实结果。我们的基准存在“模拟-现实差距”：报税是否最小化了税负？医疗建议是否改善了患者结局？教案是否真正帮助学生学到东西？

真实世界拥有更丰富的数据室、更复杂的应用与工具环境，以及来自程序员和会计师的双重要求。模型评估的前沿在于构建更丰富的环境：模拟 Google Drive 工作空间的数据室，复刻你笔记本电脑或手机上的多种应用的脚手架，以及能评估你在现实世界中近乎无限行动可能性的奖励函数。

模型还需接受更长周期任务和协作环境的评估：由医师委员会评审的纵向患者案例、并购交易中的多方谈判、市场周期波动中的风险对冲。

我们需要为经济中的每项工作、工具和任务创建环境，而这无一不需要人类劳动来构建、验证和完善——这才是工作的真正未来。

人类训练模型的市场规模，取决于人类能做而智能体尚不能完成的任务量。许多相信 ASI 必然实现的研究者轻视人类数据的作用，认为一旦 AI 在所有任务上超越人类，人类数据就将失去价值，能贡献于模型改进的人群将会大幅缩减。

他说他们曾开展过一个项目，让 100 人团队寻找前沿智能体使用工具时犯的错误，并制定评估模型错误的准则。起初，人人都能轻易难倒频繁出错的模型；六个月后，只有 20 人还能找出它的漏洞——这似乎印证了人类数据怀疑论的观点。

但当他们为智能体增加更多可访问工具，并开始推送需人类耗时十小时以上的长周期任务时，模型突然在这些挑战中频频失败，100 名参与者再次全部为项目做出了有意义贡献。因此，只要经济中还存在人类能完成而智能体无法胜任的任务，我们就将继续需要人类创建评估体系和训练智能体。

长远来看，Brandan 认为，所有人都聚焦于 AI 可能淘汰的工作（如文案撰写、律师助理、医疗记账），却极少关注它将创造的产业——由那些塑造 AI 判断、设计训练环境、确保输出符合人类标准的人群推动。

我们正进入“经验时代”，模型学习在真实世界中优化奖励。正如人类通过他人指导学习，AI 也需要强大反馈。教授设计考试和评分标准以帮助我们进步，经理通过绩效评估跟踪我们的工作表现。下一代 AI 模型同样需要这类脚手架。

工业革命创造了设计机器并保持其运行的新阶层；AI 革命也将创造新阶层，其任务是引导机器并普及其能力。这是一个巨大的悖论：AI 的未来，终将归于人类。

虽然核心已经聚焦到 RL 训练这块，但 Mercor 目前对自己的定位还是一个 AI 招聘平台。

华人团队做的 AI 招聘这块，之前我介绍过主要聚焦于匹配的产品已经做到了 100 万美金 ARR《饿了么联创做了个 AI 日历拿了 1100 万美金，华人团队做的 AI 招聘突破 100 万美金 ARR》，而由另一个由华人团队做的 AI 面试工具，不到 2 年时间已经做到了超过 1000 万美金的 ARR。

与 Mercor 专注于为 AI 企业提供 RL 人才不同，它解决的是一个比较通用、简单但也很刚需的点，也就是当你做线上面试时，AI 可以给你……

全文共 3473 字

后续内容为付费会员专属，会员扫码登录直接阅读

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签