投资实习所 09月25日
AI 转型:强化学习与人类工作重塑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着 AI 技术的快速发展,经济正在转变为一个强化学习(RL)的环境模拟器。AI 正在让人类能力本身变得可共享,推动工作从通用 AI 教练向专业 AI 教练转变。Mercor 作为 AI 招聘平台,年化收入迅速增长,反映了这一趋势。AI 需要人类定义奖励函数,以实现万物自动化。未来工作将集中在培训 AI Agent 上,人类工作的价值将发生转变,从变动成本变为固定成本。经济规模化将依赖于建立流程并培训他人执行,而 AI 正在推动这一进程。模型评估需要更丰富的环境,包括模拟真实世界的数据室、应用和工具环境,以及评估真实世界行动可能性的奖励函数。人类在构建、验证和完善评估体系方面仍不可或缺。我们正进入“经验时代”,AI 需要强大反馈来学习真实世界中的优化奖励。

🔍 经济转型为强化学习环境:随着 AI 技术的快速发展,经济正在转变为一个强化学习(RL)的环境模拟器。AI 正在让人类能力本身变得可共享,推动工作从通用 AI 教练向专业 AI 教练转变。

💼 Mercor 的快速增长:Mercor 作为 AI 招聘平台,年化收入迅速增长,反映了这一趋势。AI 需要人类定义奖励函数,以实现万物自动化。未来工作将集中在培训 AI Agent 上。

📈 人类工作价值转变:人类工作的价值将发生转变,从变动成本变为固定成本。经济规模化将依赖于建立流程并培训他人执行,而 AI 正在推动这一进程。

🧪 模型评估需求:模型评估需要更丰富的环境,包括模拟真实世界的数据室、应用和工具环境,以及评估真实世界行动可能性的奖励函数。

🤝 人类不可或缺:人类在构建、验证和完善评估体系方面仍不可或缺。我们正进入“经验时代”,AI 需要强大反馈来学习真实世界中的优化奖励。

原创 StartupBoy 2025-09-16 13:37 广东

经济正在变成一个强化学习(RL)的环境模拟器,AI 正在让人类能力本身变得可共享

昨天,马斯克旗下 xAI 宣布裁员 500 名数据标注员,已经占到该团队的 1/3,这个团队主要负责 Grok 标注与整理训练数据的核心部分。

此次裁员的背后原因,是行业整体的需求已经从通用 Generalist AI Tutors 转向专业 Specialist AI Turtors,涵盖 STEM、金融、医学、安全等。

这种需求也反映在 Mercor 的快速增长中,3 月份的时候 Mercor 的年化收入刚突破 1 亿美金《从 100 万到 1 亿美金收入,AI 招聘平台 Mercor 只用了 11 个月》。

今天,Mercor CEO Brendan 说,Mercor 的年化收入(Revenue Run Rate)已经突破 5 亿美金了,从 100 万美金到 5 亿美金只用了 17 个月时间。而且增长速度仍然在加速,7 月份,其平均周环比增长 11%,8 月份周环比增长 18%,9 月份周环比增长 19%。

Brendan 说,推动这一迅猛增长的趋势在于:经济正在变成一个强化学习(RL)的环境模拟器(the Economy is Becoming an RL Environment Machine)。而强化学习变得如此高效,以至于智能体(Agent)能攻克任何基准测试,但前提仍需人类来定义奖励函数,以期实现万物自动化。

当每个人都担心失业时,我们正在以前所未有的速度创造一种新的知识型工作,未来的工作将集中在培训 Agent 上。Mercor 现在每天向平台上的人们支付超过 100 万美金,并迅速招聘几乎所有领域的专家:软件工程师、医生、律师、顾问、银行家等等。

他专门写了一篇文章谈这个趋势,Brendan 说,每次技术革命都引发了人们对失业的恐惧。工业革命用机器取代了家庭手生产者,计算机革命用电子表格和数据库取代了手工文书工作。

然而,如今的失业率却低于这些革命发生前后——而它们都催生了全新的工作类别。关于 AI 对就业市场的讨论中,一种新的工作类别正在出现,那就是训练 AI Agent。

技术发展的历史是一部普及 access 的史诗:印刷机传播思想,工业规模化劳动力,计算机数字化知识。每次革命都催生了整个新兴产业。如今,AI 正在让人类能力本身变得可共享。

人类工作的价值将发生转变。尝试试比较一下自己报一次税,与教会 AI 模型如何永远替你报税的区别。前者是变动成本,由个人和企业反复支付;后者是固定成本,一旦知识被编码,就能无限次应用。

公司规模化的关键不是靠一人包揽一切,而是建立流程并培训他人执行。同样,随着人类教会 AI 智能体自动化每个工作流,经济也将实现规模化。

强化学习(RL)已变得如此高效,足以攻克任何评测基准,但学术指标并不能反映消费者和企业关心的真实结果。我们的基准存在“模拟-现实差距”:报税是否最小化了税负?医疗建议是否改善了患者结局?教案是否真正帮助学生学到东西?

真实世界拥有更丰富的数据室、更复杂的应用与工具环境,以及来自程序员和会计师的双重要求。模型评估的前沿在于构建更丰富的环境:模拟 Google Drive 工作空间的数据室,复刻你笔记本电脑或手机上的多种应用的脚手架,以及能评估你在现实世界中近乎无限行动可能性的奖励函数。

模型还需接受更长周期任务和协作环境的评估:由医师委员会评审的纵向患者案例、并购交易中的多方谈判、市场周期波动中的风险对冲。

我们需要为经济中的每项工作、工具和任务创建环境,而这无一不需要人类劳动来构建、验证和完善——这才是工作的真正未来。

人类训练模型的市场规模,取决于人类能做而智能体尚不能完成的任务量。许多相信 ASI 必然实现的研究者轻视人类数据的作用,认为一旦 AI 在所有任务上超越人类,人类数据就将失去价值,能贡献于模型改进的人群将会大幅缩减。

他说他们曾开展过一个项目,让 100 人团队寻找前沿智能体使用工具时犯的错误,并制定评估模型错误的准则。起初,人人都能轻易难倒频繁出错的模型;六个月后,只有 20 人还能找出它的漏洞——这似乎印证了人类数据怀疑论的观点。

但当他们为智能体增加更多可访问工具,并开始推送需人类耗时十小时以上的长周期任务时,模型突然在这些挑战中频频失败,100 名参与者再次全部为项目做出了有意义贡献。因此,只要经济中还存在人类能完成而智能体无法胜任的任务,我们就将继续需要人类创建评估体系和训练智能体。

长远来看,Brandan 认为,所有人都聚焦于 AI 可能淘汰的工作(如文案撰写、律师助理、医疗记账),却极少关注它将创造的产业——由那些塑造 AI 判断、设计训练环境、确保输出符合人类标准的人群推动。

我们正进入“经验时代”,模型学习在真实世界中优化奖励。正如人类通过他人指导学习,AI 也需要强大反馈。教授设计考试和评分标准以帮助我们进步,经理通过绩效评估跟踪我们的工作表现。下一代 AI 模型同样需要这类脚手架。

工业革命创造了设计机器并保持其运行的新阶层;AI 革命也将创造新阶层,其任务是引导机器并普及其能力。这是一个巨大的悖论:AI 的未来,终将归于人类。

虽然核心已经聚焦到 RL 训练这块,但 Mercor 目前对自己的定位还是一个 AI 招聘平台。

华人团队做的 AI 招聘这块,之前我介绍过主要聚焦于匹配的产品已经做到了 100 万美金 ARR《饿了么联创做了个 AI 日历拿了 1100 万美金,华人团队做的 AI 招聘突破 100 万美金 ARR》,而由另一个由华人团队做的 AI 面试工具,不到 2 年时间已经做到了超过 1000 万美金的 ARR。

与 Mercor 专注于为 AI 企业提供 RL 人才不同,它解决的是一个比较通用、简单但也很刚需的点,也就是当你做线上面试时,AI 可以给你……

共 3473 

后续内容为付费会员专属,会员扫码登录直接阅读

Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读

订阅 Memo Pro

Memo(vcsmemo.com)是一个基于付费订阅模式的创投内容平台,已得到大量 VC、企业 CEO 以及高管的支持,我们希望帮助你捕捉最具价值的行业信号、过滤噪音(Signal,Not Noise)。

订阅 Memo Pro你将获得:

1.解锁未来一年以及之前的所有会员专属内容

2.邮件订阅功能:付费内容+最新行业快讯+...

3.优先体验 Memo 新产品和新功能

4.后台回复“发票”获得开票入口

限时 799 元/年(原价 999 元/年),扫码立即订阅

1.从 100 万到 1 亿美金收入,AI 招聘平台 Mercor 只用了 11 个月

2.饿了么联创做了个 AI 日历拿了 1100 万美金,华人团队做的 AI 招聘突破 100 万美金 ARR

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 强化学习 经济转型 Mercor 人类工作
相关文章