Scale AI 最新的 Remote Labor Index(RLI)基准测试结果显示,Manus 在 AI 生成成果的专业性和客户付费意愿方面取得了业界领先的成绩,超越了 Claude 4.5 Sonnet 和 ChatGPT Agent 等竞争对手。尽管 Manus 仅获得 2.5% 的得分,但其 ELO 评分 510 显著高于其他智能体,表明其表现远超竞争对手。值得注意的是,Manus 在 6 月份接受测试,而 Claude 4.5 Sonnet 和 GPT-5 则在此之后发布,预示着 Manus 1.5 版本有望取得更优异的表现。Manus 在激烈的 AI 竞争中已连续八个月保持领先地位,未来有望继续提升其在该基准测试中的得分。
🏆 **Manus 在 RLI 基准测试中取得领先地位:** Manus 在 Scale AI 最新发布的 Remote Labor Index(RLI)基准测试中表现卓越,其 AI 生成成果的质量和客户付费意愿均达到或超越了专业人类水平,成功超越了 Claude 4.5 Sonnet 和 ChatGPT Agent 等强大竞争对手,确立了其在 AI 劳动能力评测中的领先地位。
📊 **ELO 评分展现显著优势:** 尽管 RLI 基准测试难度极高,Manus 即使作为当前 SOTA(State-of-the-Art)也仅获得 2.5% 的得分,但其 ELO 评分高达 510,远超 ChatGPT Agent(454)、Claude 4.5 Sonnet(442)和 GPT-5(437),充分证明了 Manus 在与人类金标准对比下,表现出比其他智能体更优越的性能。
🚀 **未来展望与持续优化:** 报告显示 Manus 于 6 月份接受测试,而 Claude 4.5 Sonnet 和 GPT-5 则在此之后发布,这预示着 Manus 1.5 版本有望在现有基础上取得更佳表现。Manus 在竞争激烈的 AI 领域已连续八个月保持 SOTA 位置,未来将继续致力于推高 RLI 基准测试的得分,并在保持领先的同时实现持续进步。
💡 **RLI 基准测试的核心价值:** Remote Labor Index(RLI)基准测试的独特之处在于其单一且至关重要的评判标准:AI 生成的成果是否能达到或超越专业人类的水准,并且是否足以让客户愿意为之付费。这一标准直接衡量了 AI 在实际应用中的经济价值和市场竞争力。
Manus 在 Scale AI 最新发布的 Remote Labor Index(RLI)基准测试 中取得了 业界领先(state-of-the-art) 的成绩,超越了包括 Claude 4.5 Sonnet 和 ChatGPT Agent 在内的强劲竞争对手。RLI 是一个极具价值的评测标准,它的唯一评判依据是:AI 生成的成果是否达到或超过专业人类的水平,并且是否足以让客户愿意为之付费。这一基准测试难度极高,即使作为当前的 SOTA,Manus 也仅获得 2.5% 的得分,说明仍有巨大的提升空间。然而在系统间的对比中,Manus 取得了 ELO 评分 510,显著领先于其他系统(ChatGPT Agent: 454,Claude 4.5 Sonnet: 442,GPT-5: 437)。这表明相较于人类金标准,Manus 的表现远超其他智能体。不过最有趣的是在报告测试细节中发现 Scale AI 是在 6 月份对 Manus 进行测试。而作为对手的 Claude 4.5 Sonnet 以及 GPT5 都是在这之后几个月发布的。我们可以合理期待最新的 Manus 1.5 在这个 benchmark 上应该有更加优秀的表现。Manus 发布即将 8 个月,在竞争异常激烈的 AI 主赛道上能够维持住 SOTA 的位置实属不易。希望来年在维持领先位置的同时,能持续推高这个 benchmark 的得分。