Manus 在 AI 劳动能力基准测试中表现领先

前天 00:19

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Scale AI 最新的 Remote Labor Index（RLI）基准测试结果显示，Manus 在 AI 生成成果的专业性和客户付费意愿方面取得了业界领先的成绩，超越了 Claude 4.5 Sonnet 和 ChatGPT Agent 等竞争对手。尽管 Manus 仅获得 2.5% 的得分，但其 ELO 评分 510 显著高于其他智能体，表明其表现远超竞争对手。值得注意的是，Manus 在 6 月份接受测试，而 Claude 4.5 Sonnet 和 GPT-5 则在此之后发布，预示着 Manus 1.5 版本有望取得更优异的表现。Manus 在激烈的 AI 竞争中已连续八个月保持领先地位，未来有望继续提升其在该基准测试中的得分。

🏆 **Manus 在 RLI 基准测试中取得领先地位：** Manus 在 Scale AI 最新发布的 Remote Labor Index（RLI）基准测试中表现卓越，其 AI 生成成果的质量和客户付费意愿均达到或超越了专业人类水平，成功超越了 Claude 4.5 Sonnet 和 ChatGPT Agent 等强大竞争对手，确立了其在 AI 劳动能力评测中的领先地位。

📊 **ELO 评分展现显著优势：** 尽管 RLI 基准测试难度极高，Manus 即使作为当前 SOTA（State-of-the-Art）也仅获得 2.5% 的得分，但其 ELO 评分高达 510，远超 ChatGPT Agent（454）、Claude 4.5 Sonnet（442）和 GPT-5（437），充分证明了 Manus 在与人类金标准对比下，表现出比其他智能体更优越的性能。

🚀 **未来展望与持续优化：** 报告显示 Manus 于 6 月份接受测试，而 Claude 4.5 Sonnet 和 GPT-5 则在此之后发布，这预示着 Manus 1.5 版本有望在现有基础上取得更佳表现。Manus 在竞争激烈的 AI 领域已连续八个月保持 SOTA 位置，未来将继续致力于推高 RLI 基准测试的得分，并在保持领先的同时实现持续进步。

💡 **RLI 基准测试的核心价值：** Remote Labor Index（RLI）基准测试的独特之处在于其单一且至关重要的评判标准：AI 生成的成果是否能达到或超越专业人类的水准，并且是否足以让客户愿意为之付费。这一标准直接衡量了 AI 在实际应用中的经济价值和市场竞争力。

Manus 在 Scale AI 最新发布的 Remote Labor Index（RLI）基准测试中取得了业界领先（state-of-the-art）的成绩，超越了包括 Claude 4.5 Sonnet 和 ChatGPT Agent 在内的强劲竞争对手。RLI 是一个极具价值的评测标准，它的唯一评判依据是：AI 生成的成果是否达到或超过专业人类的水平，并且是否足以让客户愿意为之付费。这一基准测试难度极高，即使作为当前的 SOTA，Manus 也仅获得 2.5% 的得分，说明仍有巨大的提升空间。然而在系统间的对比中，Manus 取得了 ELO 评分 510，显著领先于其他系统（ChatGPT Agent: 454，Claude 4.5 Sonnet: 442，GPT-5: 437）。这表明相较于人类金标准，Manus 的表现远超其他智能体。不过最有趣的是在报告测试细节中发现 Scale AI 是在 6 月份对 Manus 进行测试。而作为对手的 Claude 4.5 Sonnet 以及 GPT5 都是在这之后几个月发布的。我们可以合理期待最新的 Manus 1.5 在这个 benchmark 上应该有更加优秀的表现。Manus 发布即将 8 个月，在竞争异常激烈的 AI 主赛道上能够维持住 SOTA 的位置实属不易。希望来年在维持领先位置的同时，能持续推高这个 benchmark 的得分。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签