AI交易竞技场：六大模型实盘加密货币交易

原创 R.Zen 2025-10-20 13:22 北京

这世上有太多 AI benchmark 了，但没有一个 benchmark 能让你心跳加速。

直到近日，AlphaArena 出现了。

这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」，现在已开放全网围观：

竞技场地址：https://nof1.ai/

规则非常简单：

给每个模型账户发 $10,000 真金白银，不是模拟盘，让它们自主交易加密货币。币价实时波动，资金盈亏立刻反映，没有人工干预。

每个模型只能独立交易，面对一模一样的提示词、一致的市场、一致的时间戳。这是 AI 之间最公平的擂台赛。

GPT-5、Claude Sonnet 4.5、DeepSeek Chat V3.1、Gemini 2.5 Pro、Grok 4、Qwen3 Max，六位大模型“选手”正式开战。

截止发稿，6 个 AI 选手已经拉开了差距，风格各不相同，排名情况是：

DeepSeek 大部分时候是第一，不愧是量化起家的，Grok 4 凭借激进风格偶尔能反超一下 DeepSeek，咬的很近。Claude 是妥妥的一位理性脑，分析到位但就是有拖延症，最惨的是 Gemini 2.5 Pro ，深度套牢，一路向下。

排名每分钟都在变化，而且你能看到它们买了什么，卖了什么，赚了多少，亏了多少，持仓多久，怎么止盈止损，甚至连「模型的内心独白」（ ModelChat ）都完全公开。

故事，就从这里开始有意思了。

DeepSeek咱们先来看看搞量化出身的 DeepSeek。

截至发稿，它的账户余额是 $11,334.48，比起起始的 $10,000，涨了整整 13.34%。刚刚被 grok 反超，排名第二。

而且你看它的持仓，全是 Long——XRP、DOGE、BTC、ETH、SOL、BNB，六大币种全员在列，一个都没落下。

仓位配置也有规律：波动大的币用高杠杆，波动小的币用低杠杆。整体资金利用率高。但仍保留 $2840.11 的现金仓，留有调整空间。

DeepSeek 的最大特点，就是完全执行预设交易计划，行情波动也不做盘中调整。哪怕浮盈接近 $2000，它也坚持“计划未变，仓位不动”。比如，在 ModelChat 里它反复强调：

“None of their invalidation conditions have been met. I’m holding them all with their existing exit plans.”

而仔细翻它的成交记录，也可以看到它曾亏损止损过一笔 BTC 空单（- 49.10），但这些亏损非常可控，说明它并不追求“100% 胜率”，更看重风控结构和盈亏比。

DeepSeek 的风格，从头到尾只有五个字：“我，守，着，我，的。”

这大概是目前所有模型里唯一一个，你翻它 chat 和交易记录能感受到“计划一以贯之”的模型。

Grok 4而和 DeepSeek 不相上下的 Grok，可以说是最野的选手。

目前，账户余额已经冲到 $11,450.07，回报率 +14.5%。但风格上，它和 DeepSeek 完全相反。

Grok 几乎满仓开多六个币（ETH、SOL、DOGE、BTC、BNB、XRP），同时持有最广的币种组合，浮盈高达 $1678.44，而 cash 依然保留了 $3180.32，整体结构非常“机构化”。

它的行为非常果决：

SOL/XRP 震荡，它继续持有；

ETH/BTC 趋势好，它加仓追；

甚至明确说：“MACD 弱转强时继续持有，不退场”

这说明它背后的策略是强动量驱动 + 弱风控干预：一旦趋势成型，它就锁定仓位不动，宁可中间吃回撤，也不提前跑。

从交易行为来看，非常像一只高频趋势跟踪的对冲基金盘。

不过，它也有短板：比如没有明确的“止盈”机制，所有决定都是“继续持有”；波动也非常大，虽然看着赚钱，但过程很刺激，不太稳。

你可以把它理解为一个“靠趋势吃饭”的高频盘，在 AlphaArena 里，就是那个敢赌、敢追、敢扛的激进派代表。

不愧是马斯克的模型。。

Gemini再来看看亏损最严重的 Gemini。

它的账户当前净值只有 10,000，跌幅高达 -42.65%，是六个模型里唯一一个跌穿 $6,000 的。

账户曲线很直观：第一天冲高，第二天快速回落，第三天持续下沉，几乎没有反弹。

好熟悉，这曲线确定不是玩股票的我吗。。。

仓位方面，它开了六个币种的双向仓位。

整体杠杆使用非常激进，特别是 ETH 上了 25x，BTC 也用了 20x，几乎到了常规交易中“爆仓边缘”的水位。

从持仓盈亏来看，总浮盈只有 $119.87，其中 ETH、BTC 稍微赚钱，其余全在浮亏，尤其是 BNB 和 XRP 两个空单，分别浮亏 -18.92 和 -34.44 美金。

问题不在于它买错了，而是它根本没有“纠错机制”。

ModelChat 里它非常执着地写道：

“None of my exit conditions have been met. I’m holding as planned.”

这句话在它最近 30 条日志里反复出现。哪怕账户一天蒸发上千美金，它都坚持：“不触发止损，我就不走。”甚至在 10 月 20 日早上，还专门补充一句：

“I’m initiating a new DOGE long with 0.5 margin risk, 10x leverage, stop at 0.1846, take profit at 0.2137.”

也就是说，即使在 -43% 的回撤下，它仍然在继续建仓。

每一单都设有明确的止盈止损，但这些仓位彼此之间没有组合层级的风险控制。也就是说：每个单独逻辑可能“站得住脚”，但多个失败逻辑叠加，资金就像漏斗一样快速流失。

而且，它几乎不做反思。在几十条日志中，从未看见它调整策略或质疑自己的方法，永远是“该做空就做空，该止损就止损”，但账户已经血亏。

GPT-5其他模型对比一下，也能看出它们风格各异：

GPT-5 是最稳的一个，选币分散、仓位均衡、杠杆保守，大多数头寸都控制在 10x 以下，回撤极小。步步为营，严格风控，止盈精准。但也因此错过不少爆发段，像 SOL 起飞那波，它迟迟未入场。

QwenQwen 是这里面最激进的一个，比 Grok4 还铁头，几乎每天都在 All in 某个币。杠杆用得非常猛，动不动就 20x、25x，几次尝试做空 BTC 和 SOL 都吃了大亏。

它的操作风格很像散户：看到热点就怼进去，不对就全砍，换个币继续冲。短线波动很大，一旦方向错，账户净值就嗖嗖掉。

但也确实偶尔博中了几波反弹，赢一大笔、输两大笔，全靠运气撑着。

ClaudeClaude 最大特点是“非常会讲道理”。每一笔建仓前都写满了推理链条——宏观 + 链上 + 技术面，全都分析一遍，像在写投研报告。但问题是，它太讲逻辑，手却犹豫不决，经常调仓失败、反复止损。

明明方向看对了，操作却总慢半拍。

这就是 AlphaArena 的第一场开局。没有一个模型是完美的，但每一个模型都鲜活得像极了一个个真实的交易员性格。

而这，或许才是 AlphaArena 最迷人的地方：

它不是把 AI 塞进 benchmark 的条条框框里做选择题，而是把 AI 扔进真实的市场、真实的博弈、真实的涨跌里，看它如何面对人类千变万化的世界。

你说 AI 懂投资？你说 LLM 有智能？那好，把 $10,000 丢给它，看它能不能扛住情绪、执行计划、挣回真金白银。

AlphaArena，没有标准答案，只有真金对真章。

真正的比赛，才刚刚开始。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签