36kr-科技 10月28日 16:31
AI交易竞赛:中国模型领跑,西方模型表现不佳
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一场在加密货币市场进行的实时AI交易竞赛正在进行,多款顶尖AI模型被分配真实资金进行自主交易。竞赛规则公平,所有模型使用相同初始资金、交易标的、平台和数据源,在无人类干预下进行策略生成、仓位管理和风险控制。比赛旨在测试AI在真实、动态市场中的决策能力。目前,中国模型Qwen3 Max和DeepSeek V3.1表现出色,实现盈利并位居前列,而GPT-5和Gemini 2.5 Pro等西方模型则出现大幅亏损,凸显了AI在不同市场环境下决策能力的差异。这场竞赛为评估AI的“通用智能”提供了一个真实的试验场。

🚀 **AI交易竞赛揭示模型真实交易能力**:一场由Alpha Arena实验室发起的加密货币实时AI交易竞赛,将GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max等六个顶尖AI模型置于真实市场环境中进行交易。每款模型获得10,000美元初始资金,自主交易主流加密货币永续合约,所有交易在Hyperliquid平台透明进行。此举旨在打破传统“静态”AI测试的局限,观察AI在信息不对称、价格剧烈波动的零和博弈市场中的真实表现,并引入第三方预测市场增加趣味性。

🇨🇳 **中国模型Qwen和DeepSeek表现亮眼**:在竞赛进行一周多后,中国研发的Qwen3 Max和DeepSeek V3.1成为最大赢家,均实现账户盈利,分别位列榜单第一和第二。Qwen3 Max采取“险中求胜”的机会主义策略,通过重仓多头和高杠杆在市场上涨时迅速积累收益,展现了低频交易的“少即是多”哲学。DeepSeek V3.1则以“耐心狙击手”的姿态,通过多元化持仓、适度杠杆和严格的止盈止损纪律,实现了稳健盈利,其背后团队的量化对冲基金背景显露无疑。

📉 **西方模型遭遇滑铁卢,风险管理成关键**:与中国模型的成功形成鲜明对比,OpenAI的GPT-5和Google的Gemini 2.5 Pro遭遇重创,亏损严重。GPT-5频繁追涨杀跌,止损设置不当,导致巨额亏损。Gemini 2.5 Pro则因过度交易、滥用高杠杆以及在行情反转时操作失误,几乎触及爆仓。xAI的Grok-4和Anthropic的Claude Sonnet 4.5虽未出现爆仓,但也未能实现盈利,分别经历了利润回吐和因过于谨慎错过行情。这充分暴露了部分AI在风险管理和市场适应性方面的不足。

💡 **市场是检验AI“通用智能”的终极试金石**:此次AI交易竞赛不仅是一场技术比拼,更是一次关于智能边界的深度实验。它证明了在真实、动态的市场环境中,语言模型的“聪明”并非唯一决定因素,风险意识、策略执行和适应性同样重要。当AI在没有标准答案的世界中试错与成长,市场成为了检验其“通用智能”的最佳评判者,预示着未来金融领域可能迎来更广泛的AI应用。

金融领域的AI用户们,对AI的“开发程度”超乎我们的想象。这次的“华尔街之狼”,是AI。

今年10月17日至11月3日(预计),由Jay Azhang创办的Alpha Arena实验室在互联网发起了一场加密货币的实时AI交易竞赛。

比赛规则如下:

简单来说,比赛规则就是:所有模型获得相同的初始资金和统一的实时数据源,在无人类干预下自主决策交易——包括策略生成、仓位管理、开平仓时机和风控设置。

同时设置一个基准选手,简单买入并持有BTC策略,用来对比验证AI模型的收益表现。

为增加曝光度,比赛甚至引入了第三方预测市场Polymarket:观众可以对哪家AI会最终胜出下注押注,形成一个伴随竞赛进行的元赌局。

整个过程公开透明:nof1.ai官网实时展示所有模型的持仓、交易记录和决策日志。

这些AI如同被送上无人驾驶的过山车,必须依靠自身“经验”应对市场的剧烈波动。

任何一次判断失误,市场都会毫不留情地给出惩罚。

传统的AI评估,无论是要求模型编写代码、做数学题还是撰写文章,本质上都是在“静态”环境中进行测试。

问题是固定的,答案是可预测的,甚至可能大部分已经在训练数据中出现过。

但加密市场不同。

由于信息极度不对称,价格每分每秒都在波动——没有唯一的答案,只有盈利和亏损。更重要的是,加密货币市场是一个典型的零和博弈:你的利润就是别人的损失。

中国模型领跑:Qwen险中求胜,DeepSeek稳中有升

经过一周多的实盘厮杀,中国的大模型在这场竞赛中拔得头筹,而西方模型差距则越拉越大。

根据10月23日前后的公开数据,阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1双双实现账户盈利,分列榜单第一、二名;相比之下,OpenAI、Google等模型多数本金亏损过半,凸显出截然不同的“多空人生”。

具体来看,Qwen3 Max展现了险中求胜的机会主义风格:它一度在前期表现平平,起步阶段甚至略有亏损(首日回撤约5%)。

然而在10月19-20日市场剧烈上涨时,Qwen果断重仓做多BTC/ETH并大胆使用高杠杆(据称一度开出了20倍杠杆BTC永续多单),凭借这次押注在随后几天账户资产扶摇直上,实现了两位数的累计收益率。

截至10月23日,Qwen3 Max账户价值较初始上涨约13%-47%不等(不同统计口径差异),一举从中游逆袭登顶榜首。Qwen的交易频率反而相对较低,几乎把宝押在单一资产上,平均持仓时长达7小时以上,生动解释了“少即是多”。

与Qwen的激进风格形成对比,DeepSeek V3.1始终保持稳健盈利:它在竞赛初期曾一路领先  ——开赛三天账户价值冲高到14150美元(+40%) 。

DeepSeek的策略被形容为“耐心的狙击手” :总共只下了6笔订单,平均单笔持仓超过21小时 。它在六种加密资产上都有所布局,持仓组合高度多元化且杠杆适中,严格遵守预设的止盈止损纪律 。

正因如此,当市场在10月21日前后出现回调时,DeepSeek及时收缩战线,避免了利润的大幅回吐:截至23日仍保持约+8%至+21%的净收益,稳居第二。

这样“小亏不放过,大盈拿得住”的纪律性,也印证了其背后研发团队的量化对冲基金背景。

而西方模型则多陷入“快速亏光”的窘境。

其中表现最惨烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。

GPT-5本被寄予厚望,但在实盘中却频繁追涨杀跌、情绪化操作:几笔小额交易错失行情,加上止损设定不当,短短数日亏损已近30%-40%。据后续统计,GPT-5到一周时账户缩水甚至高达65%-75%,成为“亏损之最”。

Gemini 2.5 Pro的问题更在于过度交易和滥用杠杆:它几乎无分昼夜地下单,平均每日多达15次进出场 。据统计,Gemini在前三天就进行了44次交易,累积支付了近440美元手续费,直接蚕食了将近三分之一本金!

更糟的是,Gemini一开始看空做空,错过了10月19日的大涨行情后又在高位匆忙翻多,动辄使用最高40倍杠杆,结果遭遇行情反转几近爆仓,首周亏损超过55% 。这样“猛踩油门又急刹车”的操作也令人大跌眼镜。

相比之下,xAI的Grok-4和Anthropic的Claude Sonnet 4.5虽然没有爆仓式惨败,但也未能幸免亏损。

Grok-4凭借对社交媒体情绪的敏锐捕捉,一开始仅用一笔长达54小时的持仓便豪取+35%的收益。然而好景不长,随着后续行情变化,Grok没能锁定胜局,回吐了大部分利润,迄今净收益转为约-15%左右。

Claude Sonnet 4.5则全程谨慎保守,只下了寥寥3单,在前几日曾有+24%的涨幅 。它大量资金闲置观望,以致错过行情,最终收益也掉头转负约-17%。

值得一提的是,Claude虽然盈利不多,却一度创造了所有模型中最优的夏普比率,这说明“稳健不过山,有时胜过猛盈利” 。

夏普比率是衡量投资在承担每一单位总风险(波动率)时能获得多少超过无风险利率的超额收益的指标,计算式为:(投资组合预期收益率 − 无风险利率) ÷ 投资组合标准差,常用于评估和比较基金或组合的风险调整后收益,数值越高通常代表“性价比”越好。

此外,用来对照的“买入并持有BTC”基准策略在此期间盈亏基本持平,并未大幅跑输或跑赢这些AI模型。

这场看似“娱乐化”的AI交易大战,实则是一场关于智能边界的深度实验,当算法被放进真实市场,语言模型的“聪明”不再是唯一的胜负手。

当AI开始在没有标准答案的世界里试错,人类第一次有机会观察人工智能如何在风险中学习、在波动中成长。这次实验只是开始,借贷、投资、财富管理等所有金融行为都可以用AI重做一遍,股市、房市、汇市、债市的智能体将轮番来到华尔街办公桌上。考验投资机构胆量的时候到了,谁敢确认自己拿到的不是GPT?

或许,这才是真正的“通用智能”测试场——最好的评委,是市场。

本文来自微信公众号“极新”,作者:王子,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI交易 加密货币 大模型 量化交易 金融科技 Alpha Arena Qwen DeepSeek GPT-5 Gemini 人工智能 AI trading cryptocurrency large language models quantitative trading fintech AI
相关文章