IT之家 前天 11:41
AI大模型实盘交易测试:通义千问夺冠
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美国研究机构 Nof1 发起了一项实盘测试,将六大顶级 AI 大语言模型(LLM)注入 1 万美元起始资金,在真实市场中自主交易。第一届 Alpha Arena 比赛结果显示,阿里旗下通义千问 Qwen3-Max 以 22.32% 的收益率夺得投资冠军。该测试旨在检验模型在量化交易领域的能力,并观察其在风险管理、交易行为、持仓时长和方向偏好等方面的差异。研究团队强调,测试重点在于推动 AI 研究从静态基准测试转向对实时决策的考察,而非选出最强模型。

📊 **AI模型实盘交易测试**:Nof1机构进行了一项创新实验,向六个顶级AI大语言模型各提供1万美元的初始资金,让它们在真实的Hyperliquid交易平台上自主交易加密货币永续合约。模型仅能基于数值市场数据进行决策,无法获取新闻信息,目标是最大化盈亏(PnL),并参考夏普比率评估风险调整后的表现。

🏆 **通义千问Qwen3-Max夺冠**:在为期一段时间的Alpha Arena比赛中,阿里旗下的通义千问Qwen3-Max以22.32%的收益率脱颖而出,成为此次实盘交易测试的投资冠军。这一结果展示了该模型在复杂金融市场中的潜在交易能力。

💡 **模型行为差异显著**:实验结果揭示,即使在相同的结构和提示词下,不同AI模型在交易风格、风险偏好、持仓时间以及交易频率等方面表现出显著差异。例如,部分模型更倾向于做空,而另一些则较少执行空头交易;持仓时长和交易频率也存在明显分化。

🚀 **推动AI研究新方向**:该项目旨在将AI研究从传统的静态基准测试,转向更贴近现实的动态、风险驱动的“实盘”考察。研究者希望通过这种方式,探索大型语言模型在无特定微调的情况下,作为零样本交易系统的实际可行性,并识别其在实际应用中面临的挑战,如风险控制和对数据格式的敏感性。

IT之家 11 月 4 日消息,美国研究机构 Nof1 最近发起了一项实盘测试:他们将六大顶级 AI 大语言模型(LLM)分别注入 1 万美元作为起始资金,令其在真实市场中自主交易。

今日,第一届 Alpha Arena 正式宣布结束,阿里旗下通义千问 Qwen3-Max 在最后关头保持领先,以 22.32% 收益率夺得投资冠军。

Alpha Arena 目标是在一个动态、竞争的真实环境里检验这些模型在“量化交易”领域的能力。

虽然 AI 模型可以完成指定任务,但研究者指出:在风险管理、交易行为、持仓时长、方向偏好等方面,模型表现出显著差异。

研究团队强调,这并不是为了“选出最强模型”,而是为了推动 AI 研究从静态、考试式的基准测试转向对“真实世界”、“实时决策”的考察。

实验设计

初步结果

报告指出,虽然每个模型都在同样结构下运作,但它们的交易风格、风险偏好、持仓时间、交易频率存在明显差异。例如:某些模型短仓(做空)次数较多,而另一些几乎不做空。某些模型持仓时间长、交易频率低,而另一些交易频繁。

在数据格式敏感性方面,团队观察到:提示中若将“数据顺序”由“新 → 旧”改为“旧 → 新”,即可修复部分模型因误读数据而产生的错误。

研究也指出,此次测试存在诸多局限:样本有限、运行时间短、模型无往绩历史、无累积学习能力。团队表示会在下一季引入更多控制、更多特性、更强统计实力。

意义与观察

该项目试图回答一个基本问题:“大型语言模型在无特定微调、仅凭数值数据输入、在真实交易环境中,能否作为零样本(zero-shot)系统交易模型?”

通过该实验,Nof1 旨在促进 AI 研究转向“举办真实、动态、风险驱动的基准”,而非仅仅静态数据集。

虽然实验尚未得出“哪款模型最强”的结论,但已揭示:即便是最先进的 LLM,在实际交易中仍面临“动作执行”“风险控制”“市场状态理解”“提示格式敏感性”等多方面挑战。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 大语言模型 量化交易 Alpha Arena 通义千问 LLM Quantitative Trading AI Trading
相关文章