AI 交易员「面试」集体翻车：交易过频、策略混乱……

Alpha Arena 竞赛将 Claude、ChatGPT 等八大模型投入实盘比赛，最终整体组合亏损约三分之一，多数模型亏损、过度交易且决策分歧明显。

撰文：卜淑情

来源：华尔街见闻

人工智能正在叩响华尔街交易室的大门，但目前的成绩单并不好看。

一系列公开交易竞赛的早期结果显示，主流大型语言模型（LLM）在自主交易中普遍表现欠佳——大多数系统亏损，交易过于频繁，且在接收相同指令时作出截然不同的决策。这些结果引发了一个核心问题：LLM 与真实市场运作之间，究竟存在多深的鸿沟。

其中最具代表性的案例来自科技初创公司 Nof1 运营的 Alpha Arena 竞赛。该竞赛将 Anthropic 的 Claude、谷歌的 Gemini、OpenAI 的 ChatGPT 以及 Elon Musk 的 Grok 等八大前沿 AI 系统投入四轮独立比赛，每轮赛前各获 1 万美元资金，在两周内自主交易美国科技股。最终，整体投资组合亏损约三分之一，32 组结果中仅有 6 次实现盈利。

Nof1 创始人 Jay Azhang 直言：「现在把钱直接交给 LLM 让它自己去交易，这条路还走不通。」

竞赛结果：亏损、过度交易与决策分歧

Alpha Arena 的数据揭示了当前 LLM 在交易场景中的多重缺陷。在相同提示词下，阿里巴巴的 Qwen 在一轮竞赛中共执行了 1,418 笔交易，而表现最佳的 Grok 4.20 仅下单 158 笔。Grok 的最佳成绩出现在其能够观察竞争对手表现的那一轮赛事中。

AI 博客 Flat Circle 追踪了 11 个市场相关竞技场，结果显示，所有竞技场中至少有一个模型实现盈利，但仅有两个竞技场的中位模型为正收益，说明大多数模型难以跑赢市场。

各模型之间的决策差异同样引人关注。据 Azhang 介绍，在 Alpha Arena 最新一轮测试中，Claude 倾向于做多，Gemini 对做空毫无抵触，而 Qwen 则乐于使用高杠杆承担风险。「它们各有『个性』，管理起来几乎像管理一位人类分析师，」运营 LLM 驱动基金的 Intelligent Alpha 负责人 Doug Clinton 表示，通过告知模型其存在某种偏差，可以在一定程度上改善结果。

能力边界：LLM 擅长研究，但不擅长择时

Jay Azhang 指出，LLM 在研究和调用正确工具方面具备优势，但在交易执行层面存在系统性短板：它们尚不清楚分析师评级、内部人交易、情绪变化等众多影响股价的变量各自的权重，因而容易出现交易时机错误、仓位规模不当以及买卖过于频繁等问题。

Intelligent Alpha 的基准测试提供了相对积极的参照。该测试为 10 个 AI 模型提供财务文件、分析师预测、财报电话会议记录、宏观经济数据及网络搜索权限，聚焦于盈利预测方向的判断。结果显示，2025 年第四季度，OpenAI 的 ChatGPT 正确预测盈利预测方向的准确率达 68%，创下迄今最佳成绩。Clinton 表示，随着每次新版本发布，模型表现总体呈改善趋势。

方法论困境：回测失效，实盘测试成唯一选项

评估 AI 交易能力面临一个根本性的方法论障碍。传统量化策略依赖历史回测验证有效性，但这一框架对 LLM 几乎完全失效——一个在 2026 年被问及如何交易 2020 年 3 月行情的模型，早已「知道」那段历史的走向。这种被称为「前瞻偏差」（lookahead bias）的污染问题，迫使研究者只能通过实盘市场对 AI 进行评估，由此催生了当前各类基准测试和竞技场的大量涌现。

Flat Circle 博客作者、前另类数据提供商 YipitData 联合创始人 Jim Moran 认为，目前大多数公开实验周期过短、噪音过大，尚不足以支撑确定性结论。这些竞技场还存在天然劣势，包括无法获取专有股票研究资源以及执行质量较低。「如果把这些竞技场里的某个 AI 代理直接移植到一家顶级对冲基金内部运行，它的表现应该会更好，」他说。

行业前景：真正有效的策略，或将悄然消失于公众视野

前 Coatue Management 数据科学主管、现就职于 NX1 Capital 的 Alexander Izydorczyk 近期撰文指出，他所追踪的 AI 交易机器人中，目前尚无一个展现出持久的超额收益能力。他认为，这些竞技场的局限性在于其训练数据中缺失了秘密交易机构所使用的实用量化技术。

然而，Izydorczyk 也留下了一个耐人寻味的判断：「初学者有时能看到老手看不到的东西。」他在个人博客中写道，「当 LLM 代理交易策略真正开始奏效时，你不会马上听到任何消息。」

Nof1 正在筹备 Alpha Arena 第二季，计划赋予每个 AI 模型网络搜索、更长思考时间、更多数据来源以及多步骤执行能力。但该公司的核心商业模式，是为散户交易者提供构建 AI 交易代理的系统工具——而非直接将 AI 推上交易席位。这一定位本身，或许已是对当前 AI 交易能力最务实的注脚。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

AI 交易员「面试」集体翻车：交易过频、策略混乱……

竞赛结果：亏损、过度交易与决策分歧

能力边界：LLM 擅长研究，但不擅长择时

方法论困境：回测失效，实盘测试成唯一选项

行业前景：真正有效的策略，或将悄然消失于公众视野

Foresight News的精選文章

目錄

相關文章