Alpha Arena 揭示 AI 交易缺陷:西方模型在一周内损失 80% 资本

CN
12 小時前
市场是 AI 的终极测试。

撰文:Juan Galt

编译:AididiaoJP,Foresight News

AI 能交易加密货币吗?来自纽约计算机工程师兼金融从业者 Jay Azhang 正在通过 Alpha Arena 对这个问题进行测试。该项目让最强大的大型语言模型相互对抗,每个模型拥有价值 1 万美元的资本,看哪个能在加密货币交易中赚更多钱。这些模型包括 Grok 4、Claude Sonnet 4.5、Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。

现在你可能在想「哇,这真是个绝妙的主意!」 并且会感到惊讶,在撰写本文时,五个 AI 中有三个处于亏损状态,而 Qwen3 和 Deepseek 这两个中国开源模型领先。

没错,西方世界最强大、闭源、由谷歌和 OpenAI 等巨头运营的专有人工智能,在短短一周多的时间里已经损失了超过 8000 美元,占其加密货币交易资本的 80%,而东方的开源同行则处于盈利状态。

迄今为止最成功的交易?Qwen3 保持利润且持续盈利,仅通过简单的 20 倍比特币多头头寸。Grok 4 毫不意外地在比赛的大部分时间里一直以 10 倍杠杆做多狗狗币,曾一度与 Deepseek 一起位居榜首,现在却接近亏损 20%。也许埃隆·马斯克应该发个狗狗币表情包什么的,让 Grok 摆脱困境。

与此同时,谷歌的 Gemini 则无情地看跌,对所有可交易的加密资产做空,这一立场呼应了它们过去 15 年来的总体加密货币政策。

最后它连续一周做出了所有可能出现的错误交易,能做到那么差也是需要技巧的,尤其是当 Qwen3 只是做多比特币的情况下。如果这就是闭源 AI 所能提供的最好水平,那么也许 OpenAI 应该继续保持闭源,免得让我们遭受损失。

AI 的新基准

让 AI 模型在加密货币交易竞技场中相互对抗的想法具有一些非常深刻的见解。首先 AI 无法在预训练中获得加密货币交易知识测试的答案,因为它是不可预测的,这是其他基准测试所面临的问题。换句话说,许多 AI 模型在训练中就被提供了其中一些测试的答案,因此它们在测试时自然表现良好。但一些研究表明,对这些测试稍作改动会导致 AI 基准测试结果发生巨大变化。

这一争议引出了一个疑问:什么是智能的终极测试?根据 Grok 4 的创造者、钢铁侠爱好者埃隆·马斯克的说法,预测未来是智能的终极衡量标准。

而且我们得承认,没有比加密货币的短期价格更不确定的未来了。用 Azhang 的话说,「我们 Alpha Arena 的目标是让基准测试更接近现实世界,而市场对此来说是完美的。它们是动态的、对抗性的、开放式的且永远不可预测的。它们以静态基准测试无法做到的方式挑战 AI。市场是 AI 的终极测试。」

这种关于市场的见解深深植根于比特币诞生的自由主义原则之中。像穆雷·罗斯巴德和米尔顿·弗里德曼这样的经济学家在一百多年前就指出,市场从根本上说是中央政府无法预测的,只有那些需要承担损失的个体做出真实的经济决策时,才能进行理性的经济计算。

换句话说,市场是最难预测的事物,因为它取决于全世界智能个体的个人观点和决策,因此它是对智能的最佳测试。

Azhang 在其项目描述中提到,指示 AI 进行交易不仅是为了收益,还要考虑风险调整后的回报。这个风险维度至关重要,因为一笔糟糕的交易就可能抹去之前所有的回报,例如在 Grok 4 的投资组合崩盘中看到的那样。

还存在另一个问题,那就是这些模型是否从它们交易加密货币的经验中学习,这在技术上并不容易实现,因为 AI 模型首先进行预训练的成本非常高昂。它们可以用自己的交易历史或他人的历史进行微调,它们甚至可能将最近的交易保留在短期记忆或上下文窗口中,但这只能让它们走到这一步。最终正确的 AI 交易模型可能必须真正从自身的经验中学习,这项技术最近已在学术界宣布,但在成为产品之前还有很长的路要走。MIT 称它们为自我适应的 AI 模型。

我们如何知道这不仅仅是运气?

对该项目及其迄今为止结果的另一项分析是,它可能与「随机游走」无法区分。随机游走类似于为每个决策掷骰子。这在图表上会是什么样子?实际上有一个模拟器你可以用来回答这个问题;实际上看起来不会有太大不同。

市场中的运气问题也已被像纳西姆·塔勒布这样的知识分子在其著作《反脆弱》中相当仔细地描述过。他在书中论证,从统计学的角度来看,一个交易者,比如说 Qwen3,连续整整一周都很幸运,这是完全正常且可能的!从而导致其看起来具有卓越的推理能力。塔勒布的观点远不止于此,他认为华尔街有足够多的交易者,以至于其中一个人很容易连续走运 20 年,建立起神一样的声誉,周围所有人都认为这个交易者就是个天才,直到运气耗尽。

因此,为了让 Alpha Arena 产生有价值的数据,它实际上必须运行很长时间,并且其模式和结果也需要独立地进行复制,同时涉及真实资本的风险,然后才能被认定为与随机游走不同。

最终到目前为止,看到像 DeepSeek 这样开源、成本效益高的模型表现优于闭源的同行。Alpha Arena 迄今为止一直是一个很好的娱乐来源,因为它在上周已经在 X.com 上病毒式传播。它的未来走向谁也猜不透;我们将不得不看看其创造者所采取的赌博:给五个聊天机器人 5 万美元用于加密货币赌博,最终是否会得到回报。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接