研究发现，人工智能现在在预测实际事件方面与预测市场相匹配。

一个新的人工智能基准测试于八月推出，显示AI模型能够像预测市场一样准确地预测现实世界事件，有时甚至更好，芝加哥大学的SIGMA实验室的研究人员表示。

先知竞技场通过让AI系统预测来自Kalshi和Polymarket等平台的实时未解决事件的结果来评估AI系统——这些事件包括选举结果、体育比赛和经济指标。与传统基准测试在已知答案的历史数据上测试模型不同，先知竞技场对AI进行未来预测的测试。

“通过将评估锚定在未解决的现实世界事件中，先知竞技场确保了一个公平的竞争环境。没有预训练的优势，没有秘密的微调技巧，没有测试样本的泄露，”先知竞技场团队在基准测试的官方博客中表示。

该基准测试表示，它试图解决一个关于人工智能的基本问题：“AI系统能否通过连接现有的现实世界信息来可靠地预测未来？”

早期结果表明它们可以。GPT-5目前以82.21%的Brier分数领先排行榜。同时，OpenAI的o3-mini模型已成为利润冠军，在其预测转化为模拟投注时产生了最高的平均回报（通常情况下，一个黑马在适当条件下有足够的获胜机会，可以提供更多的回报，在适当条件下）。

DeepSeek R1似乎是该组中的逆向AI，频繁做出与其他模型和市场共识大相径庭的预测，因此如果你想在Myriad Markets上快速获利，可能不是最值得信赖的模型。

该平台在面对相同信息时揭示了AI模型之间明显的“个性”。在一个例子中，当预测AI监管是否会在2026年前成为联邦法律时，市场仅赋予25%的概率。但模型的预测差异很大：Qwen 3预测75%，GPT-4.1估计60%，而Llama 4 Maverick则保守地保持在35%。

在另一个案例中，o3-mini通过正确预测多伦多FC将在一场美国职业足球大联盟比赛中击败圣地亚哥FC，模拟获得了9美元的回报，投注为1美元。该模型给多伦多的胜率为30%，而市场仅定价为11%。多伦多赢了。

“（先知竞技场）测试模型的预测能力，这是一种高层次的智能，要求广泛的能力，包括理解现有信息和新闻来源、在不确定性下推理，以及对正在发生的事件做出时间敏感的预测，”研究人员写道。

先知竞技场还支持人机协作。用户可以提供额外的新闻和背景信息，以查看预测如何变化，而AI模型则提供其预测的详细理由。

随着预测市场本身整合AI——Kalshi最近与埃隆·马斯克的Grok合作，而Polymarket生成AI驱动的市场摘要——先知竞技场提供了机器预测与集体人类判断的首次系统比较。

如果它们真的变得非常优秀，那么机器可以完全基于事实，决策中不再有情感或情绪的影响。它们可能能够匹配或超越人群的智慧，改变机构对风险评估、投资决策和战略规划的方式。

先知竞技场平台随着事件的解决而每天更新，提供了一个不断演变的画面，展示人工智能是否真的能够通过连接今天的点来预测未来。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精選文章