一个新的人工智能基准测试于八月推出,显示AI模型能够像预测市场一样准确地预测现实世界事件,有时甚至更好,芝加哥大学的SIGMA实验室的研究人员表示。
先知竞技场通过让AI系统预测来自Kalshi和Polymarket等平台的实时未解决事件的结果来评估AI系统——这些事件包括选举结果、体育比赛和经济指标。与传统基准测试在已知答案的历史数据上测试模型不同,先知竞技场对AI进行未来预测的测试。
“通过将评估锚定在未解决的现实世界事件中,先知竞技场确保了一个公平的竞争环境。没有预训练的优势,没有秘密的微调技巧,没有测试样本的泄露,”先知竞技场团队在基准测试的官方博客中表示。
该基准测试表示,它试图解决一个关于人工智能的基本问题:“AI系统能否通过连接现有的现实世界信息来可靠地预测未来?”
早期结果表明它们可以。GPT-5目前以82.21%的Brier分数领先排行榜。同时,OpenAI的o3-mini模型已成为利润冠军,在其预测转化为模拟投注时产生了最高的平均回报(通常情况下,一个黑马在适当条件下有足够的获胜机会,可以提供更多的回报,在适当条件下)。
DeepSeek R1似乎是该组中的逆向AI,频繁做出与其他模型和市场共识大相径庭的预测,因此如果你想在Myriad Markets上快速获利,可能不是最值得信赖的模型。
该平台在面对相同信息时揭示了AI模型之间明显的“个性”。在一个例子中,当预测AI监管是否会在2026年前成为联邦法律时,市场仅赋予25%的概率。但模型的预测差异很大:Qwen 3预测75%,GPT-4.1估计60%,而Llama 4 Maverick则保守地保持在35%。
在另一个案例中,o3-mini通过正确预测多伦多FC将在一场美国职业足球大联盟比赛中击败圣地亚哥FC,模拟获得了9美元的回报,投注为1美元。该模型给多伦多的胜率为30%,而市场仅定价为11%。多伦多赢了。
“(先知竞技场)测试模型的预测能力,这是一种高层次的智能,要求广泛的能力,包括理解现有信息和新闻来源、在不确定性下推理,以及对正在发生的事件做出时间敏感的预测,”研究人员写道。
先知竞技场还支持人机协作。用户可以提供额外的新闻和背景信息,以查看预测如何变化,而AI模型则提供其预测的详细理由。
随着预测市场本身整合AI——Kalshi最近与埃隆·马斯克的Grok合作,而Polymarket生成AI驱动的市场摘要——先知竞技场提供了机器预测与集体人类判断的首次系统比较。
如果它们真的变得非常优秀,那么机器可以完全基于事实,决策中不再有情感或情绪的影响。它们可能能够匹配或超越人群的智慧,改变机构对风险评估、投资决策和战略规划的方式。
先知竞技场平台随着事件的解决而每天更新,提供了一个不断演变的画面,展示人工智能是否真的能够通过连接今天的点来预测未来。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。