在考试前记住答案的模型有多聪明?这是OpenAI在去年12月揭示 o3后面临的问题,并宣传其模型的令人印象深刻的基准测试。当时,一些评论员称其几乎与AGI一样强大,AGI是指人工智能能够在用户要求的任何任务上达到与人类相同的表现水平。
但金钱改变一切——显然连数学测试也不例外。
OpenAI对其o3模型在由Epoch AI开发的具有挑战性的数学基准FrontierMath上取得惊人的25.2%得分的胜利宣言遇到了挫折,因为事实证明该公司不仅仅是在考试中表现出色——OpenAI还参与了试题的编写。
“我们衷心感谢OpenAI在创建基准方面的支持,”Epoch AI在FrontierMath的白皮书的更新脚注中写道——这足以引起一些爱好者的警觉。
图片:Epoch AI通过ArXiv
更糟的是,OpenAI不仅资助了FrontierMath的开发,还可以随意使用其问题和解决方案。Epoch AI后来透露,OpenAI雇佣该公司提供300道数学题及其解决方案。
“正如委托工作所典型的那样,OpenAI保留这些问题的所有权,并可以访问这些问题和解决方案,”Epoch在周四表示。
OpenAI和Epoch都没有回复Decrypt的评论请求。然而,Epoch表示OpenAI提前签署了一份合同,表明不会使用其数据库中的问题和答案来训练其o3模型。
《信息》首次披露了这个故事。
虽然OpenAI的一位发言人坚持认为OpenAI并没有直接在基准上训练o3,并且这些问题是“强烈保留”(意味着OpenAI没有访问某些问题),但专家指出,访问测试材料仍然可能通过迭代调整来优化性能。
Epoch AI的副主任Tamay Besiroglu表示,OpenAI最初要求不公开与Epoch的财务关系。
“我们被限制在o3发布前不披露合作关系,事后看来我们应该更努力地谈判,以便尽快向基准贡献者透明,”他在一篇帖子中写道。“我们的合同特别禁止我们披露资金来源的信息,以及OpenAI对大部分数据集的访问事实。”
Tamay表示,OpenAI表示不会使用Epoch AI的问题和解决方案——但并没有签署任何法律合同来确保这一点。“我们承认OpenAI确实可以访问大量FrontierMath的问题和解决方案,”他写道。“然而,我们有一个口头协议,规定这些材料不会用于模型训练。”
尽管听起来可疑,Epoch AI的首席数学家Elliot Glazer表示,他相信OpenAI言而有信:“我个人认为OAI的得分是合法的(即,他们没有在数据集上训练),而且他们没有动机对内部基准表现撒谎,”他在Reddit上发布。
这位研究人员还在Twitter上就此事发表了看法,分享了一个关于该问题的在线辩论链接,链接到在线论坛Less Wrong。
不是第一,也不是最后
争议超出了OpenAI,指向了人工智能行业在验证进展方面的系统性问题。AI研究员Louis Hunt最近的一项调查揭示,其他表现优异的模型,包括Mistral 7b、谷歌的Gemma、微软的Phi-3、Meta的Llama-3和阿里巴巴的Qwen 2.5能够逐字复现6,882页的MMLU和GSM8K基准测试。
MMLU是一个合成基准,就像FrontierMath一样,旨在测量模型在多任务处理方面的能力。GSM8K是一组数学问题,用于基准测试大型语言模型在数学方面的熟练程度。
图片:Louis Hunt
这使得正确评估它们的模型究竟有多强大或准确变得不可能。这就像给一个有摄影记忆的学生一份即将参加考试的问题和答案列表;他们是通过推理得出解决方案,还是仅仅背诵了记住的答案?由于这些测试旨在展示AI模型具备推理能力,因此你可以理解人们为何对此感到不满。
“这实际上是一个非常大的问题,”RemBrain创始人Vasily Morzhakov警告道。“这些模型在MMLU和GSM8K测试中以其指令版本进行测试。但基础模型能够再生测试——这意味着这些测试已经在预训练中。”
展望未来,Epoch表示计划实施一组“保留集”,包括50个随机选择的问题,这些问题将不提供给OpenAI,以确保真正的测试能力。
但创建真正独立评估的挑战仍然很大。计算机科学家Dirk Roeckmann辩称理想的测试需要“一个中立的沙盒,这并不容易实现”,并补充说,即使如此,仍然存在“对抗性人类泄露测试数据”的风险。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。