| AiCoin 实时快讯

ETH

💲1964.94

0.11%

0xTodd|2025年09月16日 13:39

Sentient 推出了一种新的 multi-agent 开源架构，叫做 ROMA，推理和搜索成绩意外地非常高。先做个简单的科普，ROMA 这次使用的三个题库分别是什么？ Seal-0 题库：它里面是精挑细选的一小套极难问题，每题都被迭代到“多款前沿模型多次尝试仍几乎全错”的强度。它考察 AI 用网页搜索/工具的模型做事实查证，在冲突、噪声或无用检索结果下的推理与去噪能力。 FRAMES 题库：Google/Harvard 提出的 RAG 统一评测集（Factuality + Retrieval + Reasoning），多跳、多约束问题（官方给出 824 题 + 论文 & 数据集）。它考察AI 检索是否找对、引用是否正确、推理是否到位。 SimpleQA 题库：OpenAI 的短事实问答基准集，题目短小、易判分、覆盖广。它主要考察 AI 是否答对且少幻觉，还能评估模型自我校准（自信度与实际正确率的匹配）。然后聊聊它是怎么实现的？ ROMA 主要通过任务拆解来做的，是三步走： 1. 判断和拆解：父节点判断任务是简单 or 复杂，如是复杂任务则拆解为若干子任务； 2. 对症下药：子节点找到最适合的 AI Agent 和工具来解决子任务； 3. 总结汇报：结果汇总+逐层上报聚合成最终答案。这样，ROMA 得到了推理+搜索的高分（当然，缺点是也会给服务器带来更高的负载以及更长的思考时间）。另外，过去一些 multi-agent 也采用类似的架构，但是很多会遇到一个问题，叫做“错误累积”。举个例子，如果单个 AI 的正确率是90%，积累六层，正确率也只剩 50% 左右了。 @SentientAGI ROMA 架构的思路是把整个推理过程透明化，并且开源，这样方便后面的开发者对整个过程，有针对性地进行微调，以增加长任务的正确率。这就是开源的好处。(0xTodd)