K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

AI Agent 输出垃圾?问题在你舍不得烧 Token

CN
深潮TechFlow
关注
3小时前
AI 总结,5秒速览全文
问题不在提示词!

作者:Systematic Long Short

编译:深潮 TechFlow

深潮导读:这篇文章的核心论点只有一句话:AI Agent 输出质量和你投入的 Token 数量成正比。

作者不是在泛泛谈理论,而是给出了两个可以今天就开始用的具体方法,并清楚地划定了 Token 堆不出来的边界——「新颖性问题」。

对正在用 Agent 写代码或跑工作流的读者,信息密度和可操作性都很高。

引言

好吧,你得承认这个标题确实挺吸引眼球——但说真的,这不是玩笑。

2023 年,当我们还在用 LLM 跑生产代码的时候,周围的人都惊掉了下巴,因为当时普遍的认知还是 LLM 只能产出没法用的垃圾。但我们知道一件别人没意识到的事:Agent 的输出质量,是你投入 Token 数量的函数。就这么简单。

你自己跑几个实验就能看出来。让 Agent 完成一个复杂的、有些冷门的编程任务——比如说,从头实现一个带约束条件的凸优化算法。先用最低思考档执行;再切到最高思考档,让它 review 自己的代码,看看能发现多少 bug。中档、高档都试一遍。你会直观地看到:bug 数量随着投入的 Token 量单调递减。

这不难理解,对吧?

Token 越多 = 错误越少。你可以把这个逻辑再推进一步,这基本上就是代码 review 产品背后那个(简化过的)核心思路。换一个全新的上下文,投入海量 Token(比如让它逐行解析代码,判断每一行是否有 bug)——这样基本可以抓出绝大多数、乃至全部的 bug。这个过程可以重复十次、一百次,每次都从「不同的角度」审视代码库,你最终能把所有 bug 都挖出来。

「多烧 Token 就能提升 Agent 质量」这个观点,还有一个实证支撑:那些声称能用 Agent 全程写代码直接推上生产的团队,要么是基础模型提供商本身,要么是资金极其充裕的公司。

所以,如果你还在为 Agent 跑不出生产级代码而苦恼——说句直白的,问题出在你身上。或者说,出在你钱包上。

怎么判断我烧的 Token 够不够

我写过一整篇文章说,问题绝对不在你搭的框架(harness),「保持简单」照样能做出优秀的东西,我现在仍然坚持这个观点。你读了那篇,照着做了,但还是对 Agent 的输出大失所望。你给我发了 DM,看到我已读但没回。

这篇,就是回复。

你的 Agent 表现差、解决不了问题,大多数情况下,就是因为你烧的 Token 不够。

解决一个问题需要投入多少 Token,完全取决于这个问题的规模、复杂度和新颖性。

「2+2 等于几?」不需要多少 Token。

「帮我写一个 bot,能扫描 Polymarket 和 Kalshi 之间的所有市场,找出在语义上相似、应该在同一事件前后结算的市场,设定无套利边界,一旦出现套利机会就以低延迟的方式自动交易」——这需要烧一大堆 Token。

我们在实践中发现了一件有意思的事。

如果你投入足够多的 Token 去处理由规模和复杂度引发的问题,Agent 无论如何都能解决。换句话说,如果你想构建一个极度复杂、有很多组件和代码行的东西,只要你往这些问题里砸足够多的 Token,它们最终都能被彻底解决。

这里有一个小但重要的例外。

你的问题不能太新颖。就目前阶段而言,任何数量的 Token 都无法解决「新颖性」问题。足够多的 Token 能把复杂性带来的错误降到零,但无法让 Agent 凭空发明它不知道的东西。

这个结论其实让我们松了口气。

我们花了极大精力,烧了——很多很多非常多——Token,想试试能不能在几乎不给引导的情况下让 Agent 还原出机构投资流程。这部分原因是想搞清楚,我们(作为量化研究员)离被 AI 完全取代还有多少年。结果发现,Agent 根本做不到接近一个像样的机构投资流程。我们认为这部分原因是它们从未见过这种东西——也就是说,机构投资流程在训练数据里根本不存在。

所以,如果你的问题是新颖的,别指望靠堆 Token 来解决。你需要自己引导探索过程。但一旦你确定了实现方案,你就可以放心堆 Token 来执行——无论代码库多大、组件多复杂,都不是问题。

这里有一个简单的启发式原则:Token 预算应当与代码行数成正比地增长。

多烧的 Token 究竟在做什么

在实践中,额外的 Token 通常通过以下几种方式提升 Agent 的工程质量:

让它在同一次尝试中花更多时间推理,有机会自己发现错误逻辑。推理越深入 = 规划越好 = 一次命中的概率越高。

允许它进行多次独立尝试,走不同的解题路径。有些路径比另一些更好。允许不止一次尝试,它就能选出最优的。

类似地,更多的独立规划尝试让它可以放弃弱方向,保留最有希望的。

更多 Token 允许它用全新的上下文来 critique 自己之前的工作,给它一个改进的机会,而不是被卡在某条「推理惯性」里。

当然,还有我最喜欢的一点:更多 Token 意味着它可以用测试和工具来验证。实际运行代码看它是否跑通,是确认答案正确的最可靠方式。

这套逻辑能走通,是因为 Agent 的工程失败不是随机的。几乎总是因为过早选错了路径、没有检查这条路径是否真的走得通(在早期),或者没有足够的预算在发现错误后去恢复和回退。

故事就是这样。Token 字面意义上就是你买来的决策质量。把它想象成研究工作:如果你让一个人当场回答一个难题,答案的质量会随着时间压力增大而下降。

研究,归根结底,是产生「知道答案」这个基础的东西。人类花费生物意义上的时间来产出更好的答案,Agent 则花费更多计算时间来产出更好的答案。

怎么提升你的 Agent

你可能还是半信半疑,但有很多论文支持这一点,说实话,「推理」调节旋钮的存在本身就是你需要的全部证明。

我特别喜欢的一篇论文,研究者用一小批精心策划的推理样本进行训练,然后用一种方法强制让模型在想停下来的时候继续思考——具体做法是在它想停的地方追加「Wait」(等等)。仅此一项,就让某个基准测试从 50%提升到了 57%。

我想说得尽量直白:如果你一直在抱怨 Agent 写的代码差强人意,单次最高思考档对你来说很可能还是不够。

我给你两个非常简单的解决方案。

简单做法一:WAIT(等等)

你今天就能开始做的最简单的事:搭一个自动循环——构建完之后,让 Agent 用全新上下文 review N 次,每次发现问题就修复。

如果你发现这个简单技巧改善了你的 Agent 工程效果,那你至少明白了,你的问题只是 Token 数量的问题——那就来加入烧 Token 俱乐部吧。

简单做法二:VERIFY(验证)

让 Agent 尽早、频繁地验证自己的工作。写测试来证明所选路径确实能跑通。这对高度复杂、深度嵌套的项目特别有用——一个函数可能被下游许多其他函数调用。能在上游抓住错误,能为你节省大量后续的计算时间(Token)。所以如果可以的话,在整个构建过程中到处设置「验证检查点」。

写完一段东西,主 Agent 说搞定了?让第二个 Agent 来验证一遍。不相关的思考流能覆盖系统性偏差的来源。

基本就这些了。关于这个话题我还能写很多,但我觉得只要意识到这两件事并好好落地执行,就能帮你解决 95%的问题。我坚信把简单的事情做到极致,再按需叠加复杂度。

我提到了「新颖性」是靠 Token 无法解决的问题,我想再强调一遍,因为你迟早会碰到这个坑,然后来跟我哭诉说堆 Token 没有用。

当你想解决的问题不在训练集里时,你才是那个真正需要提供解法的人。因此,领域专业知识依然极其重要。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

返20%!OKX钱包龙虾技能,一键秒赚
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

深潮TechFlow的精选文章

46分钟前
Token 不需要中文名,但背后的生意需要
55分钟前
黄金大跌 8% 抹去今年所有涨幅,避险资产为何在中东冲突中\\\"失灵\\\"?
1小时前
创业圣经的自我崩塌:知道得越多,死得越快
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarTechub News
6分钟前
熊市「经典剧本」再演,复盘 Resolv Labs 被「闪电式劫掠」及 USR 脱锚事件
avatar
avatarPANews
11分钟前
高盛解读“伊朗战争会持续多久”:市场只交易了“通胀”,还未交易“衰退”
avatar
avatar深潮TechFlow
46分钟前
Token 不需要中文名,但背后的生意需要
avatar
avatarOdaily星球日报
54分钟前
24H热门币种与要闻|现货黄金今年涨幅归零;Resolv遭遇漏洞攻击(3月23日)
avatar
avatar深潮TechFlow
55分钟前
黄金大跌 8% 抹去今年所有涨幅,避险资产为何在中东冲突中\\\"失灵\\\"?
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接