Colin Wu
Colin Wu|2025年10月19日 01:08
使用 GPT 发现一个问题,就是关于新的东西,它的准确率会低一些(所以说暂时还是很难替代媒体和新闻类 KOL),甚至援引很多明显一眼可以看出是错误的信息,包括一些网络上搞流量的账号的来源,这是什么原因?怎么应对? 分析:大模型的主体能力来自预训练语料(书、论文、百科、开源网页等),这些语料在采集—清洗—训练—发布之间存在“时间滞后”。 “旧信息”在模型训练时已被广泛收录、互相印证,出现大量冗余证据,模型形成稳定的统计关联;“新信息”尚未进入训练集,模型只能靠已有的世界知识去“猜”,一旦你不让它上网核验,它就更容易编造看似合理的答案(俗称“幻觉”)。 重大突发事件的第一轮报道往往彼此矛盾;社媒转述多、原始证据少、撤回与更正频繁。训练时模型学到的是“语言共识的分布”,而不是“事实真伪判定器”。当共识尚未形成,模型就容易“平均化”或采纳早期但错误的说法。 新消息初期最易被流量型 KOL、转发链条放大。模型(或浏览器插件)若检索到的是这些高互动但低可信的贴文,就会被“受欢迎度”误导。中文语境下还会遇到:翻译讹误、同名实体混淆(人名/机构缩写)、截图无上下文、旧闻翻新等,使检索验证更困难。 语言模型本质是在给定上下文下预测最可能的词序列。它对“语义流畅”非常擅长,对“事实校验”并不天然可靠。当你用比较笼统或带倾向性的提问(例如“X是不是因为Y”)时,模型倾向顺着语势去组织“合理解释”,从而把推断写成“像事实的陈述”。 为了响应速度与覆盖面,很多系统默认不开启“强检索—多源比对—证据打分”的重型链路;即使允许联网,有的实现也只做“单轮检索 + 单源引用”,不做交叉核验或时间一致性检查,导致“引用但不可靠”。 比较“老”的历史/百科/经典论文/已定型技术文档,信息结构清晰、冲突少、被多次复述与更正;这类内容在训练集中“重复出现 + 相互印证”,模型对其概率分布非常稳定,自然准确率更高。 实操:把错误率降到可接受。提问与约束层面,明确要求“只在核实后作答,并给出≥2个独立权威来源 + 时间戳”;指定来源的优先级:官方通告/备案—监管网站—一线媒体—作者亲证—社媒原帖(仅作线索);强制时间过滤:例如“仅引用过去48小时更新的来源,并标注发布时间(UTC+8/UTC+9)”;要求“先给要点与结论置信度(高/中/低),再给细节”;对传闻类问题,要求模型先分类:Confirmed / Likely / Rumor / Disputed,并说明判定依据。 验证工作流 1. 定义结论要点(哪些事实需被核验:人物、事件、金额、时间、地点)。2. 多源检索(至少 3 源,领域权威优先;对中文消息,找英文/监管网站交叉)。3. 看“原始出处”而非二手解读(新闻稿/SEC/公司公告/链上交易哈希)。4. 对齐时间线(事件发生时间 vs. 发布/更正时间,明确“截至 YYYY-MM-DD HH:mm JST”)。5. 标注不确定性与缺口(哪些仍在发酵/仅有单一来源)。6. 生成摘要 + 引用块(每条引用放在对应结论后)。(Colin Wu)
+3
曾提及
分享至:

脈絡

熱門快訊

APP下載

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀