Zhixiong Pan
Zhixiong Pan|2026年01月08日 03:44
时隔一年,DeepSeek 没更新 R2,但低调更新了 R1 的论文(V2),几个重点: 1. 针对 LLM 回答中提及 OpenAI/ChatGPT 的现象,他们给出了解释:是网页数据中客观存在外部生成内容,在被用于基座模型训练的过程中,造成了间接影响。 2. 明确将「结构化输出」与「工具使用」列为未来(R2 ?)演进重点。(这也是构建 Agentic 系统的基石) 3. 新增了「Token 效率」作为明确的未来优化方向,减少对简单问题的过度思考。(GPT-5.1 也提过类似的目标) 4. 在叙事上,DeepSeek 不仅展示了纯强化学习在较少人类干预下的有效性,更试图确立「激励驱动」(Incentive-driven)的学术流派。这一转变传递了明确的行业信号:与其依赖大规模的人类标注,通过正确的激励设计引导模型「自我顿悟」才是通往通用推理的终局。 https://arxiv.org/abs/2501.12948v2(Zhixiong Pan)
+2
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读