| AiCoin 实时快讯

ETH

💲1930.82

0.45%

Zhixiong Pan|2026年01月08日 03:44

时隔一年，DeepSeek 没更新 R2，但低调更新了 R1 的论文（V2），几个重点： 1. 针对 LLM 回答中提及 OpenAI/ChatGPT 的现象，他们给出了解释：是网页数据中客观存在外部生成内容，在被用于基座模型训练的过程中，造成了间接影响。 2. 明确将「结构化输出」与「工具使用」列为未来（R2 ？）演进重点。（这也是构建 Agentic 系统的基石） 3. 新增了「Token 效率」作为明确的未来优化方向，减少对简单问题的过度思考。（GPT-5.1 也提过类似的目标） 4. 在叙事上，DeepSeek 不仅展示了纯强化学习在较少人类干预下的有效性，更试图确立「激励驱动」（Incentive-driven）的学术流派。这一转变传递了明确的行业信号：与其依赖大规模的人类标注，通过正确的激励设计引导模型「自我顿悟」才是通往通用推理的终局。 https://arxiv.org/abs/2501.12948v2(Zhixiong Pan)