DeepSeek发布视觉基元推理方法，提升多模态复杂推理能力

PANews 4月30日消息，据DeepSeek发布的技术报告，其提出“视觉基元推理”（Visual Primitives）方法，通过将点、框等基础视觉单元嵌入推理链，解决多模态任务中的Reference Gap问题。该方法基于DeepSeek-V4-Flash架构，并通过压缩KV缓存实现低图像token消耗。在计数与空间推理基准测试中，其表现可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash（仅限部分维度）。团队表示未来将开源部分基准与数据，模型权重将整合后发布。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。