
PANews 4月30日消息,据DeepSeek发布的技术报告,其提出“视觉基元推理”(Visual Primitives)方法,通过将点、框等基础视觉单元嵌入推理链,解决多模态任务中的Reference Gap问题。该方法基于DeepSeek-V4-Flash架构,并通过压缩KV缓存实现低图像token消耗。在计数与空间推理基准测试中,其表现可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(仅限部分维度)。团队表示未来将开源部分基准与数据,模型权重将整合后发布。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。