这个半千兆字节的人工智能模型在您的手机上运行本地代理。

CN
Decrypt
关注
53分钟前

MiniCPM5-1B,是来自OpenBMB的一款十亿参数模型,是MiniCPM设备系列的最新发布。它支持原生工具调用和模型上下文协议(MCP),适合手机内存,并且在同类开源模型中表现最好。


该模型是MiniCPM5家族的首次发布,从一开始就设计用于在资源受限的硬件上本地部署。以10亿参数计,它在当前标准中算是小型模型。(参数是赋予AI模型知识广度的因素,通常参数越多,模型的能力越强。)


谷歌的Gemma 4起始于20亿有效参数,但可扩展至310亿。Llama 4 Scout运行17亿活动参数。MiniCPM5-1B并不假装与这些模型竞争。它的目标是以更少的资源做更多的事情。


构建方式


其架构基础源于MiniCPM4,详细信息见技术报告,由清华大学THUNLP的OpenBMB团队与ModelBest共同发布。核心创新是InfLLM v2,这是一种可训练的注意机制,在长上下文推理期间,针对不到5%的周围标记处理每个标记——显著减少计算量而不会带来实质性的准确性下降。(“标记”是AI模型处理的信息基本单元。)




在数据方面,团队构建了UltraClean,这是一个过滤管道,使得该模型在使用8万亿训练标记的情况下达到竞争性能,而Qwen 3消耗了36万亿。后期训练采用了强化学习结合高效的蒸馏技术(使用更大模型作为小模型的指导),在数学、代码和遵循指令方面提高了基准得分16分,同时将无效长度的响应减少了29个百分点。


上下文窗口设置为128K标记——在一次传递中大约为96,000个单词的连续文本。对于一个10亿参数的模型而言,这个数字相当可观。在较长的角色扮演会话中保持持续的记忆,完整的PDF摘要,或者在任务中不重置的代理上下文都是在其范围之内。


为什么一个简单的代理可能就足够了


我们进行了测试,确认MiniCPM5-1B支持MCP和工具调用。这使得它成为能够在没有云基础设施的情况下进行真实代理工作流程的不足2亿参数模型中的一个。


话虽如此,为了实现这一点,用户需要设置额外的配置,所有配置都列在模型的Github仓库中。




实际场景:在iPhone上的本地代理,可以查询日历、搜索本地数据库或调用一个完全离线的网络研究MCP服务器。正如我们所讨论的,本地运行AI已经比大多数人意识到的更为可及,并且设备上的竞争一直在加速。旨在手机上运行的模型,在没有云后端的情况下正成为一个真正的产品类别,而不是研究好奇。


如果一个本地代理可以简单地获取并告诉你今天的日程安排,你就不需要依赖OpenAI来查询日历。


对于轻量级的代理任务和扩展的对话上下文,MiniCPM5-1B具有竞争力。然而,尽管OpenBMB可能没有考虑到这一点,但该模型的健谈风格使其成为本地角色扮演的一个不错候选——128K的上下文意味着一个故事可以在几十次甚至上百次的交流中发展,而不会失去线索。


读取笔记、总结文档并回答相关问题的小型代理,完全在其能力范围之内,特别是与MCP研究服务器配合使用,以弥补知识空白。


这个规模的竞争包括阿里巴巴的Qwen3-0.6B、Qwen3.5-0.8B和Liquid AI的LFM2.5-1.2B-Thinking。OpenBMB自身的能力基准在一般知识、领域知识、编码、遵循指令、数学推理、逻辑推理和代理任务中对所有四个模型进行了比较。MiniCPM5-1B在所有七个类别中领先,特别是在代理性能和一般知识上有最明显的优势。




快速测试


我们进行了三项快速评估。第一项是经典逻辑陷阱:“请你作为一名专家律师和立法者。根据福克兰群岛的法律系统,一个人是否可以娶自己的寡妇的姐姐?”


正确答案显而易见——有寡妇的人已经死了,死去的人不会签署结婚证书。MiniCPM5-1B提供了详细的福克兰群岛婚姻法分析,完全没有意识到陷阱,将其视为一个简单的管辖权问题。


“关键是,您必须确定福克兰群岛的实际婚姻状态。这是一个事实,应由地方当局或法律程序来决定,”模型在经过长时间推理后回答道。




我们的第二次测试要求一个明确的A/B选择。模型没有选择任何一个,而是选择了一个双方都有的答案。这是在对话压力下小型模型中的一种已知失败模式。MiniCPM5-1B也不例外。


我们要求模型告诉我们将在2100年主导经济的行业是:加密货币还是人工智能?模型没有对问题进行任何推理,而是从头开始分析加密货币和AI投资是如何互补的。


公平地说,作为一个10亿参数的模型,这一切并不令人惊讶。


代理能力实际上是这里的重点。将MiniCPM5-1B与MCP服务器配合进行网页研究,其在模糊事实问题上的幻觉倾向消失或者至少大幅减少。


我们询问了模型当前比特币的价格和三项股票推荐,成功调用了工具,并且推荐(亚马逊、微软和英伟达)是合理的。




结论


一个健谈的、本地可部署的代理,可以调用工具,保持128K的上下文,并且完全在设备上运行,是一个比与GPT-4竞争的独立问答模型更有趣的产品。


只要不要因此取消你的AI订阅。了解你正在处理的内容:相较于大型模型,它的知识较差,编码能力较差(同样,相较于更大的模型),而且如果你在寻找的是AGI,它也远远达不到。


MiniCPM5-1B现已在Hugging Face上以Apache 2.0许可证提供,兼容vLLM、SGLang和标准Transformer推理。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接