您的手机已经有了摄像头、麦克风和屏幕。它可以看到您在现实生活中正在看的东西,以及在其本身屏幕上发生的事情。而现在,中国智能手机制造商 Oppo 的人工智能团队已经发现,坐在那里、大多数情况下未被充分利用的所有硬件,正是您构建真正有用的移动 AI 代理所需要的。
那个项目是 X-OmniClaw,由 Multi-X 团队发布。这是一个 开源 AI 代理框架,可以将您的手机变成一个免提、上下文感知的助手,能够在真实应用程序中运行实际任务,而无需将所有操作都通过您设备的云副本进行。
大多数移动 AI 系统实际上并不运行在您的手机上。它们运行在托管虚拟 Android 副本的云服务器上,让AI可以远程点击和滚动应用程序。结果:无ACCESS到您的真实摄像头、实际照片或本地文件——只是一个使用您手机副本的陌生人。
X-OmniClaw采取了相反的方法。根据 技术报告,它引入了“一个边缘本地架构,直接在用户的物理设备上执行,从而消除模拟环境和真实互动上下文之间的差距。”
报告使用了汽车的类比:智能手机是“车辆”,X-OmniClaw是“控制和感知的内部引擎”,云基础的语言模型仅在需要进行复杂推理时作为“燃料”调用。其他一切保持本地。
Oppo AI 手机代理的工作原理
X-OmniClaw的整体架构基于三个支柱:Omni 感知、Omni 行动和 Omni 记忆,它们作为一个连续的循环工作,根据Oppo的说法,仅在需要复杂推理时调用云 LLM。
来源:OPPO AI 中心
Omni 感知涵盖手机能感知的所有内容。它将摄像头视频、屏幕内容和语音输入结合成一个单一的管道。视觉-语言模型在代理执行任何其他操作之前解释场景。所以如果您把摄像头对准一个瓶子并问:“这个多少钱?”,代理首先弄清楚您在看什么,然后打开相关的购物应用并开始搜索。不需要猜测。
Omni 记忆是让 X-OmniClaw 与一次性聊天机器人不同的地方。代理在任务、应用切换和会话之间保持上下文。它还从您的照片库中构建长期的语义记忆,将原始图像转换为关于对象、场景和事件的结构化笔记。报告指出“运行时连续性使 X-OmniClaw 能够作为一个持续的设备代理运作,而不是一次性响应系统。”
Omni 行动处理执行。它将 XML 接口数据与设备上的视觉模型和 OCR(字符识别层)结合,以准确找出该点击什么,即使在广告众多的屏幕上,单靠结构也不够。它还包括行为克隆:录音自己导航到埋藏的应用页面一次,代理就可以在下次使用 Android deeplink 快速重放该路线。
Oppo AI 代理实际上可以做什么
Oppo分享了一些模型可以做的事情。例如,代理通过摄像头识别物理产品,打开淘宝,滚动结果并返回价格摘要——无需输入。
Oppo还演示了一个浮动屏幕助手,帮助用户逐步完成数学练习:自动读取屏幕,处理每个问题,完成后继续前进。
它还提供了另一个示例,用户要求代理从鹦鹉主题的照片中组装一个精彩视频。系统扫描图库,利用其语义记忆找到匹配的照片,通过深链接打开 CapCut 视频编辑器,批量选择文件并生成视频。以前需要“几分钟或更长时间”的任务,现在变成了一系列自动化的步骤。
来源:OPPO AI 中心
2026年:代理 AI 的年度
AI 代理已成为科技行业讨论最多的类别之一。OpenClaw——开源代理框架,获得超过 373,000 GitHub 星,并最终 获得 OpenAI 支持——通过展示本地运行的持久代理能够在 PC 上所能实现的,掀起了当前的浪潮。Nous Research的 Hermes Agent 更进一步,采用了一个 自我改善学习循环,随着时间的推移增强其能力。
两者主要运行在桌面硬件上。X-OmniClaw 将相同的架构扩展到您实际随身携带的设备。团队在开源的 HermesApp 代码库上进行构建,论文明确将 OpenClaw 的结构化技能模型作为基础灵感,然后将其调整为智能手机的多模态、始终在线的特性。
代码现在已经在 GitHub 上发布。Oppo表示将发布所有资产,并在系统演变的过程中持续更新项目。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。