这个开源手机人工智能助手可以看、听和行动——所有这些都不需要接触云端。

您的手机已经有了摄像头、麦克风和屏幕。它可以看到您在现实生活中正在看的东西，以及在其本身屏幕上发生的事情。而现在，中国智能手机制造商 Oppo 的人工智能团队已经发现，坐在那里、大多数情况下未被充分利用的所有硬件，正是您构建真正有用的移动 AI 代理所需要的。

那个项目是 X-OmniClaw，由 Multi-X 团队发布。这是一个开源 AI 代理框架，可以将您的手机变成一个免提、上下文感知的助手，能够在真实应用程序中运行实际任务，而无需将所有操作都通过您设备的云副本进行。

大多数移动 AI 系统实际上并不运行在您的手机上。它们运行在托管虚拟 Android 副本的云服务器上，让AI可以远程点击和滚动应用程序。结果：无ACCESS到您的真实摄像头、实际照片或本地文件——只是一个使用您手机副本的陌生人。

X-OmniClaw采取了相反的方法。根据技术报告，它引入了“一个边缘本地架构，直接在用户的物理设备上执行，从而消除模拟环境和真实互动上下文之间的差距。”

报告使用了汽车的类比：智能手机是“车辆”，X-OmniClaw是“控制和感知的内部引擎”，云基础的语言模型仅在需要进行复杂推理时作为“燃料”调用。其他一切保持本地。

Oppo AI 手机代理的工作原理

X-OmniClaw的整体架构基于三个支柱：Omni 感知、Omni 行动和 Omni 记忆，它们作为一个连续的循环工作，根据Oppo的说法，仅在需要复杂推理时调用云 LLM。

来源：OPPO AI 中心

Omni 感知涵盖手机能感知的所有内容。它将摄像头视频、屏幕内容和语音输入结合成一个单一的管道。视觉-语言模型在代理执行任何其他操作之前解释场景。所以如果您把摄像头对准一个瓶子并问：“这个多少钱？”，代理首先弄清楚您在看什么，然后打开相关的购物应用并开始搜索。不需要猜测。

Omni 记忆是让 X-OmniClaw 与一次性聊天机器人不同的地方。代理在任务、应用切换和会话之间保持上下文。它还从您的照片库中构建长期的语义记忆，将原始图像转换为关于对象、场景和事件的结构化笔记。报告指出“运行时连续性使 X-OmniClaw 能够作为一个持续的设备代理运作，而不是一次性响应系统。”

Omni 行动处理执行。它将 XML 接口数据与设备上的视觉模型和 OCR（字符识别层）结合，以准确找出该点击什么，即使在广告众多的屏幕上，单靠结构也不够。它还包括行为克隆：录音自己导航到埋藏的应用页面一次，代理就可以在下次使用 Android deeplink 快速重放该路线。

Oppo AI 代理实际上可以做什么

Oppo分享了一些模型可以做的事情。例如，代理通过摄像头识别物理产品，打开淘宝，滚动结果并返回价格摘要——无需输入。

Oppo还演示了一个浮动屏幕助手，帮助用户逐步完成数学练习：自动读取屏幕，处理每个问题，完成后继续前进。

它还提供了另一个示例，用户要求代理从鹦鹉主题的照片中组装一个精彩视频。系统扫描图库，利用其语义记忆找到匹配的照片，通过深链接打开 CapCut 视频编辑器，批量选择文件并生成视频。以前需要“几分钟或更长时间”的任务，现在变成了一系列自动化的步骤。

来源：OPPO AI 中心

2026年：代理 AI 的年度

AI 代理已成为科技行业讨论最多的类别之一。OpenClaw——开源代理框架，获得超过 373,000 GitHub 星，并最终获得 OpenAI 支持——通过展示本地运行的持久代理能够在 PC 上所能实现的，掀起了当前的浪潮。Nous Research的 Hermes Agent 更进一步，采用了一个自我改善学习循环，随着时间的推移增强其能力。

两者主要运行在桌面硬件上。X-OmniClaw 将相同的架构扩展到您实际随身携带的设备。团队在开源的 HermesApp 代码库上进行构建，论文明确将 OpenClaw 的结构化技能模型作为基础灵感，然后将其调整为智能手机的多模态、始终在线的特性。

代码现在已经在 GitHub 上发布。Oppo表示将发布所有资产，并在系统演变的过程中持续更新项目。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

这个开源手机人工智能助手可以看、听和行动——所有这些都不需要接触云端。

Oppo AI 手机代理的工作原理

Oppo AI 代理实际上可以做什么

2026年：代理 AI 的年度

Decrypt的精选文章

目录

相关文章