首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了

admin 2025-08-25 阅读:66 评论:0
整理 | Tina 自主行动将成为苹果预计在 2026 年推出的 Siri 重大升级的一部分。在 WWDC 2024 的主题演讲中,苹果展示了其对 Siri 发展方向的设想:不仅回答问题,更能跨应用执行任务,实现真正的智能助理体验。 然而...

智谱AutoGLM 2.0_WhatsApp_手机AI代理

整理 | Tina

自主行动将成为苹果预计在 2026 年推出的 Siri 重大升级的一部分。在 WWDC 2024 的主题演讲中,苹果展示了其对 Siri 发展方向的设想:不仅回答问题,更能跨应用执行任务,实现真正的智能助理体验。

然而,迄今为止,苹果尚未发布完整落地的执行型 Agent。Siri 的语音交互能力虽持续进化,但真正能代用户操作应用、完成复杂任务的智能体仍缺席。

有传言称,苹果至少还需要几年时间才能推出我们一直期待的真正的 iPhone AI 代理。毕竟用户设想中“一句话指令即可订餐、购票、查房源”的场景,对技术、安全性和生态提出极高要求。

但就在8月20日,国产大模型厂商智谱发布了 AutoGLM 2.0。

智谱官方宣称,这是全球首个可在手机上使用的 Agent,同时开创了“Agent + 云手机 / 云电脑”的新技术范式,无需占用用户本地设备,突破硬件限制,可在任何设备、任何场景下运行,帮助用户代理操作。

智谱将这一创新的核心概括为:“一个 APP 让一部手机成为真正的‘新物种’。”

AutoGLM 2.0 实现了质的飞跃——它不再只是“说”,而是真正能够“做”。在生活场景中whatsapp网页版,用户只需一句话,就能让 AutoGLM 操作美团、京东、小红书、抖音等几十个高频应用:点外卖、订机票、查房源,例如帮你买「秋天的第一杯奶茶」。这意味着,AI 不再是一个“聊天工具”,而是一个能真正替你干活的全能代理人。

背后的支撑技术

AutoGLM 项目于 2023 年底立项,并于 2024 年 10 月推出第一版。最初面临的主要问题是直接操作用户手机或电脑会抢占屏幕,影响用户体验;同时,安卓设备表面上看起来统一,但底层差异巨大,存在本地系统适配与权限问题,以及泛化困难等挑战。

今年 3 月,AutoGLM 沉思实现了 Deep Research(深度研究)与 Browser-Use Agent(浏览器使用代理)的融合,但同样面临本地系统复杂性、浏览器局限性以及关机后无法运行等问题。因此,智谱调整了策略,采用“云端手机 + 云端电脑”的形式。

目前,AutoGLM 2.0 已在国内免费向所有用户开放。智谱认为,Agent 有望成为全新的互联网流量入口。相比传统 Chatbot,Agent 的任务复杂度和消耗量更高——单个任务平均需要超过 256K 的 Token,而 Chatbot 一次对话通常只有 8K,二者相差达 32 倍。

智谱强调,但由于 AutoGLM 完全基于国产模型,相较接入海外模型的方案,整体成本降低了一个数量级。

以 Deep Research 任务为例,使用 Claude API 平均成本约为 3–5 美元whatsapp web,而在 AutoGLM 上运行同样任务whatsapp网页版,模型和虚拟机一起计算,单次成本仅约 0.2 美元,相当于人民币 1 元多一点。

另外,GUI Agent 也是大模型企业近来都关注的方向,包括 Anthropic 和 OpenAI。去年 10 月,Anthropic 发布了他们称之为计算机使用的新 API 模式 Computer Use。OpenAI 也于今年 1 月发布了 Operator Computer,此外市场上还有 Browser Use 等相关产品。

智谱表示,在 Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude Sonnet 4,展现出更强的鲁棒性与通用性,处于主流 Agent 的 SOTA 水平。

智谱AutoGLM 2.0_手机AI代理_WhatsApp

在技术层面,AutoGLM 2.0 由智谱语言模型 GLM-4.5 和视觉推理模型 GLM-4.5V 提供支持,并且还结合在“端到端异步强化学习”上的一些新方法,能够完成推理、编程、研究、智能体任务以及图形界面操作等多种工作,并且可以根据需要灵活调用最合适的“子大脑”来执行任务:MobileRL、ComputerRL,以及 AgentRL。

MobileRL 是一个面向移动端 GUI 任务的统一强化学习框架,旨在提升视觉语言智能体的推理能力与训练效率。

大模型驱动的 GUI Agent,整个操作过程由模型自主决策完成,而不是依赖预先编写好的固定流程。它会根据环境动态调整行为,并且能够理解人类给出的自然语言指令,因此并非只能执行某个特定任务的脚本,而是以更通用的方式实现操作。

这也使得它需要在一定程度上适应环境的变化。只要环境变化仍在模型对 UI 的理解范围内,它仍有很高的概率能够正确执行任务。——但这并不代表准确率是 100%。

结合 MobileRL 训练出的 AUTOGLM-Mobile-9B,其在 AndroidWorld 上的成功率为 75.8%,在 AndroidLab 上成功率则为 46.8%。

ComputerRL 是一个面向桌面端任务的统一强化学习框架,旨在提升智能体在复杂数字化工作空间中的操作能力与自主决策效率。

智谱AutoGLM 2.0_手机AI代理_WhatsApp

智谱刚刚发布了其论文,ComputerRL 的核心是 API-GUI 范式。它把程序的 API 接口调用和直接的 GUI 操作结合起来,解决了机器智能体和以人为中心的桌面环境之间固有的不匹配问题,使 AI 既能像人一样操作界面,又能利用 API 控制软件。

在 OSWorld 基准测试上,结合了 ComputerRL 的 GLM-4-9B-0414,训练出的 AUTOGLM-OS-9B 实现了 48.1% 的当前最佳准确率。

智谱的“新物种”:当手机通用Agent

遇上苹果的谨慎

随着 AI Agent 战争的爆发,智能手机行业正在迎来新的格局变革。而对于智谱这样的国内大模型厂商来说,手机 OEM 厂商可能是一个重要切入点。未来,一部智能手机上预计会同时存在多个 AI Agent,作为应用和服务的入口。手机 OEM 将推广自有 Agent,但第三方开发者也可能推出替代方案,从而形成多 Agent 共存的生态系统。

手机AI代理_WhatsApp_智谱AutoGLM 2.0

Meta、腾讯和字节跳动等大型科技公司正准备利用人工智能代理来强化其生态系统。Meta 的代理可能只会通过 WhatsApp 与联系人发送消息,在微信生态系统内,腾讯也有机会创建一个非常独特的 Agent 生态。这些闭环生态会将用户锁定在自家系统,实现对涵盖日常生活各方面的“超级应用”的掌控。

这种变化可能彻底颠覆移动生态。如今,OEM 对应用分发仍有巨大影响力,尤其是在缺乏谷歌移动服务 (GMS) 的中国。但在大模型驱动的时代,如果 OEM 未能占据主动,它们可能会沦为单纯的硬件组装商,对软件、服务乃至收入来源几乎没有控制权。为了抓住这一机遇,OEM 厂商必须立即投资构建开放的 AI 生态系统。而支持独立的 AI 初创公司,并确保第三方代理无缝集成到其设备中,也是对抗巨头的一个方式。也许这就是智谱所瞄准的机会:通过为 OEM 提供手机 AI Agent 解决方案,帮助厂商在 AI 时代重新掌握用户入口,建立开放生态。

不过,目前手机 AI Agent 仍存在任务成功率偏低的明显瓶颈,最重要的还是隐私问题。移动设备是高度私密的个人设备,它们存储着我们的银行应用、健康记录、照片以及其他敏感信息。目前,大部分 AI 研究都只关注如何让 AI“更聪明地”完成任务,却很少有人真正去思考,这些操作背后的隐私和安全隐患。

苹果与华盛顿大学最近就发了一篇论文,研究和训练大模型理解其在手机上操作的后果,他们(如下图)强调:AI 不仅要学会操作设备,更需要理解每一步行为的后果,知道何时该暂停。

截图来源:https://arxiv.org/html/2410.09006v2

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

3502文章数 0评论数
热门文章
  • 详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略

    详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略
    一、下载与安装WhatsApp WhatsApp是一款全球使用范围极广的即时通讯软件,不仅可以实现文本聊天,还能进行语音、视频通话WhatsApp中文版,发送文件等功能。由于众所周知的原因,国内用户想要下载和安装WhatsApp可能会遇到一些困难。不过,只要按照以下步骤操作,就能顺利完成WhatsApp的下载和安装。 首先,我们需要解决的是下载问题。由于WhatsApp在国内的应用商店无法直接下载,所以我们需要寻找其他的下载途径。Android用户可以选择到各大安卓市场搜索下...
  • 苹果IOS5.1.1机完美越狱

    苹果IOS5.1.1机完美越狱
    越狱工具下载:(需手动复制: http://bbs./read-htm-tid-4804612.html ) 详细的越狱教程: Absinthe 2.0.4的越狱方法与Absinthe 1.0的越狱方法完全一样,非常简单的“傻瓜一键式”。不过这里绿毒有说明,最好重新刷固件。支持越狱设备IOS5.1.1的固件下载地址请点击本站的IOS固件下载,看下图: 下载完固件之后,把设备连接iTunes,开始刷固件。你也可以选择不刷,但是在越狱的过程之中,新的系统在越狱时会比较的顺利,...
  • 电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹

    电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹
    1. 怎么找到微信聊天图片在哪个文件夹里 图片保存路径:/storage/emulated/tencent/MicroMsg/WeiXin/文件夹,这个是完整路径。而在文件夹中只需要找到/tencent/MicroMsg/WeiXinWhatsApp中文版,就可以了,前面两个文件夹是系统根目录。以下是保存及查找图片的方法步骤介绍。 第一步、找到桌面的微信APP,直接点击打开这个微信的APP。 2. 电脑微信图片保存在哪个文件夹 个人微信文件夹。 电脑版微信聊天的图片,都保存到...
  • Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式

    Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式
    Meta(最近更名为 Meta AI)悄然宣布,WhatsApp 将在 Windows 11 上放弃 UWP(WinUI)WhatsApp中文版,退回采用基于 Chromium 的容器。这意味着 WhatsApp 又回到了几年前的样子。由于 web.whatsapp.com 一直领先于 Windows 应用开发,它确实拥有一些新功能,但速度更慢,占用更多内存。 如果独立开发者因为无力维护所有平台的代码库而选择 Web 应用程序,那是一回事,但当像 Meta 这样价值万亿美元...
  • 小米下載WhatsApp的完整指南:安装与使用注意事项

    小米下載WhatsApp的完整指南:安装与使用注意事项
    综上所述,确保您的小米手机具备以上条件,将有助于您顺利下载和安装WhatsApp,享受便捷的通讯服务。在满足这些条件后,您就可以按照后续步骤进行WhatsApp的下载和安装。 2. 下载和安装WhatsApp的具体步骤 在小米手机上下载和安装WhatsApp的具体步骤相对简单,但需注意一些特殊情况。首先,确保你的手机系统已更新到最新版本,以保证最佳的兼容性。由于安卓手机商店内无法直接找到WhatsApp,你可以通过APKPure等第三方应用商店进行下载。打开APKPure应用...