开云体育(中国)官方网站 AI手机迎来分水岭:在豆包手机和千问之间,Gemini选拔了第三条路

发布日期:2026-03-20 04:25    点击次数:130

开云体育(中国)官方网站 AI手机迎来分水岭:在豆包手机和千问之间,Gemini选拔了第三条路

在上月底举办的三星 Galaxy S26 发布会上,三星和谷歌官宣将在 Galaxy S26 上首发基于 Gemini 的 Screen Automation(屏幕自动化)的才略。

浮浅来说,即是 Gemini 不错径直在手机屏幕上操作应用:翻开 APP、识别屏幕、点击滑动、输入翰墨 …… 完成一连串 UI 操作,临了再把阐明设施交给用户。

图片开端:三星

没错,听起来就和努比亚 M153(坊间俗称「豆包手机」)上的豆包手机助手一样,都是能替代东谈主类在手机上进行「代理」操作,完了一句话点外卖、叫车、网购等需求。

从外洋媒体和论坛的反应来看,这项功能终于在最近的测试版更新中上线了。

不外咱们也发现,谷歌并莫得全盘学习豆包手机助手的作念法。诚然在技巧完了旅途上相似基于 GUI 的 Agent,但 Gemini 会基于 Android 开启一个腹地的杜撰沙盒,同期还主动放胆了首批绽开 Gemini「操作」的 APP,仅限少数一批应用。

这种处分阵势与国内厂商显然不太一样。致使不错对比字节的豆包手机助手和阿里的千问,谷歌选拔了一条看起来既激进、又保守的道路。

只看功能名义,Gemini 的「屏幕自动化」很容易被通晓为另一种「豆包手机助手」。它相似不错替你点外卖、叫车、下单,看起来也像一个能替东谈主操作手机的 AI 代理。

但如果把视角往下再挖一层,就会发现谷歌的有洽商其实皆备不是一趟事。

豆包手机助手的逻辑很浮浅:AI 读取屏幕像素,像东谈主眼一样识别按钮和输入框,然后模拟手肃清击。这种阵势最大的优点即是通用——表面上任何 APP 都能操作,因为 AI 看到的只是屏幕。

Gemini 彰着更「保守」。在推行实施任务时,Gemini 并不会径直在你的手机桌面上操作应用,而是会在 Android 系统里开启一个腹地的杜撰沙盒窗口,让 AI 在这个环境里运行洽商 APP。

通盘过程是可见的,用户不错随时阻隔任务,也不错在职何一步接管操作。

图片开端:Android Central

浮浅来说,Gemini「屏幕自动化」在产物定位上并不是一个不错松驰操控手机的全能代理,而是一个被系统严格看守的自动化才略。

谷歌还主动放胆了第一批扶直自动化的应用数目。目下绽开的主若是打车、外卖和餐饮类管事,仅扶直 Lyft、Uber、GrubHub、DoorDash、Uber Eats 和星巴克。

也放胆了「用户规模」。目下除了三星 Galaxy S26 系列仍是不错在测试版中体验,谷歌也仅打算了 Pixel 10 系列扶直,同期 Gemini 免用度户每天仅有 5 次使用额度、Plus 会员 12 次、Pro 会员 20 次、Ultra 会员 120 次。

这里既有算力的考量,也在于用户对 AI「乱入手机」的担忧,尤其是在泰西市集。是以谷歌作念了权限窒碍、要道设施必须要用户手动操作、不错及时中断 AI 操作等。

但说到底,这只是过渡阶段,谷歌的有洽商毫不啻是让 Gemini 只是能够操作几个特定 APP。

图片开端:谷歌

好多东谈主认真到 Gemini 的 GUI 操作才略,却忽略了 Android 在系统层面正在发生的一件事情。

就在三星 Galaxy S26 系列发布会前夜,谷歌官方发布了一篇博文名为《智能操作系统:让 AI 代理对安卓应用更有匡助》,并认真推出了一套新的应用才略接口体系—— AppFunctions,允许 APP 主动向系统声明我方不错被 AI 调用的功能。

举个例子,一个外卖 APP 不错告诉系统:扶直搜索餐厅、添加商品、提交订单这些才略。当用户对 Gemini 说「帮我点一份披萨」时,AI 并不一定需要渐渐点击界面,它不错径直调用这些才略完成任务。

如果把这套机制通晓成 AI 的「函数调用」,环球体育事情就变得十分了了了。在谷歌的遐想里,AI 代理其实有两条旅途不错实施任务,一种是通过系统接口径直调用应用才略,另一种才是通过识别屏幕界面来进行 GUI 自动化。

前者成果更高、褂讪性更好;后者则是为了兼容那些莫得适配新接口的应用。

这意味着 Gemini 翌日的开荒自动化才略,实质上并不是单纯的「AI 看屏幕操作手机」,而是一种系统 API 与 GUI 夹杂的架构。

AppFunctions 的应用示例,图片开端:雷科技

这个互异听起来有点技巧化,但它背后的产物逻辑其实十分浮浅。比较豆包手机助手让 AI 像东谈主一样使用手机,谷歌想作念的事情是让 AI 像系长入样鼎新应用。

当 AI 只是读取屏幕像素时,它永远站在系统以外,只可效法东谈主的操作逻辑;但一朝 AI 被放进操作系统里面,它就不错径直合作应用之间的才略。

从这个角度看,Gemini Screen Automation 的信得过洽商或者并不是点外卖、叫车这些场景。谷歌信得过想开发的,是一种新的 Android 运行逻辑和生态。从这里登程,咱们也能在一定进程上观点,为什么谷歌要和高通联手推动「安卓电脑」(非 Chromebook)。

也讲授了为什么 Gemini 的有洽商看起来既激进又保守。

激进的方位在于,它试图把 AI 造成 Android 的鼎新中心;保守在于,谷歌并不打算让 AI 松驰接管通盘手机,而是通过系统接口、权限戒指和应用白名单,开云体育一步一步鼓励这种变化。

比较「全能 AI 代理」的设想,这种道路显然更慢,也更克制。但关于一个领罕有十亿开荒的操作系统来说,谷歌可能也莫得太多激进试错的空间。

比较谷歌在手机上的作念法,旧年底亮相的豆包手机助手选拔了最浮浅、也最激进的一种阵势:让 AI 像东谈主一样使用手机。

在这套有洽商里,AI 读取屏幕像素,识别按钮、输入框和页面结构,然后模拟手肃清击完成操作。不管是点外卖、比价购物如故下单支付,AI 都是在手机界面上一步步实施。

这种阵势最大的上风即是通用。因为 AI 看到的只是屏幕,它不需要任何 APP 的接口扶直,也不需要平台授权。表面上,只有是东谈主能操作的应用,AI 都不错完成相似的操作。

这亦然为什么好多东谈主第一次体验豆包手机助手时,会合计它像一种「信得过的 AI 手机」。

图片开端:豆包

但问题也相似彰着。当 AI 不错读取通盘屏幕并操作扫数应用时,权限和安全问题就不行幸免。同期,好多互联网平台也并不迎接这种自动化四肢,因为它绕过了平台自身的进口和推选体系。

浮浅说,豆包的道路技巧上十分径直,但也自然会和应用生态产生摩擦。

比较之下,阿里的千问走的是另一条想路,运用阿里我方的管事生态,让 AI 成为一个鼎新中心。在这套体系里,用户的一句话会被拆解成具体任务,然后分辩调用淘宝、支付宝、高德、飞猪等管事来完成。

比如搜索商品、下单支付、打算道路,都是径直调用实在业务才略,而不是模拟界面操作。因为扫数操作都发生在生态里面,AI 不需要绕过应用权限,也不会触发平台风控,又因为径直调用管事接口,实施成果通常也更高。

图片开端:雷科技

但问题相似了了:生态鸿沟。千问能够鼎新的管事,实质上如故阿里系应用。一朝用户需求涉偏激他平台,才略就会彰着下跌。

从这个角度看,豆包和千问其实代表了两种十分典型的 AI 代理旅途。前者试图让 AI 接管手机自身,追求的是通用才略;后者则通过生态整合,让 AI 接管管事经过,追求的是业务深度。

而谷歌的 Gemini,某种进程上站在二者之间。在现时阶段,Gemini 依然保留了 GUI 自动化才略,这意味着它在必要时也不错像豆包一样,通过识别界面来操作应用。但与此同期,谷歌又在 Android 系统里引入了新的应用才略接口,让 APP 主动向系统绽开不错被 AI 调用的功能。

如果应用扶直这些接口,Gemini 就不需要再渐渐点击界面,而是不错径直调用应用才略完成任务。换句话说,谷歌的有洽商其实是一种夹杂旅途:

系统接口优先,GUI 自动化兜底。

从短期来看,这种阵势显然莫得豆包那样惊艳,也不像千问那样能够赶快整合谨慎生态。但它的平正在于,既幸免了和应用生态的正面突破,又保留了弥漫的通用性。

把视角再拉远少量,其实不难通晓三种道路为什么会分化成目下这么。

字节莫得操作系统,也莫得腹地糊口生态,是以只可让 AI 径直接管手机;阿里领有广大的管事体系,于是让 AI 去鼎新我方的业务网罗;而谷歌信得过领有的,则是 Android 这个障翳数十亿开荒的操作系统。

因此开云体育(中国)官方网站,Gemini 的洽商从一运行就不是作念一个更强的手机助手,而是把 AI 造成系统的一部分,让 Android 从「运行应用的平台」渐渐造成「鼎新应用的智能系统」。从这个角度看,Gemini 的克制并不是保守,而更像是一种平台级公司的势必选拔。

PG电子(PocketGames)游戏官网