近日,外媒消息称,苹果科研团队已成功研发出一款名为ferret-ui lite的新型端侧人工智能代理。该轻量级模型可直接在终端设备上部署运行,并能依据用户指令,自主操作各类应用程序的图形界面(gui)。

据CNMO获悉,该项目是苹果在多模态大语言模型领域,尤其是Ferret系列持续深耕的重要成果。早在2023年末,苹果便推出了基础模型“FERRET”,旨在赋予AI对图像中局部区域的理解能力。随后,团队进一步推出专为移动UI理解优化的Ferret-UI,以及升级版Ferret-UI 2。尽管这些早期模型功能全面,但参数量庞大,主要面向服务器端部署。

而本次发布的Ferret-UI Lite则聚焦于效率与精简——它仅含30亿参数,核心使命是在算力与内存受限的终端设备(如智能手机)上,高效执行GUI交互任务。
研究团队指出,当前主流GUI代理普遍依赖参数量巨大的基础模型。这类模型虽具备较强的推理与任务规划能力,却因体积臃肿、计算开销高,难以实现在设备本地稳定运行。为突破这一瓶颈,Ferret-UI Lite融合多项创新设计,达成性能与轻量化的协同优化。其中关键一环是“实时区域裁剪与动态放大”机制:模型首先对整屏内容进行粗粒度分析,识别关键区域后,自动裁切并放大该区域,再进行精细化语义解析。此举显著缓解了小规模模型处理高分辨率界面图像时的信息捕捉压力。

实测数据显示,尽管参数量大幅缩减,Ferret-UI Lite在多项标准GUI理解与操作基准测试中,性能表现不仅媲美主流竞品,甚至超越参数规模达其24倍的同类大模型。其优势尤为体现在短周期、低复杂度的界面操作任务中。虽然在需多步协同、逻辑嵌套较深的长程交互场景中尚存提升空间,但作为完全离线运行的端侧AI代理,它带来了根本性价值:所有界面感知、指令解析与操作决策均在设备本地闭环完成,无需任何数据上传云端,从而从源头保障用户隐私与敏感信息的安全。
据悉,区别于此前主要基于iPhone截图开展验证的版本,Ferret-UI Lite的训练与评估工作主要依托Android系统、网页端及桌面级GUI环境展开。这一选择或受当前主流GUI自动化测试平台生态分布影响,同时也侧面印证了该模型在跨操作系统、跨设备形态场景下的适配潜力与泛化能力。











