豆包手机助手是业界首个系统级AI执行体,具备端侧长期记忆、跨App真实操作、多模态实时交互和Pro模式四大能力,所有关键功能均在本地运行,不依赖云端。

豆包手机助手不是“回答问题”的语音助手,而是能真正动手操作手机的AI执行体。它把大模型能力嵌入系统底层,从理解屏幕、记住你,到跨App点按、自动完成任务,一气呵成。
端侧长期记忆:只存手机里,不上传,可一键关
这是业界首个在手机本地实现的持久化记忆功能。所有信息加密存在设备上,比如你拍过的车位照片、收到的快递短信、12306订单、甚至“我喜欢凡高”这种偏好,它都记得住。
- 问“车停哪了”,直接调出上次拍摄的带楼层标记的车位图
- 说“取快递”,秒读短信提取取件码
- 查“高铁座位号”,自动翻找购票记录并定位车厢座位
- 规划巴黎行程时,因记得你爱凡高,主动推荐奥赛博物馆
记忆支持关键词和语义检索,还能多选删除、按类别筛选,日程或待办会自动同步到日历。
跨App真实操作:像真人一样点、输、滑、跳转
它用GUI模拟点击技术接管屏幕,在多个应用间无缝协作,不依赖开放API,连微信、飞书、12306这类封闭生态也能操作。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
- 说“全网比价这个吹风机”,3秒内打开淘宝/京东/拼多多/抖店,比完价停在支付页(支付环节需你手动确认)
- 指令“帮我请三天假,再订回老家的高铁”,它自动填飞书请假单→提交审批→跳转12306选车→付款
- “找出上周开会提到的项目文档,整理成表格发给张总”,它唤醒文件管理+OCR识别+表格生成+微信发送
复杂任务过程中,你仍可正常使用手机;任务进展还能通过灵动岛实时查看、补充澄清。
多模态实时交互:看得见、听得懂、讲得活
摄像头一开,AI就进入“视觉理解”状态,不只是识图,还能边看边互动。
- 对准英文绘本,立刻开启双语讲读模式,带字幕、能提问、还能根据孩子反应临时改编剧情
- 在相册里直接说“把照片里的人和杂物去掉”,AI即刻修图,无需打开修图App
- 浏览网页或地图时,指着屏幕问“这个景点在哪”“从什么视角拍的”,它当场解析并作答
语音通话、视频通话、屏幕共享等豆包原生能力也已系统级集成,双击侧边AI键即可唤起。
Pro模式:处理模糊、长链条、高难度需求
当指令不够明确或步骤极多时,豆包自动切换Pro模式——融合GUI操作、系统工具调用、强推理与记忆数据,专攻以前AI不敢接的任务。
- “下个月去巴黎,把我收藏的餐厅标到地图上,再订一张有我喜欢展览的博物馆票”
- 它会读取你的收藏夹、调出地图App打点、查奥赛博物馆排期、订票、生成行程单推送到备忘录
整个过程无需拆解指令,也不用你反复确认中间步骤,它自己判断、联想、补全。
基本上就这些。不复杂但容易忽略:它不是App,是系统级存在;不靠云端算力,关键能力全在本地;不只聪明,更愿意替你动手干活。











