肉包是什么
肉包(roubao)是一款开源的ai驱动手机自动化工具,旨在提供字节跳动“豆包手机助手”的免费、轻量、可定制替代方案。它基于视觉语言模型(vlm)构建,采用kotlin原生开发,无需依赖pc端调试或root权限,仅需通过shizuku即可获取系统级操作能力。其核心工作流为“截图→ai理解→指令执行”闭环,同时支持delegation(委托专业ai应用处理)与gui级自动化双模式,覆盖点餐、通讯、导航等高频移动场景。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Countly 是一个实时的、开源的移动分析应用,通过收集来自手机的数据,并将这些数据通过可视化效果展示出来以分析移动应用的使用和最终用户的行为。截至2019年,支持超过2500个网站,16000个移动应用程序和多个桌面应用程序。它从移动,桌面,Web收集数据包括Apple Watch,TvOS和其他互联网连接设备的应用程序,并将这些信息可视化以分析应用程序使用情况和最终用户行为。
肉包的主要功能
- 智能AI代理(Agent):依托视觉语言模型实时解析屏幕画面,理解界面语义,响应自然语言指令,自主拆解并执行多步骤任务。
- 现代化UI体验:遵循Material 3设计规范,内置深色/浅色主题自动适配、细腻交互动画及完整中英文本地化支持。
- 灵活模型接入:兼容多种主流VLM后端,如通义千问Qwen-VL、OpenAI GPT-4V、Anthropic Claude系列等,支持自定义API地址、密钥及本地模型部署。
- 隐私与安全优先:所有API密钥均通过AES-256-GCM加密存储;内置敏感页面识别模块,可在检测到支付、登录等高风险界面时主动暂停任务;全部操作过程可视化,支持一键手动终止。
- Root增强能力(可选):当Shizuku以Root权限运行时,肉包可启用更深层系统控制,例如无障碍服务强制启用、后台应用管理、跨进程UI交互等进阶功能。
肉包的技术原理
- 双层Agent架构设计:灵感源自Claude Code框架,分为Tools层与Skills层。Tools层封装底层原子能力——包括App启动、DeepLink跳转、剪贴板读写、通知栏交互等;Skills层则面向用户意图建模,将“帮我订一杯咖啡”这类模糊表达精准映射为可执行动作序列。
- 闭环式视觉自动化流程:持续执行“截屏→VLM分析→动作生成→系统执行”循环。Shizuku负责底层截图与触控注入;SkillManager首先进行意图置信度评估——高确定性请求(如“打开微信”)直连DeepLink委托;低置信度或复合型任务(如“把刚收到的快递单号发给张三”)则进入标准Agent流程,由Manager统筹规划、Executor生成具体操作、Reflector动态校验结果并迭代优化。
- 纯端侧Android原生实现:在MobileAgent开源框架基础上,使用Kotlin全面重写,完全离线运行于安卓设备本地。借助Shizuku获得类ADB权限,直接调用系统接口完成截图、点击、滑动、输入等操作,彻底摆脱传统Python+ADB方案对电脑连接的依赖。
肉包的项目地址
肉包的应用场景
- 高频生活事务自动化:一句话触发外卖下单、天气查询、闹钟设置、消息发送等操作,免去手动切换App、层层点击的繁琐流程。
- 跨应用信息流转:自动识别当前屏幕内容(如网页链接、图片文字、订单号),一键完成“将最新截图发至微博”“把聊天中的网址分享到微信”“从邮件复制收货地址填入淘宝”等操作。
- 个性化娱乐调度:自动唤起音乐App播放每日推荐歌单、在B站搜索指定关键词并播放首个视频、滚动刷新抖音/小红书首页获取热门内容。
- 智能出行辅助:语音唤醒高德地图发起路线规划、调起滴滴/高德打车、检索周边餐厅/加油站/停车场等POI信息,并结构化呈现关键字段。










