0

0

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

雪夜

雪夜

发布时间:2025-12-12 16:42:08

|

822人浏览过

|

来源于php中文网

原创

12月10日,量子位meet2026智能未来大会在北京正式拉开帷幕。本届大会以“共生无界 智启未来”为核心主题,构建起一个横跨多领域、信息密度高、互动性强的思想交汇平台。近三十位来自科技界、产业界与学术界的权威代表齐聚现场,围绕人工智能+、ai基础设施(ai infra)、智能终端、智能驾驶、低空经济、能源电力等前沿方向展开深度探讨,分享具有前瞻性的行业洞见。

高通公司AI产品技术中国区负责人万卫星受邀出席,并带来题为《混合AI:从云端到边缘的智能演进》的主题演讲。他在演讲中指出,当前AI正经历由生成式AI向智能体AI的关键跃迁;与此同时,AI生态也正从单一模型架构加速转向多模型协同的复合体系——这正是迈向智能体AI时代的重要基石。他还强调,未来AI体验将全面走向“混合AI”范式。为支撑这一趋势,高通已通过模型量化压缩、并行解码优化、专用NPU设计及异构计算架构等核心技术突破,持续推动端侧AI向更主动、更高效、更个性化的服务形态升级,加快构建端云一体化协同体系,为用户打造真正可信赖的智能体验。

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

以下为演讲全文:大家上午好!我是高通技术公司万卫星。今天非常荣幸能在这里与各位分享高通在终端侧AI以及混合AI方向上的实践进展与战略思考。

首先,我们来梳理一下AI应用在终端领域的演进脉络。第一阶段,我们称之为“感知AI”。它涵盖语音降噪、图像识别与分割、传统自然语言处理等技术,这些能力早已在智能手机、耳机、摄像头等多种终端设备上实现规模化商用。

第二阶段,则是以ChatGPT为代表掀起的“生成式AI”浪潮。该阶段依赖海量数据预训练,并在人类指令或监督下完成特定任务,例如文生图、对话交互、机器翻译等,展现出强大的内容生成能力。

第三阶段,即正在加速到来的“智能体AI”。相较于生成式AI,智能体AI具备更强的自主性——它可在极少甚至无需人工干预的前提下,完成意图识别、动态规划、任务分解与执行闭环。尽管当前行业焦点仍集中于生成式AI,但整个技术演进路径已清晰指向智能体AI这一更高阶形态。

第四阶段,我们定义为“物理AI”。在此阶段,AI不仅理解语义与逻辑,更能感知并建模真实物理世界,依据物理规律进行推理与响应。目前,物理AI仍处于实验室探索与早期验证阶段。

再来看终端侧生成式AI的发展现状。随着模型规模持续扩大,如今旗舰手机已可部署参数量达百亿级的大模型;PC端则支持约200亿参数模型的本地运行;而在车载场景中,终端侧可承载的模型参数量更高达200亿至600亿之间。

模型规模增长的同时,性能也在同步跃升。今年年初起,具备思维链(CoT)与强推理能力的模型已实现全量端侧部署;上下文窗口长度亦显著扩展——从两年前仅支持1K–2K tokens,到去年提升至4K,再到今年主流终端已稳定支持8K–16K上下文长度;更值得关注的是,在今年9月举办的骁龙峰会上,我们已成功演示了在特定场景下端侧运行128K长文本大模型的能力。

从模态维度看,终端AI正快速由单文字模态,拓展至图文、音视频等多模态融合,并进一步迈向覆盖全感知通道的“全模态AI”。

Play.ht
Play.ht

根据文本生成多种逼真的语音

下载

接下来,我们谈谈终端侧运行AI的核心优势与现实挑战。其最大价值在于“个性化”与“隐私友好”:数据产生于终端、处理于终端,天然保障用户隐私安全;同时,端侧AI不依赖网络连接,且无需额外付费,具备极高的使用自由度。

但挑战同样突出。我重点提两点:一是内存瓶颈——终端有限的RAM容量直接制约可部署模型的参数规模与能力上限;二是带宽限制——受限于芯片内部总线与缓存带宽,推理速度易受制约,进而影响响应实时性。此外,在高度集成的移动终端上运行大语言模型,对能效比提出严苛要求——一旦功耗失控,极易触发温控降频,损害用户体验。

面对上述挑战,高通已系统布局多项关键技术:其一,持续深化模型量化与压缩技术,从早期8bit逐步推进至4bit,今年更实现了2bit极致压缩,大幅降低模型内存占用,释放更大部署空间;其二,创新引入并行解码机制,在带宽受限条件下显著提升token生成速率;其三,依托新一代eNPU架构与先进异构计算平台,推动端侧AI由被动响应转向主动服务,真正实现千人千面的智能交互。

下面,我想就并行解码技术作进一步说明。当前主流大模型多采用自回归架构,需将全部输入与权重一次性载入内存才能逐个生成token,效率偏低。尤其当模型规模不断攀升,单次token生成延迟愈发明显,严重影响交互流畅度。高通提出的并行解码方案,采用“小模型草稿+大模型校验”的双阶段策略:先由轻量级草稿模型在端侧一次性预测多个候选token,再交由原始大模型进行快速验证。由于草稿模型本身由大模型蒸馏训练而来,其输出在大模型验证时具备高接受率,从而在保障精度前提下,成倍提升端侧解码吞吐量。

我们正处于生成式AI向智能体AI跃迁的关键路口。从应用场景看,生成式AI擅长解决“单点任务”,如实时翻译、图像生成、内容摘要与续写等;而智能体AI则面向更复杂、更动态、更主动的服务场景,其实现依赖三大基础能力:一是具备强推理能力的大模型(可部署于端或云),用于精准理解用户意图;二是在意图解析后,调用本地知识图谱或个人数据资产,生成个性化任务流;三是通过调度本地或云端API,自动完成任务执行闭环。

举一个具体案例:用户可通过自然语言指令让智能体代发微博。当智能体识别出“我要发布一条微博”这一核心意图后,会自动启动微博App,检索相册中待发布的图片,并基于用户历史偏好智能匹配滤镜风格,最终一键完成发布。不仅如此,后续还可通过语音或文字持续追踪评论动态,例如识别出某条评论特别有趣后,自动触发点赞或回复动作。这一完整流程在今年9月的骁龙峰会上已全部实现在端侧运行,全程零云端依赖。

值得一提的是,高通的产品矩阵远不止于智能手机芯片。从AR智能眼镜、Windows PC、智能汽车座舱,到智能手表与各类IoT终端,所有搭载骁龙平台的设备均支持统一AI框架与智能互联能力。我们可以设想这样一种协同模式:算力受限的智能眼镜或手表,可通过Wi-Fi或蓝牙无缝连接手机、PC乃至车载系统,将大模型推理任务迁移至更高性能终端完成,从而在资源受限设备上依然享受分布式、个性化的AI服务。

最后,我们坚信,未来的AI体验必将走向“混合AI”新范式——即在终端侧部署轻量、高效、垂类优化的小模型,提供低延迟、高安全、强个性化的即时服务;在云端则运行超大规模通用模型,支撑更复杂、更深度、更泛化的AI能力。高通将持续发挥在连接技术领域的领先优势,以超低时延、高速率、高可靠、高安全的无线连接能力,夯实端云协同底座,全面赋能混合AI时代的智能演进。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

325

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

232

2023.10.07

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6096

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

806

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1249

2024.03.01

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

578

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1104

2023.07.27

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 4.2万人学习

Node.js 教程
Node.js 教程

共57课时 | 8.8万人学习

Rust 教程
Rust 教程

共28课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号