0

0

Rokid算法负责人王文兵:AR下的“声”临“奇”境

PHPz

PHPz

发布时间:2023-04-12 19:46:08

|

1799人浏览过

|

来源于51CTO.COM

转载

声音在我们的日常生活中无处不在,是不可或缺的一部分,在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感,需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上,Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷,诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下: 

什么是6dof空间声场?

谈及这个问题时,可以先抛开技术的限制,想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道,家庭影院已经用上了multi-channel,电影院等专业场景还有空间布局上的喇叭。 

在AR上它究竟应该如何去呈现呢?我们可以试想一个画面,比如现在很流行的在线会议或在线教育,如果在元宇宙世界里看到右边的数字人一直在说话,但这个声音从你的左边出来,这个时候是不是感觉很奇怪? 

另外我们可以想象一下AR游戏,在以前这种2D的视觉里,声音跟着视觉的焦点去移动就可以,但是在3D场景的360度的范围下,人的双眼是无法抓住整个视觉焦点的,而声音是具备全局焦点的。这也是为什么在很多游戏里,人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性:需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。 

接下来从三个维度介绍一下声音形态的发展之路。 

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Rokid算法负责人王文兵:AR下的“声”临“奇”境

第一,空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/...这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等,喇叭越来越多,摆放位置也从平面上升到空间了;

第二,编码方式维度。从最开始的channel-based(也就是基于通道的编码,每个通道上会有各种各样的声音,比如我们平时常见的左右声道的表达方式),到object-based(也就是针对发生的对象进行编码),包括大家在电影院观看到的Dolby Atmos片源,比如当某个炮弹打下来的时候,那个炮弹的对象是专门编码的,metadata中记录了其运动的轨迹,然后根据对应的喇叭位置进行播放的;但我们最终的目标还是希望达到完全基于场景下的效果,类似于HOA这样的全景声方式,不只是炮弹,一花一草一树叶的掉落我们都希望它是具备空间感。  

第三,XR体验维度。以前虚拟的声音和真实世界是割裂的,如今在XR里,尤其是AR方面,我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分,是因为双耳模式,专业上来说是ITD和ILD,也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。 

那么如何让3D声音普及?如何突破场地局限性?如何降低用户消费成本?如何能够让每个人都享受科技?Rokid 自研的6dof空间声场将助力解决这些难题。 

6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表达六自由度,由陀螺仪提供绕XYZ三个方向的旋转,由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

Rokid算法负责人王文兵:AR下的“声”临“奇”境 

6dof空间声场的主要技术 

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数,其是在模拟一个消音室的环境下,全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力,可以虚实融合,完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时,进行声音品质的丰富。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

架构图最上面的SDK,对外提供了空间模块,即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模,有助于数字世界和物理世界的融合。

Cardify卡片工坊
Cardify卡片工坊

使用Markdown一键生成精美的小红书知识卡片

下载

此外,我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异,首先是构建网络,然后生成理论下的无损的网络,之后在这个理论的基础上做各种衰减、损耗的相关设置,包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效,我们只是结合着产品的使用场景,比如影院或者音乐,提供音效以让用户达到良好的视听体验,这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果,当从0度到90度旋转时,每个频率的变化是不平滑的,而且最开始下降的很厉害,后面的变化非常小。右边的Rokid所做的6dof空间声场,不同的频率段跟着你的方位变换的时候有明显的变化,图中为不同角度、不同频率段、不同幅值的表现。

  Rokid算法负责人王文兵:AR下的“声”临“奇”境   

6dof空间声场的发展趋势   

随着元宇宙时代的来临,AR、VR技术的兴起,空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面: 

一是沉浸感,人们可以根据真实的世界进行反馈,更好地进行虚实融合与交互,真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我,不受真实世界中任何物体的影响,因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互,比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互,去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。 

二是精细化,在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传,因为头传本身的生成手段就比较费时费力,需要对整个球面空间上不同距离下的每个点进行播放,然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度,以及如何通过插值或其他技术手段实现更高的精确度;同时,从更长远的角度来看,精细化的一个极限是私定制的实现。 

三是私密性与音效,体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如,严重的混响是会影响人类的听感,而适宜的混响是会带来音质上的丰富听感;尤其是早期的混响,很多时候会被用于音色的判断,低于3K的混响和横向反射会有助于形成更好的空间感和深度感,而高频的分量会帮助我们实现环绕感。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

探索空间声场的初衷

Rokid为何会做空间声场?主要有三个方面的原因:

一,沉浸感。我们一直在追求数字世界与物理世界的融合,比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。 

二,虚实交互。我们认为未来在这世界会是一种虚实的融合,在融合的基础上可以去做很多交互,包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面,这种感知之后则形成对虚拟声音的影响;主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三,极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的,但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求?这涉及到算法、工程、系统、硬件以及应用等整体的优化。 

这些是我们一直所追求的使命,Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众;与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放,从而通过广大开发者们的使用,间接的惠及到用户,赋能到各行各业。

现大会演讲回放及PPT已上线,进入官网查看精彩内容(https://www.php.cn/link/53253027fef2ab5162a602f2acfed431

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

89

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

173

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
光速学会docker容器
光速学会docker容器

共33课时 | 2.1万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号