谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型

PHPz

发布时间：2023-06-30 13:49:22

1235人浏览过

来源于51CTO.COM

转载

大型语言模型以其强大的性能及通用性，带动了一批多模态的大模型开发，如音频、视频等。

语言模型的底层架构大多是基于Transformer，且以解码器为主，所以无需过多调整模型架构即可适应其他序列模态。

最近，谷歌发布了一个统一的语音-文本模型AudioPaLM，将文本和音频的token合并为一个多模态联合词汇表，再结合不同任务描述标记，可以实现在任意语音和文本的混合任务上训练decoder-only模型，包括语音识别（ASR）、文本到语音合成、自动语音翻译（AST）和语音到语音翻译（S2ST）等，将传统上由异质模型解决的任务统一到一个架构和训练流程中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型

图片

论文链接：https://arxiv.org/pdf/2306.12925.pdf

示例链接：https://google-research.github.io/seanet/audiopalm/examples/

此外，由于AudioPaLM的底层架构是一个大型的Transformer模型，可以用对文本进行预训练的大型语言模型的权重来初始化，可以从PaLM等模型的语言学知识中受益。

从实现效果来看，AudioPaLM在AST和S2ST基准上取得了最先进的结果，并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示，AudioPaLM模型能够对新的说话人语音迁移来执行S2ST，在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力，可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模，其中文本和音频在输入到模型之间已经进行分词，所以输入只是一个整数序列，在输出端再进行反分词（detokenized）操作返回给用户。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中，包括从现有的语音表征模型中抽取为嵌入（embedding），并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入，并通过k-means将其量化，而这篇论文中，研究人员试验了三种方案：

w2v-BERT：使用在多语言数据上训练的w2v-BERT模型，而非纯英语；并且在进行k-means聚类之前没有进行归一化处理，否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token，词表大小为1024

USM-v1：使用性能更强的、20亿参数的通用语音模型（USM）编码器执行类似的操作，并从中间层提取嵌入；

USM-v2：用辅助ASR损失来训练，并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中，除了输入和最后的softmax输出层外，都不涉及到建模token的数量，并且在PaLM架构中，输入和输出矩阵的权重变量时共享的，即互为转置。

所以只需要将嵌入矩阵的大小从（t × m）扩展到（t+a）×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型，其中t是文本词表的大小，a是音频词表的大小，m是嵌入维度。

为了利用预训练的文本模型，研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为，前t个token对应于SentencePiece文本标记，后面a个token代表音频标记，虽然文本嵌入式复用的预训练权重，但音频嵌入是全新初始化的，必须进行训练。

实验结果显示，与从头重新训练相比，基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形，研究人员试验了两种不同的方法：

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token，再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练，语音条件为3秒长的语音样本，同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件，模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音，当原始音频短于3秒时，通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据：

1. 音频Audio：源语言的语音（speech）

2. 转录Transcript：音频数据中语音的转录

3. 翻译音频Translated Audio：音频中语音的口语翻译

4. 翻译转录Translated Transcript：音频中语音的书面翻译

组件任务包括：

1. ASR（自动语音识别）：转录音频以获得转录文本

2. AST（自动语音翻译）：翻译音频以获得翻译后的转录文本

3. S2ST（语音到语音翻译）：翻译音频以获得翻译后的音频

4. TTS（文本到语音）：读出转录的内容，以获得音频。

5. MT（文本到文本的机器翻译）：翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务，所以研究人员选择向模型发出信号，告诉模型应该对给定的输入执行哪项任务，具体方法为：在输入前加上一个标签，指定任务和输入语言的英文名称，输出语言也可以选择。

例如，想要模型对法语语料进行ASR时，分词后的音频输入前面要加上标签[ASR French]；要在英语中执行TTS任务，文本前面需要加上[TTS English]；要执行从英语到法语的S2ST任务，分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合，对较大的数据集进行权重降低。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

实验部分

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型，在ASR上性能虽然不是最优，但效果也非常好。

除了评估语音内容的翻译质量外，研究人员还评估了AudioPaLM生成的语言是否质量足够高，并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器，给定一个音频样本，在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量，研究人员使用的现成的说话人验证模型，并计算源（用SoundStream编码/解码）和翻译语音的嵌入之间的余弦相似度；还衡量了从源音频到目标音频的声学特性（录音条件、背景噪音）。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度，两项研究中都使用相同的样本集合。

由于语料的质量参差不齐，有些含有响亮的重叠语音（例如，背景中播放的电视节目或歌曲）或极强的噪音（例如，衣服与麦克风摩擦），类似的失真效果使得人类评分员的工作变得复杂，因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供，从1（质量差或完全不同的声音）到5（质量好，相同的声音）。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中，在音频质量和语音相似度方面都明显优于基线Translatotron 2系统，并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度，在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组（法语、德语、西班牙语和加泰罗尼亚语与其他语言）的系统，发现这些组之间的指标没有明显差异。

WorkBuddy如何通过语音指令控制电脑端的WorkBuddy_WorkBuddy语音交互教程【指南】

workbuddy部署常见坑点_workbuddy坑点避免指南【指南】

WorkBuddy如何进行多维度成本核算_WorkBuddy财务数据建模与分析指南【专业】

Perplexity移动端APP使用_Perplexity安卓与iOS版同步教程【入门】

QClaw2.0版本新增了什么功能_QClaw新版本特性与升级体验【介绍】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6658

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

845

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2213

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4439

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2931

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

108

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

324

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板