1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

WBOY

发布时间：2024-08-15 18:48:04

734人浏览过

来源于机器之心

转载

本周学术界瞩目的焦点，无疑是在泰国曼谷举行的 acl 2024 顶会。这场盛会吸引了全球众多杰出的研究者，大家汇聚一堂，共同探讨和分享最新学术成果。

官方公布的数据显示，本届 ACL 共收到近 5000 篇论文投稿，其中 940 篇被主会录用，168 篇工作入选大会口头报告（Oral），录取率低于 3.4%，这当中，字节跳动共有 5 篇成果中选 Oral。

在 8 月 14 日下午的 Paper Awards 环节，字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and high-quality Instruction Data Selection for Machine Translation》被主办方官宣入选 Outstanding Paper（1/35）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

^{ACL 2024 现场照片}

立即进入“豆包AI人工智官网入口”；

立即学习“豆包AI人工智能在线问答入口”；

回溯 ACL 2021，字节跳动曾摘下唯一一篇最佳论文桂冠，是 ACL 成立 59 年以来，中国科学家团队第 2 次摘得最高奖项！

为深入探讨今年的前沿研究成果，我们特意邀请字节跳动论文的核心工作者解读分享。8 月 20 日下周二 19:00-21:00，「字节跳动 ACL 2024 前沿论文分享会」线上开播！

豆包大语言模型研究团队负责人王明轩，将携手字节跳动多位研究员黄志超、郑在翔、李朝伟、张欣勃、及 Outstanding Paper 神秘嘉宾，分享 ACL 部分精彩中选成果，研究方向涉及自然语言处理、语音处理、多模态学习、大模型推理等领域，欢迎预约！

活动议程

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

精选论文解读

RepCodec：一种用于语音离散化的语音表示编解码器
论文地址：https://arxiv.org/pdf/2309.00169

随着大型语言模型（LLMs）近期的快速发展，离散语音标记化在将语音注入 LLMs 中发挥重要作用。然而，这种离散化导致信息的丢失，从而损害整体性能。为提高这些离散语音标记的性能，我们提出了 RepCodec，这是一种用于语义语音离散化的新型语音表示编解码器。

^{Framework of RepCodec}

与重建原始音频的音频编解码器不同，RepCodec 通过从诸如 HuBERT 或 data2vec 等语音编码器重建语音表示来学习 VQ 码本。语音编码器、编解码器编码器和VQ码本共同形成了一个将语音波形转换为语义标记的流程。大量实验表明，RepCodec 凭借其增强的信息保留能力，在语音理解和生成方面显著优于广泛使用的 k-means 聚类方法。此外，这种优势在各种语音编码器和语言中都存在，肯定了 RepCodec 的鲁棒性。该方法可以促进语音处理方面的大型语言模型研究。

DINOISER：通过噪声操纵增强的扩散条件序列生成模型
论文地址：https://arxiv.org/pdf/2302.10025

虽然扩散模型在生成诸如图像和音频等连续信号方面取得了巨大成功，但在学习像自然语言这样的离散序列数据仍然存在困难。尽管最近一系列文本扩散模型通过将离散状态嵌入为连续状态隐空间来规避离散性这一挑战，但它们的生成质量仍然不尽人意。

为了理解这一点，我们首先深入分析基于扩散模型的序列生成模型的训练过程，并确定了它们的三个严重问题：（1）学习失败；（2）缺乏可扩展性；（3）忽略条件信号。我们认为这些问题可以归结为嵌入空间中离散性未完全消除的缺陷，其中噪声的规模起决定性作用。

在该工作中，我们提出了 DINOISER，通过操纵噪声来增强用以序列生成的扩散模型。我们在训练阶段以一种受最优传输启发的方式，自适应地确定采样噪声规模的范围，并在推理阶段鼓励该模型通过放大噪声规模来更好地利用条件信号。实验表明，基于所提出的有效的训练和推理策略，DINOISER 在多个条件序列建模基准上优于先前扩散序列生成模型的基线，进一步的分析也验证了 DINOISER 可以更好地利用条件信号来控制其生成过程。

FloatSearch

FloatSearch是一个专业的AI搜索引擎，提供多样化的见解

下载

通过减少冗余加快视觉条件语言生成的训练
论文地址：https://arxiv.org/pdf/2310.03291

我们推出了 EVLGen，这是一个为具有高计算需求的视觉条件语言生成模型的预训练而设计的简化框架，利用了冻结的预训练大型语言模型（LLMs）。

^{Overview of the EVLGen}

在视觉语言预训练（VLP）中的常规方法通常涉及一个两阶段的优化过程：一个初始的资源密集型阶段致力于通用的视觉语言表示学习，重点在于提取和整合相关的视觉特征。随后是一个后续阶段，强调视觉和语言模态之间的端到端对齐。我们新颖的单阶段、单损失框架通过在训练期间逐渐合并相似的视觉标记，绕过了计算要求很高的第一个训练阶段，同时避免了 BLIP-2 类型模型的单阶段训练所导致的模型崩溃。逐渐合并的过程有效地压缩了视觉信息，同时保留了语义丰富性，在不影响性能的情况下实现了快速收敛。

实验结果表明，我们的方法将视觉语言模型的训练速度提高了 5 倍，而对整体性能没有明显影响。此外，我们的模型仅使用 1/10 的数据就显著缩小与当前视觉语言模型的性能差距。最后，展示了我们的图像 - 文本模型如何通过新颖的软注意力时间，标记上下文模块无缝适应视频条件语言生成任务。

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

StreamVoice：用于实时零样本语音转换的可流式上下文感知语言建模

论文地址：https://arxiv.org/pdf/2401.11053

流式零样本语音转换（streaming zero-shot voice conversion）是指能够实时将输入语音转换成任意说话人的语音，且仅需要该说话人一句语音作为参考，且无需额外的模型更新。现有的零样本语音转换方法通常是为离线系统设计，难以满足实时语音转换应用对于流式能力的需求。近期基于语言模型（language model, LM）的方法在零样本语音生成（包括转换）上展现出卓越的性能，但是需要整句处理而局限于离线场景。

^{The overall architecture for StreamVoice}

在该工作中，我们提出 StreamVoice，一个新的基于流式 LM 的零样本语音转换模型，实现针对任意说话人和输入语音的实时转换。具体来说，为了实现流式能力，StreamVoice 使用上下文感知的完全因果 LM 以及时序无关的声学预测器，同时自回归过程中交替处理语义和声学特征消除了对完整源语音的依赖。

为了解决流式场景下不完整上下文所导致的性能下降，通过两种策略来增强 LM 对于未来和历史的上下文感知能力：1）教师引导的上下文预知（teacher-guided context foresight），通过教师模型来总结当下和未来准确的语义来指导模型对缺失上下文的预测；2）语义掩蔽策略，鼓励模型从先前损坏的语义输入实现声学预测，增强对于历史上下文的学习能力。实验表明，StreamVoice 具有流式转换能力，同时实现了接近非流式 VC 系统的零样本性能。

G-DIG：致力于基于梯度的机器翻译多样化和高质量指令数据选择
论文地址：https://arxiv.org/pdf/2405.12915

大型语言模型（LLMs）在一般场景中展现出了非凡的能力。指令微调使它们能够在各种任务中与人类保持一致。然而，指令数据的多样性和质量仍然是指令微调的两个主要挑战。对此，我们提出了一种新颖的基于梯度的方法，为机器翻译自动选择高质量和多样化的指令微调数据。我们的关键创新在于分析单个训练示例在训练过程中如何影响模型。

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

^{Overview of G-DIG}

具体来说，我们借助影响函数和一个小型高质量种子数据集，选择对模型产生有益影响的训练示例作为高质量示例。此外，为了增强训练数据的多样性，我们通过对它们的梯度进行聚类和重新采样，最大程度地增加它们对模型影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性，深入的分析进一步验证了其有效性和通用性。

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

GroundingGPT：语言增强的多模态 Grounding 模型
论文地址：https://arxiv.org/pdf/2401.06071

多模态大语言模型在不同模态的各种任务中都展示出了出色的性能。然而此前的模型主要强调捕获多模态输入的全局信息，因此这些模型缺乏有效理解输入数据中细节的能力，在需要对输入细致理解的任务中表现不佳，同时这些模型大多存在严重的幻觉问题，限制了其广泛使用。

为了解决这一问题，增强多模态大模型在更广泛任务中的通用性，我们提出了 GroundingGPT，一种能够实现对图片、视频、音频不同粒度理解的多模态模型。我们提出的模型除了捕获全局信息外，还擅长处理需要更精细理解的任务，例如模型能够精确定位图像中的特定区域或视频中的特定时刻。为了实现这一目标，我们设计了多样化的数据集构建流程，从而构造了一个多模态、多粒度的训练数据集。在多个公开 benchmark 上的实验证明了我们模型的通用性和有效性。

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

ReFT：基于强化微调的推理
论文地址：https://arxiv.org/pdf/2401.08967

一种常见的增强大型语言模型（LLMs）推理能力的方法是使用思维链（CoT）标注数据进行有监督微调（SFT）。然而，这种方法并没有表现出足够强的泛化能力，因为训练仅依赖于给定的 CoT 数据。具体地，在数学问题的相关数据集中，训练数据中每个问题通常只有一条标注的推理路径。对于算法来说，如果能针对一个问题学习到多种标注的推理路径，会有更强的泛化能力。

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！ Comparison between SFT and ReFT on the presence of CoT alternatives

为解决这个挑战，以数学问题为例，我们提出了一种简单而有效的方法，称为强化微调（Reinforced Fine-Tuning，ReFT），以增强 LLMs 推理时的泛化能力。ReFT 首先使用 SFT 对模型进行预热，然后采用在线强化学习（在该工作中具体是 PPO 算法）进行优化，即对给定的问题自动采样大量的推理路径，根据真实答案获取奖励，以进一步微调模型。

在 GSM8K、MathQA 和 SVAMP 数据集上的大量实验表明，ReFT 显著优于 SFT，并且通过结合多数投票和重新排序等策略，可以进一步提升模型性能。值得注意的是，这里 ReFT 仅依赖与 SFT 相同的训练问题，而不依赖于额外或增强的训练问题。这表明 ReFT 具有优越的泛化能力。

期待你的互动提问

直播时间：2024 年 8 月 20 日（周二） 19:00-21:00

直播平台：微信视频号【豆包大模型团队】、小红书号【豆包研究员】

欢迎你填写问卷告诉我们，关于 ACL 2024 论文你感兴趣的问题，在线和多位研究员畅聊！

豆包大模型团队持续热招中，欢迎点击此链接，了解团队招聘相关信息。

字节跳动的豆包AI，真的能挑战文心一言和Kimi吗？

Seed2.0— 字节跳动推出的系列通用模型

豆包 vs Coze（扣子）：字节跳动两大AI平台如何选择？

Seedream 5.0 Lite— 字节跳动推出的AI图像创作模型

字节跳动豆包大模型技术架构深度解析

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

504

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2932

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板