Java Sound API不支持自动混音,必须手动对齐多路PCM流(同采样率/位深/声道/编码),逐样本相加并归一化防削波,否则会失真;SequenceInputStream仅串行播放,多SourceDataLine并发写入会失败。

Java Sound API 本身不提供直接的“混音”(mixing)高层接口,Mixer 仅支持硬件混音器或线性音频输出路由,无法自动将多个 AudioInputStream 数值相加。真正在 Java 中实现多路音频流叠加(如背景音乐 + 语音解说),必须手动读取、对齐、采样点相加、再归一化,否则会严重削波失真。
为什么 AudioInputStream 直接拼接不是混音
把两个 AudioInputStream 用 SequenceInputStream 串起来,只是顺序播放,不是同时播放;而试图用多个 SourceDataLine 并发写入同一设备,在绝大多数系统上会失败(LineUnavailableException),因为默认音频设备只允许单个写入者。
-
SequenceInputStream是串行合并,不是并行混音 -
SourceDataLine不支持多线程并发写入同一实例 - 系统级混音器(如 Windows WASAPI 的“立体声混音”)不可编程控制,且依赖驱动和权限
手动逐样本叠加:核心步骤与注意事项
混音本质是将多个 PCM 音频流在相同时间点的采样值相加。关键前提是所有流必须:采样率一致、位深一致、声道数一致、编码格式一致(如 PCM_SIGNED)。否则需先重采样或格式转换(推荐用 AudioSystem.getAudioInputStream(targetFormat, stream))。
- 用
AudioSystem.getAudioFileFormat()校验输入文件是否兼容 - 统一转为
AudioFormat:例如new AudioFormat(44100, 16, 2, true, false) - 每次从各流读取
byte[],按AudioFormat解析为有符号 short 值(16-bit)或 float(32-bit) - 对每个采样点执行:sum = clip(sum₁ + sum₂ + …),避免整型溢出(16-bit 相加极易超 ±32767)
- 最终输出前做幅度归一化(可选):乘以
0.7f防削波,或动态缩放
简单双轨混音示例(16-bit stereo PCM)
以下代码假设两个输入流已对齐(同格式、同长度,不足处补零):
立即学习“Java免费学习笔记(深入)”;
AudioFormat format = new AudioFormat(44100, 16, 2, true, false);
AudioInputStream stream1 = AudioSystem.getAudioInputStream(file1);
AudioInputStream stream2 = AudioSystem.getAudioInputStream(file2);
// 转为目标格式
stream1 = AudioSystem.getAudioInputStream(format, stream1);
stream2 = AudioSystem.getAudioInputStream(format, stream2);
int frameSize = format.getFrameSize(); // 通常为 4 字节(2ch × 2bytes)
byte[] buf1 = new byte[8192];
byte[] buf2 = new byte[8192];
ByteArrayOutputStream mixed = new ByteArrayOutputStream();
int read1, read2;
while ((read1 = stream1.read(buf1)) != -1 && (read2 = stream2.read(buf2)) != -1) {
int len = Math.min(read1, read2);
for (int i = 0; i < len; i += 2) {
// 提取左右声道两个 short(小端)
short s1 = (short) ((buf1[i] & 0xFF) | (buf1[i+1] << 8));
short s2 = (short) ((buf2[i] & 0xFF) | (buf2[i+1] << 8));
// 简单叠加 + 防溢出裁剪
int sum = s1 + s2;
sum = Math.max(-32768, Math.min(32767, sum));
// 写回字节数组
buf1[i] = (byte) (sum & 0xFF);
buf1[i+1] = (byte) ((sum >> 8) & 0xFF);
}
mixed.write(buf1, 0, len);
}
AudioInputStream mixedStream = new AudioInputStream(
new ByteArrayInputStream(mixed.toByteArray()), format, mixed.size() / frameSize);
容易被忽略的细节
实际项目中,以下三点常导致静音、爆音或左右声道错位:
-
AudioFormat的isBigEndian必须匹配原始数据——Java 默认小端,但某些 WAV 文件可能为大端 - 未处理流长度不等:短流读完后需持续填零,否则叠加时数组越界或静音截断
- 未考虑声道布局:立体声是 LRLR,不是 LLRR;双声道叠加必须 L+L、R+R 分别计算,不能交叉
如果需要实时混音或支持更多轨道,建议改用 JAudioLibs 的 TarsosDSP 或引入 javax.sound.sampled 的扩展库,原生 API 的混音能力确实非常基础。










