play 命令本身不支持 tts,仅能播放已有音频文件;实现文字转语音需先用 espeak-ng 等 tts 引擎生成音频流,再通过 pipe 传给 play 播放,参数必须严格匹配格式。

play 命令本身不支持 TTS,它只是音频播放器
很多人搜 play + “TTS”,是误以为这个命令能直接把文字转成语音再播。实际上 play(来自 SoX 工具集)只负责播放已存在的音频文件,它没有文本解析、语音合成能力。
真正要实现“输入文字→播放语音”,得靠 TTS 引擎生成音频流,再喂给 play。常见组合是:espeak-ng、pico2wave 或 say(macOS)生成 wav/mp3,然后用 play 播放。
-
play无法识别play "hello"这类写法——它会报错play: invalid option -- 'h' - 不能跳过 TTS 合成阶段,指望
play自己“读出来”是行不通的 - 如果系统没装 SoX,
play命令根本不存在,别被网上过时教程误导
Linux 下用 espeak-ng + play 快速实现 TTS 播报
espeak-ng 是轻量、离线、支持中文的 TTS 引擎,输出为 PCM 流,刚好能被 play 直接消费。
实操步骤:
- 安装依赖:
sudo apt install espeak-ng sox(Ubuntu/Debian)或sudo pacman -S espeak-ng sox(Arch) - 测试播报:
espeak-ng -v zh -s 150 "你好,世界" --stdout | play -q -r 22050 -b 16 -c 1 -e signed-integer -t raw - -
-v zh指定中文发音,-s 150控制语速;--stdout让 espeak-ng 不写文件,直接吐 PCM 流 -
play后面那一串参数必须匹配 espeak-ng 输出格式:采样率-r 22050、位深-b 16、单声道-c 1,否则会爆破音或静音
macOS 上用 say 命令更简单,但和 play 无关
macOS 自带 say,功能完整、发音自然,且无需额外安装。但它和 play 是两套东西:say 自己完成合成+播放,play 在 macOS 默认不预装(需 brew install sox)。
直接用 say 更省事:
- 基础播报:
say "今天天气不错" - 换声音:
say -v Ting-Ting "你好"(查可用音色用say -v ?) - 导出音频文件:
say -o output.aiff "你好",之后再用afplay output.aiff(系统自带)或play output.aiff(SoX)播放 - 别硬套 Linux 写法,比如
say "hi" | play会失败——say默认不输出音频流,-o -才能 stdout,但 SoX 对 aiff/raw 格式兼容性不如 wav
中文发音不准?重点检查语言模型和语音引擎选择
不是所有 TTS 引擎都对中文友好。espeak-ng 中文发音偏机械,pico2wave(已停止维护)曾有较好表现但难安装;festival 配置复杂,容易卡在声学模型路径上。
实用建议:
- 确认
espeak-ng -v ?输出里包含zh或zh-yue,有些精简版系统没打包中文语音包 - 避免用
espeak(旧版),它不支持-v zh,强行用会默认英文发音 - 如果需要更自然效果,别死磕命令行:考虑调用
edge-tts(Python 包,走微软 Edge 在线接口),生成 mp3 后再play output.mp3——但这就脱离了“纯本地、免依赖”的初衷
真正麻烦的从来不是 play 怎么敲,而是 TTS 引擎能不能吐出听得懂的中文,以及参数之间是否对得上。音频格式、采样率、字节序这些细节,漏一个就只有噪音。










