最直接的windows原生tts方案是system.speech.synthesis.speechsynthesizer,需安装system.speech nuget包,仅限windows;跨平台或需neural语音时应选microsoft.cognitiveservices.speech sdk。

用 SpeechSynthesizer 是最直接的 Windows 原生方案
Windows 自带的 System.Speech 命名空间提供了轻量、无需联网、低延迟的 TTS 实现,适合桌面应用。它依赖系统已安装的语音引擎(如 Microsoft David/Zira),不需额外 SDK 或 API Key。
注意:.NET Core 3.0+ 和 .NET 5+ 默认不包含该类库,必须显式安装 System.Speech NuGet 包(仅支持 Windows 平台)。
- 添加引用:
using System.Speech.Synthesis; - 基础用法:
var synth = new SpeechSynthesizer(); synth.Speak("你好,这是本地语音合成"); - 可选语音:
synth.SelectVoice("Microsoft Zira Desktop"),用synth.GetInstalledVoices()查看可用列表 - 避免阻塞 UI:调用
SpeakAsync()而非Speak(),尤其在 WinForms/WPF 中
跨平台需求下优先考虑 Microsoft.CognitiveServices.Speech SDK
如果目标是 macOS/Linux、UWP、或需要更自然语音(如 Neural TTS)、多语言/情感控制、语音事件回调等能力,Microsoft.CognitiveServices.Speech 是唯一推荐的现代选择。
它基于 Azure 语音服务,需申请订阅密钥和区域(如 eastus),但免费层每月有 0.5 百万字符额度,够小项目起步。
- 安装 NuGet:
Microsoft.CognitiveServices.Speech - 关键初始化:
var config = SpeechConfig.FromSubscription("your-key", "eastus"); config.SpeechSynthesisVoiceName = "en-US-JennyNeural"; // 必须显式指定 Neural 语音 - 合成到文件:
config.SetOutputFormat(SpeechSynthesisOutputFormat.Audio16Khz32KBitRateMonoMp3) - 注意:
SpeechSynthesizer(SDK 中)和System.Speech.Synthesis.SpeechSynthesizer(原生)同名但完全无关,别混淆命名空间
常见报错:找不到语音、静音、或“Access is denied”
这些基本都指向权限或配置问题,不是代码逻辑错误。
-
Access is denied:Windows 下SpeechSynthesizer需要 COM 权限,WPF/WinForms 应用若以“管理员身份运行”可能反而失败——改用普通权限启动 - 静音/无声:检查系统声音设置是否关闭、默认播放设备是否被禁用;
SpeechSynthesizer不会自动弹出音量控制,它直通系统音频栈 - “Voice not found”:调用
SelectVoice()前务必先用GetInstalledVoices()确认名称拼写,Zira 和 David 在 Win10/Win11 中默认存在,但中文语音(如Microsoft Huihui Desktop)需手动启用“语言包” - .NET 6+ 控制台项目默认为单线程单元(STA),而
SpeechSynthesizer要求多线程单元(MTA)——加[STAThread]属性或改用 WPF/WinForms 宿主
生成语音文件时别忽略音频格式与编码兼容性
本地 SpeechSynthesizer 只支持 WAV 输出(SetOutputToWaveFile()),且固定为 PCM 16bit 小端,采样率 22050Hz;Azure SDK 则支持 MP3/WAV/OGG,但不同格式对 SpeechSynthesisOutputFormat 枚举值敏感。
- WAV 文件体积大(约 1.7MB/分钟),MP3 更实用;但
Audio16Khz32KBitRateMonoMp3在某些旧版 Windows 上可能无法播放(缺少解码器) - Azure SDK 中,
Audio24Khz160KBitRateMonoMp3是目前音质与兼容性较平衡的选择 - 若需后台持续合成,用
SynthesizeToStreamAsync()获取MemoryStream,避免磁盘 I/O 成为瓶颈
Speak("test") 再扩展功能,比堆参数更有效。








