
本文详解为何无法在 websocket 流处理中直接调用 response.say(),以及如何通过 twilio rest api 动态更新进行中的通话 twiml,实现实时语音响应。
本文详解为何无法在 websocket 流处理中直接调用 response.say(),以及如何通过 twilio rest api 动态更新进行中的通话 twiml,实现实时语音响应。
在使用 Twilio 的 <StartStream> 和 WebSocket 实时语音流(如 Kaldi 语音识别)场景中,一个常见误区是:试图在 stream(ws) 循环内(例如 rec.AcceptWaveform(audio) 触发后)直接构造并“发送” VoiceResponse().say(...) —— 这不会产生任何语音输出,因为该 VoiceResponse 对象仅是本地 Python 对象,未被提交给 Twilio 呼叫控制平面。
❌ 错误认知:流中“返回”TwiML 即可发声
你的代码中:
response = VoiceResponse()
# ... 在 AcceptWaveform 内:
response.say('Sample response message') # ← 仅创建 XML 字符串,未发送!这段代码只是生成了 <Response><Say>...</Say></Response> 的 XML 字符串,但 Twilio 完全不知情——WebSocket 流仅用于媒体传输(音频上行/下行),不承载控制指令。TwiML 必须通过 Twilio 的呼叫生命周期接口下发。
✅ 正确方案:调用 REST API 动态更新通话
要让被叫方实时听到语音,需使用 Twilio REST API 的 Calls Resource Update 接口,向进行中的 Call SID 提交新的 TwiML。这会立即中断当前播放/静音,并执行新 TwiML 中的 <Say>、<Play> 等动词。
步骤与示例(Python)
- 获取 Call SID:在初始语音应答(/answer 路由)中,通过 request.form['CallSid'] 获取,并安全存储(如全局变量、缓存或数据库);
- 在流处理中触发更新:当识别到关键词或满足条件时,调用 client.calls(call_sid).update();
- 注意鉴权与依赖:安装 twilio SDK 并配置 Account SID / Auth Token。
from twilio.rest import Client
import os
# 初始化客户端(建议提取为全局单例)
client = Client(
os.environ['TWILIO_ACCOUNT_SID'],
os.environ['TWILIO_AUTH_TOKEN']
)
def stream(ws):
rec = KaldiRecognizer(model, 16000)
# 假设 call_sid 已通过上下文传入或从外部获取(关键!)
call_sid = get_current_call_sid() # ← 你需实现此函数,例如从 Flask session 或 Redis 读取
while True:
message = ws.receive()
packet = json.loads(message)
if packet['event'] == 'start':
print('Streaming is starting')
elif packet['event'] == 'stop':
print('\nStreaming has stopped')
elif packet['event'] == 'media':
audio = base64.b64decode(packet['media']['payload'])
audio = audioop.ulaw2lin(audio, 2)
audio = audioop.ratecv(audio, 2, 1, 8000, 16000, None)[0]
if rec.AcceptWaveform(audio):
r = json.loads(rec.Result())
print(CL + r['text'] + '\n', end='', flush=True)
# ✅ 正确做法:动态更新通话 TwiML
try:
client.calls(call_sid).update(
twiml='<Response><Say voice="Polly.Amy">Sample response message</Say></Response>'
)
print("✓ TwiML update sent successfully")
except Exception as e:
print(f"✗ Failed to update call: {e}")
else:
r = json.loads(rec.PartialResult())
print(CL + r['partial'] + BS * len(r['partial']), end='', flush=True)⚠️ 关键注意事项
- Call SID 必须准确且实时有效:它必须是当前正在流媒体的通话 ID,过期或错误的 SID 将导致 404 错误;
- TwiML 更新有频率限制:Twilio 对单通电话的 update 调用有速率限制(通常 ≤ 1 次/秒),避免高频触发(如每字都 Say);
- 语音中断行为:新 TwiML 会立即中断当前播放(包括背景音乐、等待音),确保体验连贯;
- 语音合成选项:推荐显式指定 voice 属性(如 Polly.Amy、Polly.Joanna)以获得更自然发音,避免默认 TTS 音色差异;
- 错误处理不可省略:网络波动或认证失败会导致更新静默失败,务必捕获异常并记录日志。
总结
Response.say() 是 TwiML 构建工具,其作用域仅限于初始应答或 REST API 主动更新,绝非 WebSocket 流的通信通道。实时交互式语音反馈的正确路径是:识别 → 决策 → 调用 REST API 更新通话 TwiML。掌握这一模式,你就能构建出支持动态播报、多轮对话、智能应答的工业级语音应用。










