
twilio 的 websocket 媒体流仅用于单向音频传输,无法直接通过 voiceresponse().say() 返回语音;需调用 calls api 更新进行中的通话,注入新 twiml 才能实现通话中动态播报。
twilio 的 websocket 媒体流仅用于单向音频传输,无法直接通过 voiceresponse().say() 返回语音;需调用 calls api 更新进行中的通话,注入新 twiml 才能实现通话中动态播报。
在 Twilio 语音通话中,开发者常误以为 WebSocket 流(/MediaStream)可像传统 HTTP 请求一样返回 TwiML 响应(如 <Say>),但事实并非如此:WebSocket 流是只读的媒体通道,仅用于接收音频数据(如 ASR 识别),不支持响应式 TwiML 输出。您当前代码中在 rec.AcceptWaveform(audio) 分支调用 response.say('Sample response message') 并不会触发任何语音播报——因为该 VoiceResponse 对象未被序列化、未发送至 Twilio,更未关联到任何通话上下文。
✅ 正确做法是:使用 Twilio REST API 的 Calls/{CallSid} 端点,对进行中的通话发起 UPDATE 请求,传入包含 <Say> 的完整 TwiML。这会实时中断当前语音流程,插入新的语音合成内容。
✅ 实现步骤(Python 示例)
- 确保已获取 CallSid:它通常来自初始 Webhook 的 request.form['CallSid'](即用户呼入或你主动拨打时 Twilio 回传的唯一通话 ID);
-
安装并初始化 Twilio Python Helper Library:
pip install twilio
- 在 ASR 识别成功后,调用 client.calls(call_sid).update():
from twilio.rest import Client
import os
# 初始化客户端(推荐从环境变量读取凭证)
client = Client(
os.environ['TWILIO_ACCOUNT_SID'],
os.environ['TWILIO_AUTH_TOKEN']
)
def stream(ws):
rec = KaldiRecognizer(model, 16000)
# ⚠️ 注意:此处不再创建 VoiceResponse,而是准备 CallSid
call_sid = os.environ.get('CURRENT_CALL_SID') # 或从全局变量/上下文传入
while True:
message = ws.receive()
packet = json.loads(message)
if packet['event'] == 'start':
print('Streaming is starting')
# 可在此处记录 CallSid(若尚未获取)
# 例如:call_sid = packet['start']['callSid']
elif packet['event'] == 'media':
audio = base64.b64decode(packet['media']['payload'])
audio = audioop.ulaw2lin(audio, 2)
audio = audioop.ratecv(audio, 2, 1, 8000, 16000, None)[0]
if rec.AcceptWaveform(audio):
r = json.loads(rec.Result())
print(CL + r['text'] + '\n', end='', flush=True)
# ✅ 关键:动态更新通话,插入 Say 指令
if call_sid:
try:
client.calls(call_sid).update(
twiml='<Response><Say voice="Polly.Joanna">您好,已收到您的请求:' +
r['text'] + '</Say></Response>'
)
print(f"[INFO] Sent dynamic Say to call {call_sid}")
except Exception as e:
print(f"[ERROR] Failed to update call: {e}")
else:
print("[WARN] CallSid not available — cannot send dynamic response")⚠️ 重要注意事项
- CallSid 必须准确且有效:它必须对应一个 in-progress 状态的通话(不能是已结束或不存在的 SID)。建议在初始 /voice Webhook 中捕获并持久化存储;
- TwiML 内容需符合规范:<Say> 必须包裹在 <Response> 根节点内,且仅支持 Twilio 支持的语音属性(如 voice="Polly.Joanna");
- 并发安全:若 ASR 多次触发,频繁调用 update() 可能导致语音重叠或中断。建议添加防抖(debounce)逻辑或状态锁;
- 权限与配额:Calls.update() 属于 REST API 调用,受账户速率限制(默认 10k/24h),生产环境需监控;
- 无 WebSocket 替代方案:不要尝试在 WebSocket 连接中发送 TwiML 字符串——Twilio 不解析流中的任意文本,仅处理预定义的 media/start/stop 事件。
✅ 总结
实时语音流(WebSocket) ≠ 可交互 TwiML 通道。要实现在通话中“边听边说”,必须解耦:
? 听 → 通过 WebSocket 接收音频并做 ASR;
? 说 → 通过 REST API 向同一 CallSid 注入新 TwiML。
这是 Twilio 架构设计的明确约束,而非 SDK 缺陷。遵循此模式,即可稳定实现智能 IVR、语音助手等动态交互场景。










