使用aiogram和Whisper进行Telegram语音消息的内存转录教程

花韻仙語

发布时间：2025-11-27 09:32:13

143人浏览过

来源于php中文网

原创

使用aiogram和Whisper进行Telegram语音消息的内存转录教程

本教程详细介绍了如何在aiogram机器人中，无需将telegram语音消息保存到磁盘，直接利用io.bytesio对象将其高效转录为文本。我们将结合faster-whisper库，演示从获取语音文件到内存下载、模型初始化及最终转录的完整流程，并探讨内存对象的生命周期，确保数据处理的稳定性和效率。

在构建Telegram机器人时，处理用户发送的语音消息并将其转录为文本是一项常见的需求。传统方法可能涉及将语音文件临时保存到磁盘，处理后再删除，但这会引入不必要的磁盘I/O操作，增加系统开销，并可能带来文件清理的复杂性。本教程将介绍一种更高效、更优雅的方法：利用Python的io.BytesIO对象，将语音消息直接下载到内存中进行处理，然后使用faster-whisper库进行转录。

核心思路：内存中的语音处理

io.BytesIO是Python标准库io模块提供的一个类，它允许我们在内存中模拟一个二进制文件。这意味着我们可以像操作磁盘文件一样读写数据，但所有操作都发生在内存中，避免了磁盘读写带来的延迟和资源消耗。

当用户发送语音消息时，aiogram机器人可以获取到该消息的文件ID。通过Telegram Bot API，我们可以下载这个文件。关键在于，我们可以指定io.BytesIO对象作为下载的目标，从而将语音数据直接存储在内存中。

逐步实现语音消息的内存转录

以下是使用aiogram和faster-whisper实现语音消息内存转录的详细步骤和代码示例。

1. 准备工作：安装必要的库

首先，确保你的环境中安装了aiogram和faster-whisper。

GPT Detector

在线检查文本是否由GPT-3或ChatGPT生成

下载

pip install aiogram faster-whisper

2. 导入所需模块

在你的Python文件中，导入必要的模块：

from aiogram import Bot, Dispatcher, types
from aiogram.enums import ParseMode
from faster_whisper import WhisperModel
import io
import asyncio # 用于运行机器人

# 替换为你的Bot Token
BOT_TOKEN = "YOUR_BOT_TOKEN" 

# 初始化Bot和Dispatcher
bot = Bot(BOT_TOKEN, parse_mode=ParseMode.HTML)
dp = Dispatcher()

3. 处理语音消息的函数

创建一个异步函数来处理接收到的语音消息。这个函数将负责从Telegram下载语音数据到内存，并调用faster-whisper进行转录。

# 初始化Whisper模型，可以根据需要选择不同大小的模型
# "tiny"模型速度快但准确率相对较低，"base", "small", "medium", "large"准确率依次提高但速度变慢
# 首次运行时会自动下载模型
whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8") # device="cuda" 如果有GPU

@dp.message(types.Message.voice)
async def handle_voice_message(message: types.Message):
    """
    处理用户发送的语音消息，进行内存转录。
    """
    if not message.voice:
        await message.reply("未检测到语音消息。")
        return

    # 获取语音消息的文件ID
    file_id = message.voice.file_id

    # 获取文件对象信息
    file = await bot.get_file(file_id)
    file_path = file.file_path

    # 创建一个BytesIO对象，用于在内存中存储语音数据
    file_obj = io.BytesIO()

    try:
        # 将语音文件下载到BytesIO对象中
        await bot.download_file(file_path, destination=file_obj)

        # 重置BytesIO对象的读取位置到文件开头
        # 这是非常关键的一步，因为下载操作会将文件指针移动到末尾
        file_obj.seek(0)

        # 使用Whisper模型转录音频
        # audio参数直接接受BytesIO对象
        segments, _ = whisper_model.transcribe(
            audio=file_obj,
            language='zh', # 指定源语言，例如 'en' 代表英语，'zh' 代表中文
            beam_size=5 # 束搜索大小，影响转录质量和速度
        )

        # 合并转录结果的文本段
        transcription_parts = [segment.text for segment in segments]
        transcription = " ".join(transcription_parts)

        print(f"转录结果: {transcription}")
        await message.reply(f"语音转录结果:\n`{transcription}`")

    except Exception as e:
        print(f"转录过程中发生错误: {e}")
        await message.reply(f"语音转录失败: {e}")

4. 运行机器人

async def main() -> None:
    # 启动机器人
    await dp.start_polling(bot)

if __name__ == "__main__":
    asyncio.run(main())

代码解释与注意事项

io.BytesIO(): 这是实现内存处理的核心。它创建了一个内存中的二进制缓冲区。
bot.download_file(file_path, destination=file_obj): aiogram的download_file方法允许你指定一个destination。当destination是一个BytesIO对象时，文件内容会被直接写入到这个内存缓冲区。
file_obj.seek(0): 这是非常重要的一步！ 当download_file完成写入后，file_obj的内部指针会停留在数据的末尾。如果直接将此时的file_obj传递给whisper_model.transcribe，模型将无法读取到任何数据。seek(0)的作用是将文件指针重置到缓冲区的起始位置，确保whisper_model可以从头开始读取语音数据。
WhisperModel("tiny", device="cpu", compute_type="int8"):
- "tiny": 指定使用的Whisper模型大小。faster-whisper支持多种模型，如tiny, base, small, medium, large。模型越大，准确率越高，但推理时间越长，内存占用越大。
- device="cpu": 指定推理设备。如果你有NVIDIA GPU并安装了CUDA，可以设置为"cuda"以获得更快的推理速度。
- compute_type="int8": 指定计算类型。int8通常比float16或float32更快且内存效率更高，但可能会略微牺牲准确性。
language='zh': 明确指定语音的源语言可以提高转录的准确性。如果语音是混合语言或未知语言，可以省略此参数，让Whisper自动检测，但这可能会增加推理时间。
io.BytesIO的内存持久性: 用户担心BytesIO对象是否会“永久”留在内存中或被删除。答案是：只要你的代码中存在对file_obj的引用，它就会保留在内存中。一旦handle_voice_message函数执行完毕，并且没有其他地方引用file_obj，Python的垃圾回收机制会在适当的时候自动回收这部分内存。因此，对于单个请求的语音消息处理，无需担心内存泄露问题。

总结

通过aiogram结合io.BytesIO和faster-whisper，我们可以构建一个高效、无磁盘I/O的Telegram语音消息转录机器人。这种方法不仅简化了文件管理，还提升了处理速度，为用户提供了更流畅的体验。在实际部署时，请根据服务器资源和性能需求选择合适的Whisper模型大小和计算设备。

Python 文件缓冲区是如何工作的？

Python I/O 阻塞如何影响性能？

Python 如何设计“可恢复”的异常？

Python C 扩展如何提升性能？

Python 异常驱动流程是否合理？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

730

2023.08.11