notebooklm可将结构化文本一键转为播客音频:先上传文本/url/pdf至知识库,再用audio overview自动生成5–10分钟mp3,支持语种、语调、时长调节;离线版open notebooklm还允许替换bark等tts引擎提升自然度。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您已有一篇结构清晰的文本内容,希望将其快速转化为可收听的音频节目,则NotebookLM提供了端到端的自动化流程。以下是完成此任务的具体操作路径:
一、上传并导入文本源
NotebookLM需先将原始内容载入其知识库,才能启动后续理解与生成流程。系统支持多种输入形式,包括直接粘贴长文本、导入网页URL或上传PDF文件。文本长度建议控制在2000–4000字之间,结构越分明(如含标题、小节、列表),语音逻辑连贯性越强。
1、打开NotebookLM官网,登录账户后点击“New notebook”。
2、在空白笔记本界面中,点击“+ Add source”按钮。
3、选择“Paste text”选项,将准备好的文章全文粘贴至文本框;或选择“Web page”输入有效URL;或点击“Upload file”上传PDF文档。
4、确认内容无误后点击“Add”,系统开始解析并索引文本,进度条完成后即进入可用状态。
二、启动Audio Overview生成
Audio Overview是NotebookLM内置的播客级音频生成模块,它基于上下文自动构建开场白、主题提炼、要点展开与自然收束,无需手动编写脚本或提示词。该功能调用Fireworks AI托管的Llama 3.3 70B模型进行语义重构,并通过MeloTTS完成语音合成。
1、在笔记本右侧边栏找到“Audio Overview”卡片。
2、点击“Generate audio”按钮,界面显示“Processing…”状态。
3、等待约90秒,音频波形图与播放控件自动出现,时长通常为5–10分钟。
4、点击播放按钮试听,确认语音节奏、术语读音及段落停顿是否符合预期。
三、调整输出参数并导出
生成后的音频默认为MP3格式,支持下载与嵌入。部分版本允许在生成前微调关键参数,以适配不同使用场景。这些设置直接影响语音风格、信息密度与听众接受度。
1、在“Audio Overview”区域点击右上角“Settings”图标。
2、在弹出面板中选择语言:支持中文、英文、日文等13种语种,中文用户请务必确认已选“Chinese (Simplified)”。
3、设定语调风格:“Formal”适用于技术文档与学术内容,“Fun”适用于科普与生活类题材。
4、调节时长偏好:勾选“Short version”可生成1–2分钟精要版,适合快速预览;默认为3–5分钟标准版。
5、点击“Regenerate”重新生成,或点击下载图标保存MP3文件至本地。
四、使用本地部署版Open NotebookLM
当在线服务受限或需处理敏感文档时,可采用开源项目Open NotebookLM实现离线播客生成。该方案依赖本地运行的Gradio Web界面,全程数据不出设备,且支持自定义模型与TTS引擎。
1、在终端执行:git clone https://gitcode.com/gh_mirrors/op/open-notebooklm.git。
2、创建并激活Python虚拟环境:python -m venv .venv && source .venv/bin/activate。
3、安装依赖:pip install -r requirements.txt。
4、配置API密钥:export FIREWORKS_API_KEY=your_api_key_here。
5、启动服务:python app.py,浏览器自动打开http://127.0.0.1:7860。
五、替换TTS引擎提升语音自然度
默认MeloTTS在中文语境下表现稳定,但对情感起伏与多角色区分能力有限。若需更高拟真度,可切换至Bark或Parler-TTS模型,二者均支持语调标记、停顿控制与情绪参数注入。
1、进入Open NotebookLM项目根目录下的config.py文件。
2、定位TTS_ENGINE变量,将其值由"melo"改为"bark"或"parler"。
3、确保对应模型权重已下载至models/子目录,例如Bark需包含bark_small.pt。
4、重启应用:python app.py,新TTS将在下次生成时生效。










