Minimax平台提供四种声音克隆方法:一、标准音频上传法,需15–300秒清晰录音;二、8秒快速克隆法,适配极短样本;三、多情绪样本增强法,提升语音表现力;四、移动端实时克隆法,支持本地建模与隐私保护。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在Minimax平台上创建属于自己的数字声音分身,但对操作流程不熟悉,则可能是由于未掌握正确的克隆路径与参数设置。以下是完成声音克隆的多种可行方法:
一、标准音频上传克隆法
该方法适用于具备15–300秒清晰人声录音的用户,通过官网标准流程完成高保真度克隆,系统基于Speech-02-hd模型提取声纹特征并生成数字音色。
1、使用Chrome浏览器,通过特殊网络环境访问Minimax海外官网https://www.php.cn/link/080b2f9dad64f7c8737a6b14cd90a6b7。
2、注册账号并登录,确保邮箱为Gmail或Outlook等国际邮箱,注册后自动获得10000声贝及3次免费克隆机会。
3、点击左侧菜单栏Voices,再点击右侧Create your Voice Clone按钮。
4、上传本地音频文件,时长建议30秒左右,格式支持MP3/WAV,采样率≥16kHz,位深≥16bit。
5、勾选Remove Background Noise选项以启用自动降噪。
6、为音色命名(推荐“姓名_日期”格式),选择语言如Chinese (Mandarin),点击Convert启动训练。
7、等待几十秒,克隆完成后可在My Voices中查看并点击Use进入TTS界面。
二、极短样本8秒快速克隆法
该方法专为时间受限或仅持有极短语音片段的用户设计,依托Minimax自研的轻量化声纹建模技术,在8秒音频输入下仍可达成85%以上声纹相似度。
1、录制一段8–10秒的纯净人声,内容应包含元音拖长(如“啊——”)、辅音起始(如“吧、哒、啦”)及自然语调起伏。
2、保持录音环境绝对安静,麦克风距离口部15–30cm,避免喷麦与衣物摩擦声。
3、上传该音频至“Create your Voice Clone”页面,务必勾选Remove Background Noise。
4、语言选项中选择与录音一致的语种,命名后点击Convert。
5、训练完成后,在“My Voices”列表中确认音色状态为Ready,即可立即用于文本转语音。
三、多情绪样本增强克隆法
该方法通过注入情绪多样性提升克隆音色的表现力,使生成语音在语气转折、情感张力等方面更接近真人表达,尤其适用于播客、配音等专业场景。
1、准备三段独立音频,每段8–12秒,分别对应平静陈述、兴奋提问、低沉叹息三种情绪状态。
2、将三段音频合并为单个文件(总时长控制在30秒内),使用Audacity等工具确保无静音间隙与电平突变。
3、上传合并后的文件,在克隆参数页取消勾选“Remove Background Noise”,改用手动降噪预处理(若原始录音已足够干净)。
4、命名时添加情绪标识,例如LiHua_EmotionBlend_202603。
5、点击Convert,系统将自动识别并建模多情绪韵律特征。
6、克隆成功后,在Text to Speech界面右侧情绪滑块中可调用中性、兴奋、悲伤、惊讶等预设模式。
四、移动端实时克隆法
该方法利用MiniMax轻量化SDK,在兼容机型上实现本地化语音采集与边缘端声纹建模,全程无需上传原始音频,兼顾隐私性与响应速度。
1、确认设备为iPhone 12及以上或搭载骁龙8 Gen2以上芯片的安卓旗舰机。
2、在App Store或Google Play搜索并安装官方MiniMax Audio应用(非第三方镜像)。
3、打开应用,完成账号绑定,进入Voice Clone模块。
4、点击Record Now,按提示朗读屏幕显示的5句引导语(含疑问、感叹、陈述句式),总时长约12秒。
5、录制完毕后系统自动执行本地声纹分析,耗时约8秒,不上传任何原始音频至服务器。
6、生成音色即时显示于My Voices列表,标注为Edge-Cloned类型。










