MockingBird语音克隆,文本转克隆语音
介绍
MockingBird是一款来自自然语言处理技术的文本转语音合成软件,它完全免费开源,在几秒钟内就可以克隆别人或者自己的声音,并通过文字生成你需要的语音音频文件。这篇文章将介绍如何安装和使用。
环境准备
- 安装Python3.9.8
- 安装PyTorch
- 安装ffmpeg
- 安装MokingBird
python安装
PYthon官网:https://www.python.org/
官方的最低标准是3.8版本,但是安装新版本可能会出现不兼容的情况,这里我建议安装3.9.8版本即可,下载流程如下图所示 。
接着按Ctrl+f开启网页查询功能,输入3.9.8,即可快速度找到对应版本的安装程序。我的系统windows64位的,然后我就演示这个流程,如果你是其他系统的用户就自行对应下载即可。
下载完成后,勾选Add 按照下图演示安装。
安装PyTorch
pytorch官网:https://pytorch.org/get-started/locally/
打开官网页面后往下拉,会看到如下图片的配置单。蓝色虚线框内的选项保持默认,如果你是英伟达独立显卡选CUDA 11.8
,如果没有英伟达显卡或者其他显卡请选择CPU
,全部选择完毕后,复制下列命令符
。
返回桌面,在搜索栏搜索CMD
,然后选择以管理员身份运行
打开命令终端,右键或CTRL+V粘贴复制的命令,然后按回车键完成自动安装。
安装ffmpeg
ffmpeg官网:http://ffmpeg.org
打开官网,点击Download,然后鼠标停留在windows图标处后,选择Windoes builds from dyan.dev
页面往下拉,可以看到在Releasebuilds 栏目中,有最新的版本下载。点击第一个下载下来。
下载完毕后会获取一个压缩包,把压缩包解压到自定义路径即可,例如我解压到了D盘,如下图所示。
环境变量
接着需要打开bin目录,并复制bin目录的路径,把音频解码添加到环境变量。如下图所示。
- 右键我的电脑,选择属性。
- 选择高级系统设置
- 选择环境变量
- 双击path
- 新建
- 粘贴路径
- 确定..确定完成
安装成功检查
检查是否安装成功,搜索CMD,打开命令终端,输入ffmpeg,显示如下内容,代表我们安装成功了。
如果出错的话,就需要检查在环境变量时,路径是否复制错了。
安装MockingBird
MockingBird项目链接:https://github.com/babysor/MockingBird
打开Github项目后,点击Cold,然后下载ZIP压缩包。
下载完成后,把压缩包解压到任意目录(我解压到D盘),并且打开文件MockingBird-main文件,进入根目录,打开requirements.txt文件
把文本内容monotonic-align==0.0.3
修改成monotonic-align==1.0.0
并保存
持续安装剩余的配置,在D:\MockingBird-main下地址栏输入CMD,输入以下三行命令(运行完毕后依次输入)
提示:需要 Microsoft Visual C++ 14.0 或更高版本,如果没有安装会提示安装失败,安装网址:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
python -m pip install --upgrade pip
pip install -r requirements.txt
pip install webrtcvad-wheels
接下来我们需要下载模型,进行文字生成语音的模型。
腾讯微云:https://share.weiyun.com/cSGu9Qei
可以随便下载一个,每个模型的声音都是不同,当然也可以自己训练模型。后面会详细说明
模型文件以.PT后缀格式,需要把模型文件放到对应的位置D:\MockingBird-main\data\ckpt\synthesizer
启动Wbe程序
python web.py