Deep learning 2019年使用(DeepVoice | WaveNet |等)运行深度学习TTS

Deep learning 2019年使用(DeepVoice | WaveNet |等)运行深度学习TTS,deep-learning,text-to-speech,Deep Learning,Text To Speech,我试图将txt文件中的一系列句子转换成尽可能清晰的WAV文件 根据一项研究,使用深度学习技术有许多最新进展 这是个好消息,因为内置或常用的文本到语音引擎听起来非常机器人化。(OSX的“说”命令、espeak等) 问题是,github页面或collab notebook链接的重点是如何培训新模型,或设置docker实例,并且似乎没有包含最小值 git clone ... ./speak "How are you doing?" -o hayd.wav 你知道如何安装和运行那篇文章中的2019引擎

我试图将txt文件中的一系列句子转换成尽可能清晰的WAV文件

根据一项研究,使用深度学习技术有许多最新进展

这是个好消息,因为内置或常用的文本到语音引擎听起来非常机器人化。(OSX的“说”命令、espeak等)

问题是,github页面或collab notebook链接的重点是如何培训新模型,或设置docker实例,并且似乎没有包含最小值

git clone ...
./speak "How are you doing?" -o hayd.wav
你知道如何安装和运行那篇文章中的2019引擎吗


如果/当我找到一个有效的,我会更新。

我不知道列表中的其他任何一个,但是对于WaveNet,你可以使用谷歌的。你的代码将文本发送到谷歌,谷歌会返回音频。有C#、Go、Java、Node.js、PHP、Python和Ruby可用。如果你想用另一种语言,你可以使用。对于WaveNet,每月前100万个字符是免费的。之后,每100万个字符16美元。看看他们的

如果您的项目是一个相对较小的一次性项目,并且您不介意以编程方式进行(问题中不清楚),那么您可以使用他们的,并使用浏览器附加组件(例如,或其他许多附加组件之一)将结果下载为音频文件。或者,您可以在上使用API


在我看来,WaveNet的质量非常好,比前几代的文本到语音算法有了巨大的改进。你几乎可以相信这些声音有时是真实的。

我这样做了,这比在本地运行任何东西都要容易,而且开始时会有很多免费电话。:/。勉强接受这个答案(我希望在本地运行东西更容易!)试图自己理解这一点:P