Speech recognition 使用Amazon Polly文本到语音模拟音频文件中真实语音波形的语调

Speech recognition 使用Amazon Polly文本到语音模拟音频文件中真实语音波形的语调,speech-recognition,text-to-speech,speech-to-text,amazon-polly,Speech Recognition,Text To Speech,Speech To Text,Amazon Polly,我想使用Amazon Polly生成非常逼真的语音-比允许Amazon Polly从正常文本输入生成语音音频输出的结果更逼真。为了做到这一点,我想告诉Polly尽最大努力精确匹配由语音演员配音/录制的真实语音文件输入的给定样本。换句话说,我想将语音演员产生的语音转换成某种代码的序列,例如音素、计时代码等,适合作为polly api的输入,然后polly api可以生成音频文件输出,该输出应尽可能接近原始录制的输入 一些AWS api是否将语音音频文件作为输入,并将其转换为一系列代码(如音素和计时

我想使用Amazon Polly生成非常逼真的语音-比允许Amazon Polly从正常文本输入生成语音音频输出的结果更逼真。为了做到这一点,我想告诉Polly尽最大努力精确匹配由语音演员配音/录制的真实语音文件输入的给定样本。换句话说,我想将语音演员产生的语音转换成某种代码的序列,例如音素、计时代码等,适合作为polly api的输入,然后polly api可以生成音频文件输出,该输出应尽可能接近原始录制的输入

一些AWS api是否将语音音频文件作为输入,并将其转换为一系列代码(如音素和计时信息),然后将其输入polly api以生成相应的语音?如果没有,是否有其他适用于第一步的api

为什么?? 使用Polly以“正常方式”(通过将文本输入Polly api)创建语音,虽然它可能是目前可用的最好的文本到语音引擎,但往往产生的语音不够自然。“正常方式”产生的Polly API语音没有正确的时间/韵律。我们试图手动将语音逐字转换为音素,并手动添加计时信息,然后将其作为输入输入输入到Polly API中,但这既非常费力,也不会产生非常令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分,我们需要提高质量。我们不能像在其他情况下那样使用声音演员录制的音频,因为这样一来,它将与Polly API生成的演讲的其余部分不匹配

顺便说一句,在你否决这篇文章之前,因为它没有包含一点代码片段。。。考虑到这仍然是一个编码问题,而不是“帮助我编辑我的代码片段来做X”的形式——尽管代码片段答案将是一个很好的形式来回答这个问题,如果存在这样的答案!这实际上是一个非常重要和普遍的编码问题,可能会影响任何需要通过代码创建真实语音的编码器

谢谢

一些AWS api是否将语音音频文件作为输入,并将其转换为一系列代码(如音素和计时信息),然后将其输入polly api以生成相应的语音

你真的认为亚马逊创造了一些秘密的API,对用户隐藏了它,但是一些勇敢的黑客会在这里向你透露未记录的API访问代码吗

如果没有,是否有其他适用于第一步的api

这存在于开源中,当然与AWS无关


我不认为这是一个“坏”问题,因为这是一个真正的问题。。。但是为仪式性的投票和过于宽泛的问题结束做准备。。。它可能更适合像@BooberBunz这样的网站。当提到其他网站时,指出这一点通常是有帮助的