Speech recognition 使用Amazon Polly文本到语音模拟音频文件中真实语音波形的语调_Speech Recognition_Text To Speech_Speech To Text_Amazon Polly

Speech recognition 使用Amazon Polly文本到语音模拟音频文件中真实语音波形的语调

speech-recognition

Speech recognition 使用Amazon Polly文本到语音模拟音频文件中真实语音波形的语调,speech-recognition,text-to-speech,speech-to-text,amazon-polly,Speech Recognition,Text To Speech,Speech To Text,Amazon Polly,我想使用Amazon Polly生成非常逼真的语音-比允许Amazon Polly从正常文本输入生成语音音频输出的结果更逼真。为了做到这一点，我想告诉Polly尽最大努力精确匹配由语音演员配音/录制的真实语音文件输入的给定样本。换句话说，我想将语音演员产生的语音转换成某种代码的序列，例如音素、计时代码等，适合作为polly api的输入，然后polly api可以生成音频文件输出，该输出应尽可能接近原始录制的输入一些AWS api是否将语音音频文件作为输入，并将其转换为一系列代码（如音素和计时

我想使用Amazon Polly生成非常逼真的语音-比允许Amazon Polly从正常文本输入生成语音音频输出的结果更逼真。为了做到这一点，我想告诉Polly尽最大努力精确匹配由语音演员配音/录制的真实语音文件输入的给定样本。换句话说，我想将语音演员产生的语音转换成某种代码的序列，例如音素、计时代码等，适合作为polly api的输入，然后polly api可以生成音频文件输出，该输出应尽可能接近原始录制的输入

一些AWS api是否将语音音频文件作为输入，并将其转换为一系列代码（如音素和计时信息），然后将其输入polly api以生成相应的语音？如果没有，是否有其他适用于第一步的api

为什么?？使用Polly以“正常方式”（通过将文本输入Polly api）创建语音，虽然它可能是目前可用的最好的文本到语音引擎，但往往产生的语音不够自然。“正常方式”产生的Polly API语音没有正确的时间/韵律。我们试图手动将语音逐字转换为音素，并手动添加计时信息，然后将其作为输入输入输入到Polly API中，但这既非常费力，也不会产生非常令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分，我们需要提高质量。我们不能像在其他情况下那样使用声音演员录制的音频，因为这样一来，它将与Polly API生成的演讲的其余部分不匹配

顺便说一句，在你否决这篇文章之前，因为它没有包含一点代码片段。。。考虑到这仍然是一个编码问题，而不是“帮助我编辑我的代码片段来做X”的形式——尽管代码片段答案将是一个很好的形式来回答这个问题，如果存在这样的答案！这实际上是一个非常重要和普遍的编码问题，可能会影响任何需要通过代码创建真实语音的编码器

谢谢

一些AWS api是否将语音音频文件作为输入，并将其转换为一系列代码（如音素和计时信息），然后将其输入polly api以生成相应的语音

你真的认为亚马逊创造了一些秘密的API，对用户隐藏了它，但是一些勇敢的黑客会在这里向你透露未记录的API访问代码吗

如果没有，是否有其他适用于第一步的api

这存在于开源中，当然与AWS无关

我不认为这是一个“坏”问题，因为这是一个真正的问题。。。但是为仪式性的投票和过于宽泛的问题结束做准备。。。它可能更适合像@BooberBunz这样的网站。当提到其他网站时，指出这一点通常是有帮助的