Audio 高质量、情感化、流畅且可变的文本到语音引擎？_Audio_Text To Speech_Voice_Speech Synthesis

Audio 高质量、情感化、流畅且可变的文本到语音引擎？

audio

Audio 高质量、情感化、流畅且可变的文本到语音引擎？,audio,text-to-speech,voice,speech-synthesis,Audio,Text To Speech,Voice,Speech Synthesis,在查看了一些服务/工具之后，我得出了一个结论。大多数文本到语音工具都有太过技术化、机器人化——换句话说，就是质量不好的c语音是的，最重要的是，他们似乎有一个“硬编码”的语音模板，因此缩短了品种/定制。有些工具允许您设置阅读速度和音高，但这还不够我对情绪方面背后的问题的猜测是——很难从纯文本中判断情绪，如果只是一两句话就更难了。另外，好的个人电脑是一台机器——机器没有情感，但这是另一回事最让我困扰的是质量。例如，有这些工具，用来切断单词的顶点，产生这些技术性的声音。感觉好像句子结构有问题。是

在查看了一些服务/工具之后，我得出了一个结论。大多数文本到语音工具都有太过技术化、机器人化——换句话说，就是质量不好的c语音

是的，最重要的是，他们似乎有一个“硬编码”的语音模板，因此缩短了品种/定制。有些工具允许您设置阅读速度和音高，但这还不够

我对情绪方面背后的问题的猜测是——很难从纯文本中判断情绪，如果只是一两句话就更难了。另外，好的个人电脑是一台机器——机器没有情感，但这是另一回事

最让我困扰的是质量。例如，有这些工具，用来切断单词的顶点，产生这些技术性的声音。感觉好像句子结构有问题。是的，当人们在使用这些工具的时候，我想知道，是什么阻止了他们进一步改进这些工具。。。切掉顶点，这不是一件小事！另外，必须记住，一个好的、高质量的文本到语音软件是值得的。。。很多因此产生了一个非常有利可图的产品

哦，在流利下，我隐藏了问题、感叹等。（可能这些不适用于流利性，但我不是英语母语，如果是这种情况，请原谅。）

我研究过的工具列表：非常令人印象深刻，但仍有改进的空间（++） -：缺乏声音变化，出现一些轻微的尖峰/流利性问题（取决于句子），咳嗽过多和例子中的借口
-：虽然仍然缺乏多样性，但提供的一些声音是值得的

也可以合作获得更多资源，然后开发不同但几乎相同的产品（--） -：最好的机器人之一，因此有了程序标志（？！
-：嗯，它有点流利，但还是有一种科技感。
-：将语音设置为日语和英语文本时，笑得很开心。我敢打赌日本男人对此不太满意。
- + ... 加上增强的声音会产生很好的效果，因此，除了5个以上的声音外，没有任何声音得到增强。
-：相当流利，但在句子结尾和太多机器人方面有问题
-：看起来像来自有很多语音工具的背景，但仍然会产生机器人语音。
-还有一些

如果我错过了值得一看的东西，请分享可以是免费的、商业的、超昂贵的。。。只要有效，我就感兴趣
问题是

你认为这些声音的质量、流畅性和多样性背后的主要问题是什么？由于情感方面很难判断，我不介意你跳过它，但如果你有一两个想法，我不介意你分享你的想法

比如，这些工具背后使用了哪些算法？也许一两个新的理论会派上用场

这些是不同的引擎/司机，还是同一个司机/司机的声音模式不同？

这只是我的问题，还是其中一个Text2Speech工具的质量多年来没有太大变化（或者根本没有变化？而且必须承认，这一老派的苹果工具比一些2000年以上的工具提供了更好的效果，至少在将视频与我看过的视频进行比较时是如此。）

我不知道你是否在寻找一个开放的解决方案，但是如果你有一个Mac，你应该检查一下“”短语构建工具。它真的很强大。Mac OS X 10.5及更高版本内置的Alex语音比其他语音更先进
在Mac电脑上，突出显示以下文本，控制单击，然后转到语音>开始讲话：

You talkin' to me [[inpt PHON]] [[slnc 500]] [[rate -30]] +yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

谷歌翻译公司使用的TTS非常适合于短短语，尽管对于任何复杂的句子都可能产生不自然的语调轮廓。不过，在词汇层面上，它令人印象深刻。有一个小房间

还有-他们可能会比谷歌翻译稍微多一些发音错误，但他们在节奏和语调上做得更好。看看他们的“Ravena”声音，这是他们迄今为止最好的声音之一。
我知道这是一个老问题，但我刚刚看到IBM的“”演示，非常令人印象深刻！！它们支持多种语言，可以控制语调、停顿、语调和其他一些变量
你应该去看看，如果你仍然在寻找这个，或者如果任何其他人正在寻找一个好的TTS

免责声明：我不为IBM或任何与此产品相关的公司工作，我只是觉得它令人印象深刻
在我看来，上面的第2和第3条提出了几个合理的问题。接下来的讨论似乎超出了问答论坛的范围。嗯，也许有人想在这篇文章中回答这些问题，但是的，我开始了一个新的话题。你说的“顶点”是什么意思？我读过一些关于语音合成和理解的书，但我不熟悉这个术语。我也用谷歌搜索了一下。也许插入一个定义？第二行/第三行是一些使声音感觉更真实的选项？是的，嗯，它为强调和其他内容添加了一些微调。听起来好多了。你也可以用@符号吸一口气。