Audio 高质量、情感化、流畅且可变的文本到语音引擎?

Audio 高质量、情感化、流畅且可变的文本到语音引擎?,audio,text-to-speech,voice,speech-synthesis,Audio,Text To Speech,Voice,Speech Synthesis,在查看了一些服务/工具之后,我得出了一个结论。大多数文本到语音工具都有太过技术化、机器人化——换句话说,就是质量不好的c语音 是的,最重要的是,他们似乎有一个“硬编码”的语音模板,因此缩短了品种/定制。有些工具允许您设置阅读速度和音高,但这还不够 我对情绪方面背后的问题的猜测是——很难从纯文本中判断情绪,如果只是一两句话就更难了。另外,好的个人电脑是一台机器——机器没有情感,但这是另一回事 最让我困扰的是质量。例如,有这些工具,用来切断单词的顶点,产生这些技术性的声音。感觉好像句子结构有问题。是

在查看了一些服务/工具之后,我得出了一个结论。大多数文本到语音工具都有太过技术化、机器人化——换句话说,就是质量不好的c语音

是的,最重要的是,他们似乎有一个“硬编码”的语音模板,因此缩短了品种/定制。有些工具允许您设置阅读速度和音高,但这还不够

我对情绪方面背后的问题的猜测是——很难从纯文本中判断情绪,如果只是一两句话就更难了。另外,好的个人电脑是一台机器——机器没有情感,但这是另一回事

最让我困扰的是质量。例如,有这些工具,用来切断单词的顶点,产生这些技术性的声音。感觉好像句子结构有问题。是的,当人们在使用这些工具的时候,我想知道,是什么阻止了他们进一步改进这些工具。。。切掉顶点,这不是一件小事!另外,必须记住,一个好的、高质量的文本到语音软件是值得的。。。很多因此产生了一个非常有利可图的产品

哦,在流利下,我隐藏了问题、感叹等。(可能这些不适用于流利性,但我不是英语母语,如果是这种情况,请原谅。)

我研究过的工具列表: 非常令人印象深刻,但仍有改进的空间(++) -:缺乏声音变化,出现一些轻微的尖峰/流利性问题(取决于句子),咳嗽过多和例子中的借口
-:虽然仍然缺乏多样性,但提供的一些声音是值得的


也可以合作获得更多资源,然后开发不同但几乎相同的产品(--) -:最好的机器人之一,因此有了程序标志(?!
-:嗯,它有点流利,但还是有一种科技感。
-:将语音设置为日语和英语文本时,笑得很开心。我敢打赌日本男人对此不太满意。
- + ... 加上增强的声音会产生很好的效果,因此,除了5个以上的声音外,没有任何声音得到增强。
-:相当流利,但在句子结尾和太多机器人方面有问题
-:看起来像来自有很多语音工具的背景,但仍然会产生机器人语音。
-还有一些


如果我错过了值得一看的东西,请分享可以是免费的、商业的、超昂贵的。。。只要有效,我就感兴趣

问题是

  • 你认为这些声音的质量、流畅性和多样性背后的主要问题是什么?由于情感方面很难判断,我不介意你跳过它,但如果你有一两个想法,我不介意你分享你的想法
  • 比如,这些工具背后使用了哪些算法?也许一两个新的理论会派上用场
  • 这些是不同的引擎/司机,还是同一个司机/司机的声音模式不同?
  • 这只是我的问题,还是其中一个Text2Speech工具的质量多年来没有太大变化(或者根本没有变化?而且必须承认,这一老派的苹果工具比一些2000年以上的工具提供了更好的效果,至少在将视频与我看过的视频进行比较时是如此。)

  • 我不知道你是否在寻找一个开放的解决方案,但是如果你有一个Mac,你应该检查一下“”短语构建工具。它真的很强大。Mac OS X 10.5及更高版本内置的Alex语音比其他语音更先进

    在Mac电脑上,突出显示以下文本,控制单击,然后转到语音>开始讲话:

    You talkin' to me
    [[inpt PHON]] [[slnc 500]] [[rate -30]]
    +yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?
    

    谷歌翻译公司使用的TTS非常适合于短短语,尽管对于任何复杂的句子都可能产生不自然的语调轮廓。不过,在词汇层面上,它令人印象深刻。 有一个小房间


    还有-他们可能会比谷歌翻译稍微多一些发音错误,但他们在节奏和语调上做得更好。看看他们的“Ravena”声音,这是他们迄今为止最好的声音之一。

    我知道这是一个老问题,但我刚刚看到IBM的“”演示,非常令人印象深刻!!它们支持多种语言,可以控制语调、停顿、语调和其他一些变量

    你应该去看看,如果你仍然在寻找这个,或者如果任何其他人正在寻找一个好的TTS


    免责声明:我不为IBM或任何与此产品相关的公司工作,我只是觉得它令人印象深刻

    在我看来,上面的第2和第3条提出了几个合理的问题。接下来的讨论似乎超出了问答论坛的范围。嗯,也许有人想在这篇文章中回答这些问题,但是的,我开始了一个新的话题。你说的“顶点”是什么意思?我读过一些关于语音合成和理解的书,但我不熟悉这个术语。我也用谷歌搜索了一下。也许插入一个定义?第二行/第三行是一些使声音感觉更真实的选项?是的,嗯,它为强调和其他内容添加了一些微调。听起来好多了。你也可以用@符号吸一口气。