C# 文本到语音音节音频段连接规则_C#_Text To Speech

C# 文本到语音音节音频段连接规则

C# 文本到语音音节音频段连接规则,c#,text-to-speech,C#,Text To Speech,我正在寻找一些关于在不使用任何现有TTS工具、库等的情况下从零开始创建文本到语音程序的研究，主要是关于创建和组合音频片段的规则我想把它用在一些罕见的古代语言上，语言本身的情况非常简单。首先，它不是一个大范围的语言基础，大约1000个单词，其次它是在书写时发音的，所以发音绝对等于单词中的每个字母，例如单词： parjashif 这意味着“父亲”和“父亲之子”的音节是： par ja shif 其他单词的所有变体（具有相同部分）为： par ja 1.shif 2.kif 3.h

我正在寻找一些关于在不使用任何现有TTS工具、库等的情况下从零开始创建文本到语音程序的研究，主要是关于创建和组合音频片段的规则

我想把它用在一些罕见的古代语言上，语言本身的情况非常简单。首先，它不是一个大范围的语言基础，大约1000个单词，其次它是在书写时发音的，所以发音绝对等于单词中的每个字母，例如单词：

parjashif

这意味着“父亲”和“父亲之子”的音节是：

par  
ja
shif

其他单词的所有变体（具有相同部分）为：

par
ja

1.shif
2.kif
3.hof
4.hefi

如你所见，只有4种变体

因此，唯一必须考虑的是，现有音节之间的连接间隔，使发音听起来不离散。

这是正确实现文本到语音软件的诀窍。发音取决于上下文，如果你不关心上下文，声音就会离散和不自然。适当的系统在上下文中记录所有音节，当选择它们进行连接时，它会非常注意元素之间的平滑过渡

您可以选择将原始数据库拆分为双元音，并尝试连接双元音而不是音节。它将更加平滑

总的来说，即使你从零开始，最好先阅读理论。至少有点像保罗·泰勒的“语音合成”教科书。

您好，当然，这个理论正是我想要的，它似乎足以让我开始，所以谢谢您的回答