C# 文本到语音音节音频段连接规则

C# 文本到语音音节音频段连接规则,c#,text-to-speech,C#,Text To Speech,我正在寻找一些关于在不使用任何现有TTS工具、库等的情况下从零开始创建文本到语音程序的研究,主要是关于创建和组合音频片段的规则 我想把它用在一些罕见的古代语言上,语言本身的情况非常简单。首先,它不是一个大范围的语言基础,大约1000个单词,其次它是在书写时发音的,所以发音绝对等于单词中的每个字母,例如单词: parjashif 这意味着“父亲”和“父亲之子”的音节是: par ja shif 其他单词的所有变体(具有相同部分)为: par ja 1.shif 2.kif 3.h

我正在寻找一些关于在不使用任何现有TTS工具、库等的情况下从零开始创建文本到语音程序的研究,主要是关于创建和组合音频片段的规则

我想把它用在一些罕见的古代语言上,语言本身的情况非常简单。首先,它不是一个大范围的语言基础,大约1000个单词,其次它是在书写时发音的,所以发音绝对等于单词中的每个字母,例如单词:

parjashif 
这意味着“父亲”和“父亲之子”的音节是:

par  
ja
shif   
其他单词的所有变体(具有相同部分)为:

par
ja

1.shif
2.kif
3.hof
4.hefi
如你所见,只有4种变体


因此,唯一必须考虑的是,现有音节之间的连接间隔,使发音听起来不离散。

这是正确实现文本到语音软件的诀窍。发音取决于上下文,如果你不关心上下文,声音就会离散和不自然。适当的系统在上下文中记录所有音节,当选择它们进行连接时,它会非常注意元素之间的平滑过渡

您可以选择将原始数据库拆分为双元音,并尝试连接双元音而不是音节。它将更加平滑


总的来说,即使你从零开始,最好先阅读理论。至少有点像保罗·泰勒的“语音合成”教科书。

您好,当然,这个理论正是我想要的,它似乎足以让我开始,所以谢谢您的回答