Speech recognition 使用CMUSphinx为语音到文本系统构建语音词典

Speech recognition 使用CMUSphinx为语音到文本系统构建语音词典,speech-recognition,speech-to-text,cmusphinx,freetts,Speech Recognition,Speech To Text,Cmusphinx,Freetts,我正在尝试为一种特定领域的母语构建一个语音到文本的系统。尽管使用CMUSphinx的目的。对于一种不常见的语言,据我所知,首先您需要建立语音词典,其中包括可能的一组单词的英语音译: uniocode word -> english transliteration 例: 我的问题是,我们需要手动创建这个音译吗?偶然发现freetts[2],它似乎对英语很有效。我怎样才能对一门新的语言做到同样的效果 CMUSphinx教程介绍了构建词典的可能方法: 有各种工具可以帮助您扩展现有的新词词典或

我正在尝试为一种特定领域的母语构建一个语音到文本的系统。尽管使用CMUSphinx的目的。对于一种不常见的语言,据我所知,首先您需要建立语音词典,其中包括可能的一组单词的英语音译:

uniocode word -> english transliteration
例:


我的问题是,我们需要手动创建这个音译吗?偶然发现freetts[2],它似乎对英语很有效。我怎样才能对一门新的语言做到同样的效果

CMUSphinx教程介绍了构建词典的可能方法:

有各种工具可以帮助您扩展现有的新词词典或从头开始构建新词典。如果您的语言已经有一个字典,建议您使用它,因为它经过了仔细的调整以获得最佳性能。如果你开始学习一门新的语言,你需要考虑各种减少和协同发音的效果。它们使得创建将文本转换为声音的精确规则变得非常困难。然而,实践表明,即使是朴素的转换也能产生良好的语音识别效果。例如,许多开发人员通过简单的基于图形的合成成功地创建了ASR,其中每个字母只映射到自身,而不是对应的手机

对于大多数语言,您需要使用专门的字音素(g2p)代码,使用机器学习方法和现有的小型数据库进行转换。现在最精确的g2p工具是PhonetiSaurs和sequitur-g2p

还要注意,几乎每个TTS包都包含G2P代码。例如,您可以使用FreeTTS、OpenMary或espeak中的g2p代码


请注意,如果您使用TTS,通常需要进行电话集转换。TTS电话集通常比ASR所需的更广泛。然而,TTS工具有很大的优势,因为它们通常比简单的G2P包含更多必需的功能。例如,他们通过将数字和缩写转换为口语格式来进行标记化。

CMUSphinx教程中介绍了构建词典的可能方法:

有各种工具可以帮助您扩展现有的新词词典或从头开始构建新词典。如果您的语言已经有一个字典,建议您使用它,因为它经过了仔细的调整以获得最佳性能。如果你开始学习一门新的语言,你需要考虑各种减少和协同发音的效果。它们使得创建将文本转换为声音的精确规则变得非常困难。然而,实践表明,即使是朴素的转换也能产生良好的语音识别效果。例如,许多开发人员通过简单的基于图形的合成成功地创建了ASR,其中每个字母只映射到自身,而不是对应的手机

对于大多数语言,您需要使用专门的字音素(g2p)代码,使用机器学习方法和现有的小型数据库进行转换。现在最精确的g2p工具是PhonetiSaurs和sequitur-g2p

还要注意,几乎每个TTS包都包含G2P代码。例如,您可以使用FreeTTS、OpenMary或espeak中的g2p代码


请注意,如果您使用TTS,通常需要进行电话集转换。TTS电话集通常比ASR所需的更广泛。然而,TTS工具有很大的优势,因为它们通常比简单的G2P包含更多必需的功能。例如,他们正在通过将数字和缩写转换为口语格式来进行标记化。

仍然不太清楚我应该如何生成字典文件。我是否首先需要在g2p工具中使用unicode到英语的音译文件?谢谢,“unicode到英语”是毫无意义的。对于像phonetisaurus这样的G2P工具,您需要一个初始字典,列出一些单词的音素序列。您可以在文本编辑器中手动创建这样的词典。你可以手动列出100个单词,然后训练Phonetisaurus来扩展其余的单词。仍然不太清楚我应该如何生成字典文件。我是否首先需要在g2p工具中使用unicode到英语的音译文件?谢谢,“unicode到英语”是毫无意义的。对于像phonetisaurus这样的G2P工具,您需要一个初始字典,列出一些单词的音素序列。您可以在文本编辑器中手动创建这样的词典。您可以手动列出100个单词,然后训练音素龙扩展其余单词。
xxxx -> ah ty re see