Speech recognition 使用CMUSphinx为语音到文本系统构建语音词典_Speech Recognition_Speech To Text_Cmusphinx_Freetts

Speech recognition 使用CMUSphinx为语音到文本系统构建语音词典

speech-recognition

Speech recognition 使用CMUSphinx为语音到文本系统构建语音词典,speech-recognition,speech-to-text,cmusphinx,freetts,Speech Recognition,Speech To Text,Cmusphinx,Freetts,我正在尝试为一种特定领域的母语构建一个语音到文本的系统。尽管使用CMUSphinx的目的。对于一种不常见的语言，据我所知，首先您需要建立语音词典，其中包括可能的一组单词的英语音译： uniocode word -> english transliteration 例：我的问题是，我们需要手动创建这个音译吗？偶然发现freetts[2]，它似乎对英语很有效。我怎样才能对一门新的语言做到同样的效果 CMUSphinx教程介绍了构建词典的可能方法：有各种工具可以帮助您扩展现有的新词词典或

我正在尝试为一种特定领域的母语构建一个语音到文本的系统。尽管使用CMUSphinx的目的。对于一种不常见的语言，据我所知，首先您需要建立语音词典，其中包括可能的一组单词的英语音译：

uniocode word -> english transliteration

例：

我的问题是，我们需要手动创建这个音译吗？偶然发现freetts[2]，它似乎对英语很有效。我怎样才能对一门新的语言做到同样的效果

CMUSphinx教程介绍了构建词典的可能方法：

有各种工具可以帮助您扩展现有的新词词典或从头开始构建新词典。如果您的语言已经有一个字典，建议您使用它，因为它经过了仔细的调整以获得最佳性能。如果你开始学习一门新的语言，你需要考虑各种减少和协同发音的效果。它们使得创建将文本转换为声音的精确规则变得非常困难。然而，实践表明，即使是朴素的转换也能产生良好的语音识别效果。例如，许多开发人员通过简单的基于图形的合成成功地创建了ASR，其中每个字母只映射到自身，而不是对应的手机

对于大多数语言，您需要使用专门的字音素（g2p）代码，使用机器学习方法和现有的小型数据库进行转换。现在最精确的g2p工具是PhonetiSaurs和sequitur-g2p

还要注意，几乎每个TTS包都包含G2P代码。例如，您可以使用FreeTTS、OpenMary或espeak中的g2p代码

请注意，如果您使用TTS，通常需要进行电话集转换。TTS电话集通常比ASR所需的更广泛。然而，TTS工具有很大的优势，因为它们通常比简单的G2P包含更多必需的功能。例如，他们通过将数字和缩写转换为口语格式来进行标记化。

CMUSphinx教程中介绍了构建词典的可能方法：

对于大多数语言，您需要使用专门的字音素（g2p）代码，使用机器学习方法和现有的小型数据库进行转换。现在最精确的g2p工具是PhonetiSaurs和sequitur-g2p

还要注意，几乎每个TTS包都包含G2P代码。例如，您可以使用FreeTTS、OpenMary或espeak中的g2p代码

请注意，如果您使用TTS，通常需要进行电话集转换。TTS电话集通常比ASR所需的更广泛。然而，TTS工具有很大的优势，因为它们通常比简单的G2P包含更多必需的功能。例如，他们正在通过将数字和缩写转换为口语格式来进行标记化。

仍然不太清楚我应该如何生成字典文件。我是否首先需要在g2p工具中使用unicode到英语的音译文件？谢谢，“unicode到英语”是毫无意义的。对于像phonetisaurus这样的G2P工具，您需要一个初始字典，列出一些单词的音素序列。您可以在文本编辑器中手动创建这样的词典。你可以手动列出100个单词，然后训练Phonetisaurus来扩展其余的单词。仍然不太清楚我应该如何生成字典文件。我是否首先需要在g2p工具中使用unicode到英语的音译文件？谢谢，“unicode到英语”是毫无意义的。对于像phonetisaurus这样的G2P工具，您需要一个初始字典，列出一些单词的音素序列。您可以在文本编辑器中手动创建这样的词典。您可以手动列出100个单词，然后训练音素龙扩展其余单词。

xxxx -> ah ty re see