Speech recognition 斯芬克斯-4定位仪跳过像“你”、“in”和带破折号的简单单词-为什么？_Speech Recognition_Sphinx4

Speech recognition 斯芬克斯-4定位仪跳过像“你”、“in”和带破折号的简单单词-为什么？

speech-recognition

Speech recognition 斯芬克斯-4定位仪跳过像“你”、“in”和带破折号的简单单词-为什么？,speech-recognition,sphinx4,Speech Recognition,Sphinx4,我正在尝试对齐简单的文本。以下是指向文本和音频文件的链接：以下是配置设置： private static final String ACOUSTIC_MODEL_PATH = "resource:/edu/cmu/sphinx/models/en-us/en-us"; private static final String DICTIONARY_PATH = "resource:/edu/cmu/sphinx/models/en-us/cmudict-en-

我正在尝试对齐简单的文本。以下是指向文本和音频文件的链接：

以下是配置设置：

private static final String ACOUSTIC_MODEL_PATH =
        "resource:/edu/cmu/sphinx/models/en-us/en-us";
private static final String DICTIONARY_PATH =
        "resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict";

我得到的输出如下（省略号由我添加）：

正如你所看到的，出于某种原因：

在第一个
```
a
```
a之前未识别
```
in
```
对于
```
您的多个实例，没有计时
```


没有识别出有
，而是将其标识为有€™s
对于带有破折号的单词，例如t-shirts


有什么方法可以配置sphinx来为这些事件提供计时吗？
一些评论
在第一个a之前没有认出
您的文本文件具有BOM表标记，该标记对对齐器来说是未知的。最好在对齐前将其拆下
没有意识到有，而是将其标识为有™
您的文本使用对齐器不知道的UTF-8撇号。最好将它们转换为等效的ASCII码
没有时间写带破折号的单词，比如t恤
字典里没有那些词。您可以在对齐之前将它们添加到字典中，或指定g2p模型以将它们转换为拼音。
文件在“提供”下不可用links@NikolayShmyrev，抱歉，已更新links@NikolayShmyrev，您有机会看一下这些文件吗？非常感谢您的帮助！我删除了BOM表并将撇号改为ASCII，现在它可以识别它们。但是，您
的问题仍然存在-您也可以看看这个吗？您是否建议将ASCII编码的文本文件与sphinx一起使用？您可以在对齐之前将其添加到词典中，或指定g2p模型将其转换为拼音。-我浏览过网络，但没有发现任何现有的g2p模型包含许多带破折号的单词（如t恤），因此我想我会尝试将这个单词添加到字典中。这些词是以这种格式指定的：women W IH M AH N
，这些W IH M AH N
是什么？我在哪里可以读到这个语法？我想我已经找到了这个语法的意思-它是arpabe（cmudit），对吗？在字典中添加一个单词以便斯芬克斯能够识别它就足够了吗？或者我还需要做其他的步骤吗？还有我发布的问题，你能看一看吗？CMUdict电话集和语法在。对于aligner，将单词添加到字典中就足够了。g2p自动转换音素模型在下载中提供是的，当然，我们的对齐器不知道如何处理许多utf-8字符
- ï
- ¿in
  a                         [11250:11330]
  standard                  [11330:11920]
  shopping                  [11920:12440]
  centre                    [12440:13020]
- you
  can                       [13380:13730]
  ...
  shops                     [15170:15790]
- you
  can                       [16620:16890]
  buy                       [16890:17140]
  ...
  and                       [26920:27230]
  suits                     [27190:27220]
- thereâ€™s
  a                         [29160:29210]
  sportswear                [29210:29980]
  ...
  clothes                   [33330:33360]
- t-shirts
  shorts                    [35560:36320]
  jumpers                   [36630:37410]
  ...
  for                       [41860:42010]