Speech recognition CTC:空白和空白有什么区别?

Speech recognition CTC:空白和空白有什么区别?,speech-recognition,speech-to-text,speech,labeling,ctc,Speech Recognition,Speech To Text,Speech,Labeling,Ctc,在2006年关于连接主义时间分类的文章中,Alex Graves&co.介绍了一种解码语音的模型,它有27个标签:26个用于字母表字母,一个用于空白,这意味着没有标签(我理解为沉默) 然而,我看到很多CTC的实现使用了28个标签,一个是空白,另一个是空格。到目前为止,我还没有找到一个解释来解释为什么需要同时使用这两个标签,对我来说,它们代表的是同一件事 请您解释一下CTC中空白和空白的区别,以及为什么需要这两种标签 在连接主义的时间分类中,空间只是一个概念 空格和空白是“-”,我们用它来解决重复

在2006年关于连接主义时间分类的文章中,Alex Graves&co.介绍了一种解码语音的模型,它有27个标签:26个用于字母表字母,一个用于空白,这意味着没有标签(我理解为沉默

然而,我看到很多CTC的实现使用了28个标签,一个是空白,另一个是空格。到目前为止,我还没有找到一个解释来解释为什么需要同时使用这两个标签,对我来说,它们代表的是同一件事

请您解释一下CTC中空白和空白的区别,以及为什么需要这两种标签

在连接主义的时间分类中,空间只是一个概念 空格和空白是“-”,我们用它来解决重复的问题 数据的重复出现。例如,“比萨饼”将被编码为 “皮扎”

TLDR

参考:

在CTC中,存在一个如何编码重复字符的问题。通过引入伪字符(称为空白,但不要将其与“真实”空白(即空白字符)混淆)来解决此问题。此特殊字符在正文中将被表示为“-”。我们使用了一种巧妙的编码模式来解决重复字符问题:在编码文本时,我们可以在任意位置插入任意多个空格,在解码时这些空格将被删除。但是,我们必须在重复字符之间插入一个空格,如“hello”。此外,我们可以随时重复每个字符。 让我们看一些例子: “到”→ “--ttttttooo”或“-t-o-”或“to” “也是”→ “--ttttt o-o”或“-t-o-o-”或“to-o”,但不能“太”
如您所见,此模式还允许我们轻松创建相同文本的不同对齐方式,例如“t-o”和“太”以及“-to”都表示相同的文本(“to”),但与图像的对齐方式不同。训练NN输出编码文本(在NN输出矩阵中编码)。

空白是CTC内部使用的特殊字符,它在世界上没有真实的表示形式。另一方面,空格是用于分隔单词的正常空白字符。在这里,我写了一篇关于反恐委员会的简短介绍: