Speech recognition 什么';现在语音识别的一般状态是什么?

Speech recognition 什么';现在语音识别的一般状态是什么?,speech-recognition,Speech Recognition,我目前正在评估cyrrebt状态的语音识别(SR)技术,似乎有相当多的API和服务正在涌现 我自己的SR经验是,关键字匹配可以很好地与多个说话人进行匹配,听写可以在非常受控的环境中与训练有素的说话人进行匹配。这仍然是真的吗?有没有什么好的方法可以对任意音频文件的文本进行语音转换?可以是音频流中的关键字匹配以进行索引,也可以是对完整转录的尝试 有人对nuance与其他引擎和开源解决方案的比较有什么评论吗?虽然围绕语音识别设计的更新、更友好的应用程序将继续被编写,但语音识别本身已经到了一堵砖墙。即使

我目前正在评估cyrrebt状态的语音识别(SR)技术,似乎有相当多的API和服务正在涌现

我自己的SR经验是,关键字匹配可以很好地与多个说话人进行匹配,听写可以在非常受控的环境中与训练有素的说话人进行匹配。这仍然是真的吗?有没有什么好的方法可以对任意音频文件的文本进行语音转换?可以是音频流中的关键字匹配以进行索引,也可以是对完整转录的尝试


有人对nuance与其他引擎和开源解决方案的比较有什么评论吗?

虽然围绕语音识别设计的更新、更友好的应用程序将继续被编写,但语音识别本身已经到了一堵砖墙。即使是最好的引擎,其精确度也会随着噪音的出现而迅速下降,这对于经常在嘈杂环境中使用该技术的智能手机用户来说是一个大问题


一个更大的相关问题是,语音识别器无法在一屋子的声音中识别出一个声音(鸡尾酒会问题),这是大多数人相对容易处理的问题。除非有人解决这个问题,否则语音识别技术恐怕不会有多大的进步。这是一个耗资数十亿美元的问题,因为一个解决方案将使所有现有的语音识别引擎几乎在一夜之间过时。

问题可能会交给程序员。请看,因此,除了对再认知算法的迭代改进外,与上次没有太大不同。我想补充一点,Kinects远距离开放式麦克风语音识别是解决鸡尾酒会问题的一个相当大的步骤。即使你不玩电子游戏,我也建议你试试《大众效应3》(或阅读)。那个游戏有很响的背景音频。他们在语音命令和游戏中所做的非常酷,甚至更酷,因为它没有按键通话解决方案。