Twilio 斜纹和细微差别ASR可能性_Twilio_Speech Recognition_Naturallyspeaking

Twilio 斜纹和细微差别ASR可能性

twilio speech-recognition

Twilio 斜纹和细微差别ASR可能性,twilio,speech-recognition,naturallyspeaking,Twilio,Speech Recognition,Naturallyspeaking,有没有人有使用twilio和Nuance ASR（）创建语音识别应用程序的经验\ 我认为时间延迟不可能使它可行。例如，如果我要提示用户说些什么，让Nuance识别出来，然后把抄本还给我，然后在我的系统中查找进一步的操作只会花费很长时间从用户处捕获音频从twilio获取语音录制url 并将音频文件传递给nuance 然后从细微差别中提取转录将单词与我的数据进行匹配采取适当行动这一切都应该发生得相当快，但它是否足够快，让打电话的人可以接受任何想法都很好多谢各位另外，我试图创建标签细微

有没有人有使用twilio和Nuance ASR（）创建语音识别应用程序的经验\

我认为时间延迟不可能使它可行。例如，如果我要提示用户说些什么，让Nuance识别出来，然后把抄本还给我，然后在我的系统中查找进一步的操作只会花费很长时间

从用户处捕获音频

从twilio获取语音录制url

并将音频文件传递给nuance

然后从细微差别中提取转录

将单词与我的数据进行匹配

采取适当行动

这一切都应该发生得相当快，但它是否足够快，让打电话的人可以接受

任何想法都很好多谢各位

另外，我试图创建标签细微差别，但不被允许

我目前正在提供实时翻译的通信平台上工作，我正在使用Twilio作为我们汽车的平台提供商。翻译语音通话功能。Nuance的ASR技术至少可以说是平均水平，绝对不能用于低频段音频。查看谷歌云语音API。我用它取得了很好的效果。ASR大约需要3-5秒。

Nuance Recognitor确实适用于低频段音频-事实上，它设计用于电话环境-之前的评论不正确。然而，问题在于及时将Twilio的音频流返回到识别器进行部分识别。通常，细微差别识别器使用MRCP与IVR平台集成，但我认为Twilio不支持此协议。因此，如果使用第三方引擎，您可能需要录制短语，然后提交（传输）到您的ASR实例，处理响应，并将结果发送回Twilio-这会导致延迟，因为ASR引擎无法处理部分音频。这个问题的简单例子-如果有人说了10秒钟，结果在10秒钟（录制时间）+传输时间+处理时间+返回到Twilio的时间内不会返回到Twilio

我知道这是一个老问题，但这个问题仍然出现在谷歌搜索结果的第一页

twilio asr

这是一个无耻的插件，但我们公司Voicegain已经开发了一个识别器，它的工作原理非常类似于Nunance ASR（以GRXML语法为例），并且还提供了Twilio媒体流集成，可以轻松地用作Twilio的ASR。与使用Google STT和Twilio相比，我们的识别器在本地使用语法，因此在特定用例中的准确度可能比Google STT高很多，而且我们的识别器支持完全超时，即。，它知道语法匹配，并将从较长的不完整超时切换到较短的完整超时

请参见此处：

谢谢，在处理结果所需的3-5秒内，您会做些什么？你会演奏一些保持音调或音乐吗？