Twilio 斜纹和细微差别ASR可能性

Twilio 斜纹和细微差别ASR可能性,twilio,speech-recognition,naturallyspeaking,Twilio,Speech Recognition,Naturallyspeaking,有没有人有使用twilio和Nuance ASR()创建语音识别应用程序的经验\ 我认为时间延迟不可能使它可行。例如,如果我要提示用户说些什么,让Nuance识别出来,然后把抄本还给我,然后在我的系统中查找进一步的操作只会花费很长时间 从用户处捕获音频 从twilio获取语音录制url 并将音频文件传递给nuance 然后从细微差别中提取转录 将单词与我的数据进行匹配 采取适当行动 这一切都应该发生得相当快,但它是否足够快,让打电话的人可以接受 任何想法都很好 多谢各位 另外,我试图创建标签细微

有没有人有使用twilio和Nuance ASR()创建语音识别应用程序的经验\

我认为时间延迟不可能使它可行。例如,如果我要提示用户说些什么,让Nuance识别出来,然后把抄本还给我,然后在我的系统中查找进一步的操作只会花费很长时间

  • 从用户处捕获音频
  • 从twilio获取语音录制url
  • 并将音频文件传递给nuance
  • 然后从细微差别中提取转录
  • 将单词与我的数据进行匹配
  • 采取适当行动
  • 这一切都应该发生得相当快,但它是否足够快,让打电话的人可以接受

    任何想法都很好 多谢各位


    另外,我试图创建标签细微差别,但不被允许

    我目前正在提供实时翻译的通信平台上工作,我正在使用Twilio作为我们汽车的平台提供商。翻译语音通话功能。Nuance的ASR技术至少可以说是平均水平,绝对不能用于低频段音频。查看谷歌云语音API。我用它取得了很好的效果。ASR大约需要3-5秒。

    Nuance Recognitor确实适用于低频段音频-事实上,它设计用于电话环境-之前的评论不正确。然而,问题在于及时将Twilio的音频流返回到识别器进行部分识别。通常,细微差别识别器使用MRCP与IVR平台集成,但我认为Twilio不支持此协议。因此,如果使用第三方引擎,您可能需要录制短语,然后提交(传输)到您的ASR实例,处理响应,并将结果发送回Twilio-这会导致延迟,因为ASR引擎无法处理部分音频。这个问题的简单例子-如果有人说了10秒钟,结果在10秒钟(录制时间)+传输时间+处理时间+返回到Twilio的时间内不会返回到Twilio

    我知道这是一个老问题,但这个问题仍然出现在谷歌搜索结果的第一页
    twilio asr

    这是一个无耻的插件,但我们公司Voicegain已经开发了一个识别器,它的工作原理非常类似于Nunance ASR(以GRXML语法为例),并且还提供了Twilio媒体流集成,可以轻松地用作Twilio的ASR。与使用Google STT和Twilio相比,我们的识别器在本地使用语法,因此在特定用例中的准确度可能比Google STT高很多,而且我们的识别器支持完全超时,即。,它知道语法匹配,并将从较长的不完整超时切换到较短的完整超时


    请参见此处:

    谢谢,在处理结果所需的3-5秒内,您会做些什么?你会演奏一些保持音调或音乐吗?