Speech recognition 除了谷歌之外,还有什么语音识别API可以返回临时结果吗?

Speech recognition 除了谷歌之外,还有什么语音识别API可以返回临时结果吗?,speech-recognition,speech-to-text,cmusphinx,ibm-watson,google-speech-api,Speech Recognition,Speech To Text,Cmusphinx,Ibm Watson,Google Speech Api,我正在寻找一个语音识别API,它可以在用户说话时返回临时结果,类似于Google在其主页上所做的()。我正在寻找一个API,支持法语。我想做的是创建一个类似于谷歌语音搜索的web应用程序 谷歌语音API不推荐用于专业开发,因为它经常变化,并且没有完整的文档记录 IBM Watson不支持法语 AT&T语音API不返回临时结果 CMU Sphinx返回了极其糟糕的结果(请参见此处的演示:) Nuance产品似乎不适合web应用程序。(如果你知道我应该如何使用它们,我很感兴趣!) 许多语音到文本应

我正在寻找一个语音识别API,它可以在用户说话时返回临时结果,类似于Google在其主页上所做的()。我正在寻找一个API,支持法语。我想做的是创建一个类似于谷歌语音搜索的web应用程序

  • 谷歌语音API不推荐用于专业开发,因为它经常变化,并且没有完整的文档记录
  • IBM Watson不支持法语
  • AT&T语音API不返回临时结果
  • CMU Sphinx返回了极其糟糕的结果(请参见此处的演示:)
  • Nuance产品似乎不适合web应用程序。(如果你知道我应该如何使用它们,我很感兴趣!)

许多语音到文本应用程序使用Nuance Communications开发的语音识别技术。与web应用程序配合使用的SDK是支持将流式音频转换为文本的SDK。除英语和德语外,它还支持法语。要使用此功能,您可能需要通过AJAX请求将音频输入流式传输到要处理的服务器,然后将文本作为AJAX请求的XMLHTTPResponse接受。

由Cortana和Skype Translator使用的Microsoft符合您的两个标准:它支持法语(和其他6种语言)并在向其传输音频时返回部分/临时/在线假设

(顺便说一句,使用Pocketsphinx进行在线识别时,通常会导致错误准确性的问题是错误的CMN(倒谱平均值归一化)。当您为Pocketsphenx提供一段完整的音频以进行处理时,它会计算整个语音的CMN,但当您将音频流式传输到Pocketsphenx时,默认情况下它不会计算CMN。一种解决方案是为其提供完整的语音,检索Pocketsphenx计算的CMN,然后将该CMN用于流式音频。请注意,CMN是不同的对于每个音频通道/环境,pocketsphinx的Python接口不提供CMN数据接口。如果这是您想要研究的路由,我有一个补丁。)