web浏览器中有限单词的(连续)语音识别

web浏览器中有限单词的(连续)语音识别,web,speech-recognition,Web,Speech Recognition,有没有一种语音识别的解决方案 只有几句话(2句就足够了,10句就很酷了。100句太棒了。不需要更多) 也可以在移动浏览器上运行(是否可以使用flash(而不是java)实现此功能?) 可以安装在您自己的服务器上。最好使用PHP+MySQL(如果需要服务器端代码) 我尝试过搜索,但我只找到了实际的转录服务(比如Android上的谷歌语音搜索)。现在你甚至不需要服务器来运行语音识别,你只需要一个支持Web音频API的浏览器(最新的firefox和chrome都支持它)。CMUSphinx现在可以

有没有一种语音识别的解决方案

  • 只有几句话(2句就足够了,10句就很酷了。100句太棒了。不需要更多)
  • 也可以在移动浏览器上运行(是否可以使用flash(而不是java)实现此功能?)
  • 可以安装在您自己的服务器上。最好使用PHP+MySQL(如果需要服务器端代码)

我尝试过搜索,但我只找到了实际的转录服务(比如Android上的谷歌语音搜索)。

现在你甚至不需要服务器来运行语音识别,你只需要一个支持Web音频API的浏览器(最新的firefox和chrome都支持它)。CMUSphinx现在可以在浏览器中的javascript中执行

有关更多详细信息,请参阅


这种解决方案的一个例子是,它基于(Nikolay Shmyrev的帖子中也提到)。要回答您的要点:

  • 它支持约60个单词的简单闹钟语法(如“五分钟内叫醒我”)
  • 我已经设法在Chrome Beta 32.0.1700.99 Android 4.1.2(三星Galaxy S2)上运行了它,它需要一个现代Javascript引擎,但不需要Flash
  • 它不需要服务器,因为语音识别是在Javascript中离线完成的,所有需要的文件都可以使用ApplicationCache缓存
对于这个应用程序,语法是用pocketsphinx.js编写的,并自动转换为pocketsphinx.js所需的有限状态模型和字典。对于简单的“MP3播放/暂停”语法,您可以轻松地直接编写FSA

此应用程序中的英语声学模型不是很好,也就是说,他们可能会被背景中的MP3播放搞糊涂。你可以通过训练更好的模特来提高这一点。但是,更好的模型可能更大(例如Javascript中大于20MB),不再适合内存,或者只是让应用程序运行/加载非常缓慢

在手机上运行的应用程序的屏幕截图:


可能重复您试图通过结果实现的目标?谢谢Mat。我想控制MP3文件的音频播放(播放/暂停)。这在使用Firefox或Chromium的Xubuntu上不起作用。在Chromium Flash中,单击以允许权限时没有响应。在Firefox中,它工作正常,但在自动或手动模式下似乎什么都没有发生。嘿,在过去两年中,很多事情都发生了变化。我已经更新了答案,请尝试一种新的客户端技术,它应该在没有flash的情况下工作。我也不认为这是可用的。我试过了,第一次几乎就成功了,但发现号码错了(而且速度慢),之后,即使在刷新之后,我也无法让它做任何事情。我不会删除旧的解决方案:至少这有可能在Firefox中工作。