Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/388.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何设置语音识别服务器?_Java_Speech Recognition_Speech_Speech To Text - Fatal编程技术网

Java 如何设置语音识别服务器?

Java 如何设置语音识别服务器?,java,speech-recognition,speech,speech-to-text,Java,Speech Recognition,Speech,Speech To Text,如何在服务器端实现语音识别(请不要建议HTML5的x-webkit-Speech、javascript等)?该程序将以音频文件作为输入,并以足够的精度提供音频文件的文本转录。我可以使用哪些选项 我已经尝试过实现,但准确性太差(它们可能也是我配置中的一些问题,我仍在尝试学习)。在一篇帖子中,我读到,当我们使用时,输入被发送到外部服务器,该服务器比识别更有效,并将数据发送回浏览器 如何设置该服务器?如果任何现有的开源服务器能够以最小的错误率识别英语句子,那么它也会很有用。在Chrome中,该服务器是

如何在服务器端实现语音识别(请不要建议HTML5的x-webkit-Speech、javascript等)?该程序将以音频文件作为输入,并以足够的精度提供音频文件的文本转录。我可以使用哪些选项

我已经尝试过实现,但准确性太差(它们可能也是我配置中的一些问题,我仍在尝试学习)。在一篇帖子中,我读到,当我们使用
时,输入被发送到外部服务器,该服务器比识别更有效,并将数据发送回浏览器


如何设置该服务器?如果任何现有的开源服务器能够以最小的错误率识别英语句子,那么它也会很有用。

在Chrome中,该服务器是一个专有的Google服务器。您无法设置自己的版本。人们已经对服务器的调用进行了反向工程,例如,请参见,但这对于生产或商业应用程序来说不是一个好主意,因为谷歌可能会随时更改API或限制其访问


这是一个不同问题的老答案,但可能会有所帮助-

在Chrome中,该服务器是一个专有的Google服务器。您无法设置自己的版本。人们已经对服务器的调用进行了反向工程,例如,请参见,但这对于生产或商业应用程序来说不是一个好主意,因为谷歌可能会随时更改API或限制其访问


下面是一个不同问题的老答案,但可能会有所帮助-

您要实现什么类型的应用程序?应用程序的目的是将用户的语音输入转录成文本,还是仅仅理解简单的命令?Sphinx4等系统使用统计模型进行语音转录。这些类型的系统不会像自动语音识别(ASR)系统那样获得很好的识别效果,该系统使用语法限制ASR的搜索空间以获得更好的识别效果。使用统计模型的系统需要大量的调整和试运行才能获得良好的识别

Sphinx4是我所知道的唯一开源ASR。有许多商业产品/服务,细微差别是市场上最大的。一些商业产品可以选择在识别率较低时让人转录信息


谷歌有一个非官方的API,它在内部用于谷歌语音(GoogleVoice)等服务,我相信它与您引用的webkit使用的API相同。谷歌语音将把语音邮件信息转录下来,然后通过电子邮件发送给你。谷歌语音被认为是最先进的抄写技术,但如果你有一个语音帐户,你会看到抄写的消息不是那么好。下面是。

您要实现什么类型的应用程序?应用程序的目的是将用户的语音输入转录成文本,还是仅仅理解简单的命令?Sphinx4等系统使用统计模型进行语音转录。这些类型的系统不会像自动语音识别(ASR)系统那样获得很好的识别效果,该系统使用语法限制ASR的搜索空间以获得更好的识别效果。使用统计模型的系统需要大量的调整和试运行才能获得良好的识别

Sphinx4是我所知道的唯一开源ASR。有许多商业产品/服务,细微差别是市场上最大的。一些商业产品可以选择在识别率较低时让人转录信息

谷歌有一个非官方的API,它在内部用于谷歌语音(GoogleVoice)等服务,我相信它与您引用的webkit使用的API相同。谷歌语音将把语音邮件信息转录下来,然后通过电子邮件发送给你。谷歌语音被认为是最先进的抄写技术,但如果你有一个语音帐户,你会看到抄写的消息不是那么好。这是。

您有一些问题: 1.如何在客户端捕获音频。 2.如何为服务器传输这些音频。 3.如何进行识别。 4.如何传回识别和信心分数。 5.你将如何处理这些认可度和信心分数(你的申请)

对于第一种情况,你可以使用谷歌的方法,有人点击麦克风图标,录制一些声音。或者,iPhone Siri,使用VAD录制音频

第二,这是一个基本的TCP/IP文件传输问题。也可以使用苹果/ 谷歌方法和压缩音频文件使用Flac或Speex

第三,这是真正困难的部分。你需要更好的声学模型,那些你可以从Voxforge得到的模型。对于像Siri这样的无上下文的连续语音识别来说,这一点尤为重要。对于命令,Voxforge很好

第四,这是另一个文件传输问题

第五,这是你的申请

最难的部分是语音识别部分。也许另一个问题是如何为成千上万的用户扩展它。 您可以使用Julius语音识别作为语音客户端来捕获音频。我们可以私下更多地讨论这个问题。

您有一些问题: 1.如何在客户端捕获音频。 2.如何为服务器传输这些音频。 3.如何进行识别。 4.如何传回识别和信心分数。 5.你将如何处理这些认可度和信心分数(你的申请)

对于第一种情况,你可以使用谷歌的方法,有人点击麦克风图标,录制一些声音。或者,iPhone Siri,使用VAD录制音频

第二,这是一个基本的TCP/IP文件传输问题。也可以使用苹果/ 谷歌方法和压缩音频文件使用