Java 如何设置语音识别服务器？_Java_Speech Recognition_Speech_Speech To Text

Java 如何设置语音识别服务器？

java speech-recognition

Java 如何设置语音识别服务器？,java,speech-recognition,speech,speech-to-text,Java,Speech Recognition,Speech,Speech To Text,如何在服务器端实现语音识别（请不要建议HTML5的x-webkit-Speech、javascript等）？该程序将以音频文件作为输入，并以足够的精度提供音频文件的文本转录。我可以使用哪些选项我已经尝试过实现，但准确性太差（它们可能也是我配置中的一些问题，我仍在尝试学习）。在一篇帖子中，我读到，当我们使用时，输入被发送到外部服务器，该服务器比识别更有效，并将数据发送回浏览器如何设置该服务器？如果任何现有的开源服务器能够以最小的错误率识别英语句子，那么它也会很有用。在Chrome中，该服务器是

如何在服务器端实现语音识别（请不要建议HTML5的x-webkit-Speech、javascript等）？该程序将以音频文件作为输入，并以足够的精度提供音频文件的文本转录。我可以使用哪些选项

我已经尝试过实现，但准确性太差（它们可能也是我配置中的一些问题，我仍在尝试学习）。在一篇帖子中，我读到，当我们使用

时，输入被发送到外部服务器，该服务器比识别更有效，并将数据发送回浏览器

如何设置该服务器？如果任何现有的开源服务器能够以最小的错误率识别英语句子，那么它也会很有用。
在Chrome中，该服务器是一个专有的Google服务器。您无法设置自己的版本。人们已经对服务器的调用进行了反向工程，例如，请参见，但这对于生产或商业应用程序来说不是一个好主意，因为谷歌可能会随时更改API或限制其访问

这是一个不同问题的老答案，但可能会有所帮助-
在Chrome中，该服务器是一个专有的Google服务器。您无法设置自己的版本。人们已经对服务器的调用进行了反向工程，例如，请参见，但这对于生产或商业应用程序来说不是一个好主意，因为谷歌可能会随时更改API或限制其访问

下面是一个不同问题的老答案，但可能会有所帮助-
您要实现什么类型的应用程序？应用程序的目的是将用户的语音输入转录成文本，还是仅仅理解简单的命令？Sphinx4等系统使用统计模型进行语音转录。这些类型的系统不会像自动语音识别（ASR）系统那样获得很好的识别效果，该系统使用语法限制ASR的搜索空间以获得更好的识别效果。使用统计模型的系统需要大量的调整和试运行才能获得良好的识别
Sphinx4是我所知道的唯一开源ASR。有许多商业产品/服务，细微差别是市场上最大的。一些商业产品可以选择在识别率较低时让人转录信息

谷歌有一个非官方的API，它在内部用于谷歌语音（GoogleVoice）等服务，我相信它与您引用的webkit使用的API相同。谷歌语音将把语音邮件信息转录下来，然后通过电子邮件发送给你。谷歌语音被认为是最先进的抄写技术，但如果你有一个语音帐户，你会看到抄写的消息不是那么好。下面是。
您要实现什么类型的应用程序？应用程序的目的是将用户的语音输入转录成文本，还是仅仅理解简单的命令？Sphinx4等系统使用统计模型进行语音转录。这些类型的系统不会像自动语音识别（ASR）系统那样获得很好的识别效果，该系统使用语法限制ASR的搜索空间以获得更好的识别效果。使用统计模型的系统需要大量的调整和试运行才能获得良好的识别
Sphinx4是我所知道的唯一开源ASR。有许多商业产品/服务，细微差别是市场上最大的。一些商业产品可以选择在识别率较低时让人转录信息
谷歌有一个非官方的API，它在内部用于谷歌语音（GoogleVoice）等服务，我相信它与您引用的webkit使用的API相同。谷歌语音将把语音邮件信息转录下来，然后通过电子邮件发送给你。谷歌语音被认为是最先进的抄写技术，但如果你有一个语音帐户，你会看到抄写的消息不是那么好。这是。
您有一些问题： 1.如何在客户端捕获音频。 2.如何为服务器传输这些音频。 3.如何进行识别。 4.如何传回识别和信心分数。 5.你将如何处理这些认可度和信心分数（你的申请）
对于第一种情况，你可以使用谷歌的方法，有人点击麦克风图标，录制一些声音。或者，iPhone Siri，使用VAD录制音频
第二，这是一个基本的TCP/IP文件传输问题。也可以使用苹果/ 谷歌方法和压缩音频文件使用Flac或Speex
第三，这是真正困难的部分。你需要更好的声学模型，那些你可以从Voxforge得到的模型。对于像Siri这样的无上下文的连续语音识别来说，这一点尤为重要。对于命令，Voxforge很好
第四，这是另一个文件传输问题
第五，这是你的申请
最难的部分是语音识别部分。也许另一个问题是如何为成千上万的用户扩展它。您可以使用Julius语音识别作为语音客户端来捕获音频。我们可以私下更多地讨论这个问题。
您有一些问题： 1.如何在客户端捕获音频。 2.如何为服务器传输这些音频。 3.如何进行识别。 4.如何传回识别和信心分数。 5.你将如何处理这些认可度和信心分数（你的申请）
对于第一种情况，你可以使用谷歌的方法，有人点击麦克风图标，录制一些声音。或者，iPhone Siri，使用VAD录制音频
第二，这是一个基本的TCP/IP文件传输问题。也可以使用苹果/ 谷歌方法和压缩音频文件使用