Java 语音识别和斯芬克斯入门

Java 语音识别和斯芬克斯入门,java,speech-recognition,cmusphinx,sphinx4,Java,Speech Recognition,Cmusphinx,Sphinx4,Sphinx似乎是Java语音识别的唯一现实选择。文档很少,需要高水平的领域知识。我使用了他们的启动程序示例,它适用于一个文件,而不适用于另一个非常类似的文件。 有什么区别?让它更准确地工作的秘诀是什么 此文件有效,但此文件无效。 我注意到非工作文件具有不同的采样率,因此我使用了一个程序将其转换为16000,但仍然没有运气请确保仔细检查该文件。根据您的文件,必须为8khz或16khz且仅限单声道。有很多工具可以实现这一点——我使用,但对于像这样的基本转换来说,可能有些过头了。单声道和立体声怎么样

Sphinx似乎是Java语音识别的唯一现实选择。文档很少,需要高水平的领域知识。我使用了他们的启动程序示例,它适用于一个文件,而不适用于另一个非常类似的文件。 有什么区别?让它更准确地工作的秘诀是什么

此文件有效,但此文件无效。

我注意到非工作文件具有不同的采样率,因此我使用了一个程序将其转换为16000,但仍然没有运气

请确保仔细检查该文件。根据您的文件,必须为8khz或16khz且仅限单声道。有很多工具可以实现这一点——我使用,但对于像这样的基本转换来说,可能有些过头了。

单声道和立体声怎么样。看,是的,我还注意到不起作用的文件有两个通道,所以我也将其转换为1,但它似乎仍然不起作用(我会附加修改后的文件,但似乎没有办法做到这一点)@PaulProgrammer证明你是对的。我使用的转换方法不起作用。我尝试将SOX转换为16000采样率和1个通道,这解决了问题。我还成功地将mp3转换成wav文件。是的,我越来越了解。Sphinx似乎只支持WAV文件,所以本质上,所有文件都必须转换为WAV,对吗?我基本上希望能够支持任何音频文件。听起来你有斯芬克斯的工作系统?如果你还有别的建议,我很乐意听听。特别是关于性能和要使用的型号。除了随附的型号外,似乎还有其他型号,目前还不清楚哪种型号是“最佳”型号。处理管道通常从一组已知的文件类型开始,然后使用类似
ffmpeg
的实用程序在处理前将文件转换为wav。不知道“最佳”模型——在我看来,sphinx有一些“足够好”的模型,但也鼓励您从用例中创建自己的模型。