Audio 如何解码语音输入

Audio 如何解码语音输入,audio,machine-learning,speech-recognition,voice-recognition,Audio,Machine Learning,Speech Recognition,Voice Recognition,我想做的是创建一个API,将人类语音转换为IPA(国际拼音字母表)格式。我的问题是,关于如何在原始音频波形级别解码语音的资源在哪里。我寻找了一个API,但我发现的大部分内容都直接翻译成了罗马字母表。我希望能创造出一种更准确的语音识别能力。我想首先说,这个项目比你想象的要困难和复杂得多。语音文本处理是一个非常庞大而复杂的领域,人们对其进行了大量的研究。大多数解析器直接将内容发送给罗马字符的原因是,它们的大部分处理是将模糊声音与其他模糊声音的上下文进行概率匹配,以猜测哪些单词在一起有意义。你更有可能

我想做的是创建一个API,将人类语音转换为IPA(国际拼音字母表)格式。我的问题是,关于如何在原始音频波形级别解码语音的资源在哪里。我寻找了一个API,但我发现的大部分内容都直接翻译成了罗马字母表。我希望能创造出一种更准确的语音识别能力。

我想首先说,这个项目比你想象的要困难和复杂得多。语音文本处理是一个非常庞大而复杂的领域,人们对其进行了大量的研究。大多数解析器直接将内容发送给罗马字符的原因是,它们的大部分处理是将模糊声音与其他模糊声音的上下文进行概率匹配,以猜测哪些单词在一起有意义。你更有可能找到能给你带来Soundex而不是IPA的东西。也就是说,这是一个已经在多个方面着手解决的问题。你最好的选择可能是CMU的Sphinx项目

http://cmusphinx.sourceforge.net/wiki/start

这将为您提供一个良好的开端,但您假设语音到文本的处理比实际要发达得多,并且没有简单的方法可以通过波形以任何精度将语音转换为IPA。Sphinx是一个非常模块化的、完全开源的软件,因此它会给你带来巨大的触手可及的力量,而在这一点上,你是否能想出如何让它工作取决于你,但再次强调。这无论如何都不是一个已解决的问题。

那么,这听起来是一件值得做的事情。有没有人记录下目前用于语音文本的方法的已知信息?几乎都在cmu sphinx下,他们有大量的实验和修改日志,因此您不仅可以看到当前实现的最新和最伟大的方法,但是你也可以看到他们试图找到性能最优的功能的实验。相当圆滑。我期待着这个项目。谢谢