比较iOS中的两个音频(本地存储的预录语音命令和从应用程序中的麦克风录制的声音命令)
在应用程序中,我必须比较来自先前本地存储的语音命令的实时录制,如果它匹配(不仅是文本,而且还识别出此人的语音),然后执行必要的操作 1-匹配来自同一个人的语音命令。 2-匹配命令的文本。 我应用了很多方法,但没有一种能达到我的期望 第一名: 使用语音到文本库,如,但这些库仅转换语音中的文本 结果:未达到我的预期 第二:(音频指纹) :在这个库中,我录制了一个命令并将该MP3文件存储在acrcloud服务器上,并与实时录制(我说的)相匹配,但当我播放上传到acrcloud服务器的相同录制(录制的MP3文件)时,它会匹配。 结果:未达到我的预期 :在这个库中,就像语音对文本一样,我在他的服务器上存储了一些文本命令,然后任何人都会说相同的命令,结果就成功了。 结果:未达到我的预期比较iOS中的两个音频(本地存储的预录语音命令和从应用程序中的麦克风录制的声音命令),ios,objective-c,swift,speech-recognition,audio-fingerprinting,Ios,Objective C,Swift,Speech Recognition,Audio Fingerprinting,在应用程序中,我必须比较来自先前本地存储的语音命令的实时录制,如果它匹配(不仅是文本,而且还识别出此人的语音),然后执行必要的操作 1-匹配来自同一个人的语音命令。 2-匹配命令的文本。 我应用了很多方法,但没有一种能达到我的期望 第一名: 使用语音到文本库,如,但这些库仅转换语音中的文本 结果:未达到我的预期 第二:(音频指纹) :在这个库中,我录制了一个命令并将该MP3文件存储在acrcloud服务器上,并与实时录制(我说的)相匹配,但当我播放上传到acrcloud服务器的相同录制(录制的M
请建议我如何解决iOS应用程序的此问题一般来说,我认为您应该使用方法1进行一些调整。 本地音频。您可以添加文本脚本版本,如:1音频,源脚本 用于录制音频。使用OpenEars、SpeechKit将音频转换为文本 尝试比较源脚本和文本以获得结果。您应该标记源脚本中必须强调的文本,以获得最佳比较结果。有时我们会说:酒、妻子、白。。。(试着处理这件事,想想看)
GLHF如果我正确理解您的要求,我会这样做:
另外,在以后的应用程序中,您还可以尝试覆盖所有的麦克风,因为没有内在保证所有iphone麦克风都是平等的。我希望不同型号的iphone不会有任何差异,但谁知道呢?@gnasher729从上周开始玩得很开心,根据您的评论,这是可能的。如果acrcloud Library失败,那么您应该在他们的网站上提出问题。@TejaNandamuri acrcloud Library没有失败,但我的期望与此不同,即在内容中匹配个人声音。如果您找到更合适的答案,请与他人分享。@Shohrab如果您找到任何解决方案,请告诉mei已经通过FFT(加速框架中的vDSP)计算了音频频率,请解释计算音频频谱的过程,然后解释如何比较这些音频频谱以匹配人类vocie。这是我们如何编写代码的主要挑战。Levy在这里有一个非常好的答案让你们开始:这是唯一的语音对文本库,而不是像语音认证那样比较人声。我的错误在这里。顺便说一句,您没有提到是否可以将繁重的工作卸载到服务器上,这将极大地打开您使用cpu密集型算法和/或其他语言的可能性。我对付费解决方案的数量和很少的开源解决方案感到惊讶。这里有一个付费技术(freemium)用于构建服务器端的示例,但显然您只需要进行REST调用,这样就可以轻松地与iOS集成:。微软还提供了一个语音到文本的SDK,显然可以脱机工作。微软api有什么进展吗?