Ios 使用Swift分析录制的音频文件,以实现语音到文本的转换

Ios 使用Swift分析录制的音频文件,以实现语音到文本的转换,ios,swift,audio,speech-to-text,Ios,Swift,Audio,Speech To Text,我可以用Swift for iOS录制音频并播放录制的音频文件。我想问的是,是否有可能检查录制的音频文件的背景噪音和音量/分贝,这样我就可以确定它对我的语音到文本框架足够好。框架不是问题所在,我已经研究了所有可用的框架 我很好奇是否可以使用AVFoundation或Accelerate Framework或任何其他框架分析录制的音频文件,以检查音频文件是否良好/清晰,是否可以使用语音到文本框架进行处理 我没有太多的音频知识,但我做了一些研究,发现我可以在录音时获得峰值和平均分贝值,但是背景噪声呢

我可以用Swift for iOS录制音频并播放录制的音频文件。我想问的是,是否有可能检查录制的音频文件的背景噪音和音量/分贝,这样我就可以确定它对我的语音到文本框架足够好。框架不是问题所在,我已经研究了所有可用的框架

我很好奇是否可以使用AVFoundation或Accelerate Framework或任何其他框架分析录制的音频文件,以检查音频文件是否良好/清晰,是否可以使用语音到文本框架进行处理

我没有太多的音频知识,但我做了一些研究,发现我可以在录音时获得峰值和平均分贝值,但是背景噪声呢


任何有关使用Swift分析录制的音频文件的信息都会有所帮助。

SNR估计是一个非常成熟的领域。您需要实现一个语音活动检测器,它将噪声与语音分离,然后分别计算噪声能量和信号能量,然后计算比率。不过,这稍微超出了简单的数学范围,您需要了解统计信息,才能实现一个合理的算法,如所实现的算法

您将无法在Swift中找到它的实现,此类软件通常是用C或Matlab实现的,您将不得不移植实现


与涉及更高级算法的语音识别相比,噪声估计是一个小问题。在SWIFT或.

中,最好考虑现有的语音识别软件包,谢谢。因此,就我所搜索到的,在Swift/Objective-C中没有关于SNR或VAD的解决方案。语音识别已经开始工作了,但是谢谢你的建议。我可以分析录音过程中录音机返回的平均功率和峰值功率(dB),所以这是我目前发现的唯一分析。@Nikolay Shmyrev我想使用wada snr。下载了你提到的文件夹,但我不知道如何安装它。找不到documentation@NikolayShmyrev I开始了一个关于类似问题的新问题请记住,
swift
objective-c
是高级语言,在一个严肃程序的DSP线程上很难找到,它以实时优先级运行。为什么?因为所有舒适的事情(分配对象、内存管理、轮询和阻塞等)都不能在实时线程上进行,除非你在寻找麻烦。对于DSP代码来说,快速运行至关重要。因此,您可以在
swift
中编写UI或控制器,但对于DSP部分来说,最安全的选择,如信噪比估计,将下降到普通C。