Audio 确定语音记录的基本频率

Audio 确定语音记录的基本频率,audio,voice-recognition,aubio,Audio,Voice Recognition,Aubio,我正在使用命令行工具aubiopitch分析语音记录。我的目标是确定录音的基本频率。当然,我知道频率是不同的——这就是为什么我要计算30秒录音的“平均”频率(以赫兹为单位) 我的问题:aubio使用不同的方法来确定录音的音调:施密特触发器、谐波梳、yin、yinfft等。在处理纯人类语音录音(无背景音乐、atmo等)时,哪种方法是我的首选方法由于它使用高级神经网络机器学习进行音调预测,因此它的性能很好,并且优于许多其他方法。但在看不见的情况下,它可能不稳定,并且可能不太容易堵塞,因为它需要ten

我正在使用命令行工具aubiopitch分析语音记录。我的目标是确定录音的基本频率。当然,我知道频率是不同的——这就是为什么我要计算30秒录音的“平均”频率(以赫兹为单位)

我的问题:aubio使用不同的方法来确定录音的音调:施密特触发器、谐波梳、yin、yinfft等。在处理纯人类语音录音(无背景音乐、atmo等)时,哪种方法是我的首选方法由于它使用高级神经网络机器学习进行音调预测,因此它的性能很好,并且优于许多其他方法。但在看不见的情况下,它可能不稳定,并且可能不太容易堵塞,因为它需要tensorflow


对于更传统、更轻量级的解决方案,oyu可以尝试。

我建议使用
yinfast
yinft
default
)。有关算法、参数及其性能的讨论,请参阅


请注意,在这种情况下,中位数比平均值更合适。

不确定这是如何回答问题的。好消息是CREPE将很快在aubio上市。不幸的是,这并不能回答我的问题,特别是因为我在问我使用的特定音频工具的最佳设置。@piem:你能预测CREPE何时在aubio上市吗?piem(Paul)是《aubio》的作者,他肯定知道自己在说什么。此外,我对Paul开发的算法有很好的经验-
yinft
。我对不同的语音录制(所有录音室质量)做了一系列测试。设置已更改为“-s 24”。我计算了检测到的频率在1到500赫兹之间的中位数,并忽略了其余部分。注意最后一次测试的“爆发”。这是一段非常深沉的男声录音,它完全错了——不知道为什么。施密特触发器的工作速度最快(到目前为止),其结果与尹非常接近。mcomb–除了最后一次测试外,它的性能甚至比施密特更出色,成本略高。以下是测试系列。。。阴133、138、129、105、124、128、97、221、266、169、123、69阴135、140、132、113、127、137、115、223、269、173、135、253(!!)mcomb 140、138、131、108、128、132、101、224、270、166、129、89施密特143、146、139、110、139、141、103、227、281、175、138、69我认为阴效果最好,但价格昂贵。现在处于尹和施密特之间。顺便说一句:多好的工具啊!对洪水感到抱歉:我找到了我的冠军!我会选择尹,但跳跃率为2048。这节省了很多时间,结果基本上与“正常”阴相同!