Audio 文件和麦克风录音之间的音频信号差异

Audio 文件和麦克风录音之间的音频信号差异,audio,audio-recording,audio-processing,portaudio,emotion,Audio,Audio Recording,Audio Processing,Portaudio,Emotion,我正在为现场录音开发一个语音情感识别系统。我正在使用该库进行特征提取。我收集了一组包含不同语音类型的音频文件,并从中提取特征,训练基于SVM的分类器进行情感识别。然而,在现场演讲测试中,这完全失败了。原因是现场语音中的信号和特征分布(MFCC、LSP、基音、强度、F0)与文件中的信号和特征分布(MFCC、LSP、基音、强度、F0)大不相同。OpenSMILE库用于访问来自麦克风的音频信号 我试着在空中播放一个文件(f_原创),通过麦克风录制,然后让OpenSMILE保存(f_失真)。我发现f_原

我正在为现场录音开发一个语音情感识别系统。我正在使用该库进行特征提取。我收集了一组包含不同语音类型的音频文件,并从中提取特征,训练基于SVM的分类器进行情感识别。然而,在现场演讲测试中,这完全失败了。原因是现场语音中的信号和特征分布(MFCC、LSP、基音、强度、F0)与文件中的信号和特征分布(MFCC、LSP、基音、强度、F0)大不相同。OpenSMILE库用于访问来自麦克风的音频信号

我试着在空中播放一个文件(f_原创),通过麦克风录制,然后让OpenSMILE保存(f_失真)。我发现f_原音和f_失真在演奏时对人耳的声音没有太大的不同。然而,当在中可视化时,音频信号差别很大,从f_原始和f_失真中提取的特征差别很大。文件f_的原始频率为16000Hz,在特征提取之前,我将其采样频率提高到44100Hz。麦克风以44100Hz的频率录音

虽然我确实希望通过麦克风录音时会出现一些失真,但我看到的失真程度是极端的

还有其他人面临过类似的问题吗?任何关于如何解决这个问题的建议


谢谢

这在很大程度上取决于录音的环境因素,包括录音室、扬声器/麦克风组合的频率响应及其在录音室内的类型/位置。该软件可能能够帮助您清理这些内容,但获得一个干净的记录将是影响软件分析能力的最重要因素

假设您的录音级别设置正确,并且您的麦克风和扬声器具有相对平坦的频率响应,您仍将根据环境变换声音的频率剖面

这种效果在播放时可能不会立即明显,但会有许多声音元素受到不利影响。作曲家们使用了这一方法,效果很好

看看阿尔文·卢西尔的《我正坐在一个房间里》,这是一个很好的例子

您在该录音中听到的许多瞬时涂抹效果都会显著影响语音分析,因此需要非常详细地考虑录音的设置。可能最好向音响工程师咨询录音设置的技巧,因为这似乎是您一直在努力解决的问题。 e、 g.你没有提到你正在使用的房间的声学特性或音频设置


您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应,然后用脉冲对录制的语音进行去卷积,这在理论上会将录制减少到原始信号的完美表现。这是个棘手的问题,但可能会带来令人瞠目结舌的结果。

这在很大程度上取决于录音的环境因素,包括房间、扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能能够帮助您清理这些内容,但获得一个干净的记录将是影响软件分析能力的最重要因素

假设您的录音级别设置正确,并且您的麦克风和扬声器具有相对平坦的频率响应,您仍将根据环境变换声音的频率剖面

这种效果在播放时可能不会立即明显,但会有许多声音元素受到不利影响。作曲家们使用了这一方法,效果很好

看看阿尔文·卢西尔的《我正坐在一个房间里》,这是一个很好的例子

您在该录音中听到的许多瞬时涂抹效果都会显著影响语音分析,因此需要非常详细地考虑录音的设置。可能最好向音响工程师咨询录音设置的技巧,因为这似乎是您一直在努力解决的问题。 e、 g.你没有提到你正在使用的房间的声学特性或音频设置


您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应,然后用脉冲对录制的语音进行去卷积,这在理论上会将录制减少到原始信号的完美表现。这是一个棘手的问题,但可能会带来令人瞠目结舌的结果。

上采样无法恢复从未记录过的信息。f_原件上记录的最高可能频率为8000hz(奈奎斯特频率)。向上采样,最高的源频率仍然是8000hz,而麦克风录音可以记录高达20000Hz的频率。这可以解释你所看到的一些差异。而且,记录水平非常重要。如果您的声音将输入电平推到0 db以上,则表示您对波形进行了数字硬剪裁。当这种情况发生时,音频信息会消失,高振幅谐波伪影会突然出现。如果录音级别太低,则音量每损失3db,就会损失1位数字精度,并以同样的数量增加噪音。@罗伯特哈维:关于上采样,我也尝试过另一种方法-在不做修改的情况下从f_原稿中提取特征,并将现场音频信号下采样到16000Hz,但这没有帮助,信号仍然不同。我还测试了不同的录音级别(在windows上为100、75、50和25),但这也不起作用。但我发现,更高的水平更接近原始信号。也在看光谱图