Audio 文件和麦克风录音之间的音频信号差异_Audio_Audio Recording_Audio Processing_Portaudio_Emotion

Audio 文件和麦克风录音之间的音频信号差异

audio

Audio 文件和麦克风录音之间的音频信号差异,audio,audio-recording,audio-processing,portaudio,emotion,Audio,Audio Recording,Audio Processing,Portaudio,Emotion,我正在为现场录音开发一个语音情感识别系统。我正在使用该库进行特征提取。我收集了一组包含不同语音类型的音频文件，并从中提取特征，训练基于SVM的分类器进行情感识别。然而，在现场演讲测试中，这完全失败了。原因是现场语音中的信号和特征分布（MFCC、LSP、基音、强度、F0）与文件中的信号和特征分布（MFCC、LSP、基音、强度、F0）大不相同。OpenSMILE库用于访问来自麦克风的音频信号我试着在空中播放一个文件（f_原创），通过麦克风录制，然后让OpenSMILE保存（f_失真）。我发现f_原

我正在为现场录音开发一个语音情感识别系统。我正在使用该库进行特征提取。我收集了一组包含不同语音类型的音频文件，并从中提取特征，训练基于SVM的分类器进行情感识别。然而，在现场演讲测试中，这完全失败了。原因是现场语音中的信号和特征分布（MFCC、LSP、基音、强度、F0）与文件中的信号和特征分布（MFCC、LSP、基音、强度、F0）大不相同。OpenSMILE库用于访问来自麦克风的音频信号

我试着在空中播放一个文件（f_原创），通过麦克风录制，然后让OpenSMILE保存（f_失真）。我发现f_原音和f_失真在演奏时对人耳的声音没有太大的不同。然而，当在中可视化时，音频信号差别很大，从f_原始和f_失真中提取的特征差别很大。文件f_的原始频率为16000Hz，在特征提取之前，我将其采样频率提高到44100Hz。麦克风以44100Hz的频率录音

虽然我确实希望通过麦克风录音时会出现一些失真，但我看到的失真程度是极端的

还有其他人面临过类似的问题吗？任何关于如何解决这个问题的建议

谢谢

这在很大程度上取决于录音的环境因素，包括录音室、扬声器/麦克风组合的频率响应及其在录音室内的类型/位置。该软件可能能够帮助您清理这些内容，但获得一个干净的记录将是影响软件分析能力的最重要因素

假设您的录音级别设置正确，并且您的麦克风和扬声器具有相对平坦的频率响应，您仍将根据环境变换声音的频率剖面

这种效果在播放时可能不会立即明显，但会有许多声音元素受到不利影响。作曲家们使用了这一方法，效果很好

看看阿尔文·卢西尔的《我正坐在一个房间里》，这是一个很好的例子

您在该录音中听到的许多瞬时涂抹效果都会显著影响语音分析，因此需要非常详细地考虑录音的设置。可能最好向音响工程师咨询录音设置的技巧，因为这似乎是您一直在努力解决的问题。 e、 g.你没有提到你正在使用的房间的声学特性或音频设置

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应，然后用脉冲对录制的语音进行去卷积，这在理论上会将录制减少到原始信号的完美表现。这是个棘手的问题，但可能会带来令人瞠目结舌的结果。

这在很大程度上取决于录音的环境因素，包括房间、扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能能够帮助您清理这些内容，但获得一个干净的记录将是影响软件分析能力的最重要因素

假设您的录音级别设置正确，并且您的麦克风和扬声器具有相对平坦的频率响应，您仍将根据环境变换声音的频率剖面

这种效果在播放时可能不会立即明显，但会有许多声音元素受到不利影响。作曲家们使用了这一方法，效果很好

看看阿尔文·卢西尔的《我正坐在一个房间里》，这是一个很好的例子

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应，然后用脉冲对录制的语音进行去卷积，这在理论上会将录制减少到原始信号的完美表现。这是一个棘手的问题，但可能会带来令人瞠目结舌的结果。

上采样无法恢复从未记录过的信息。f_原件上记录的最高可能频率为8000hz（奈奎斯特频率）。向上采样，最高的源频率仍然是8000hz，而麦克风录音可以记录高达20000Hz的频率。这可以解释你所看到的一些差异。而且，记录水平非常重要。如果您的声音将输入电平推到0 db以上，则表示您对波形进行了数字硬剪裁。当这种情况发生时，音频信息会消失，高振幅谐波伪影会突然出现。如果录音级别太低，则音量每损失3db，就会损失1位数字精度，并以同样的数量增加噪音。@罗伯特哈维：关于上采样，我也尝试过另一种方法-在不做修改的情况下从f_原稿中提取特征，并将现场音频信号下采样到16000Hz，但这没有帮助，信号仍然不同。我还测试了不同的录音级别（在windows上为100、75、50和25），但这也不起作用。但我发现，更高的水平更接近原始信号。也在看光谱图