Python 提取的Mel光谱的最后一个维度是4 我不熟悉语音识别 我计划提取音频数据的Mel光谱,但我打印出了img.shape,发现它的维度是(650,20000,4),最后一个维度是4,我不知道为什么
下面是我的代码函数Python 提取的Mel光谱的最后一个维度是4 我不熟悉语音识别 我计划提取音频数据的Mel光谱,但我打印出了img.shape,发现它的维度是(650,20000,4),最后一个维度是4,我不知道为什么,python,pycharm,mel,spectrum,librosa,Python,Pycharm,Mel,Spectrum,Librosa,下面是我的代码函数 def read_wav_data(filename): y, sr = librosa.load(filename, sr=None) return y, sr def GetFrequencyFeature5(y, sr): melspec = librosa.feature.melspectrogram(y, sr, n_fft=1024, hop_length=16, n_mels=32, fmin=50, fmax=350) log
def read_wav_data(filename):
y, sr = librosa.load(filename, sr=None)
return y, sr
def GetFrequencyFeature5(y, sr):
melspec = librosa.feature.melspectrogram(y, sr, n_fft=1024, hop_length=16, n_mels=32, fmin=50, fmax=350)
logmelspec = librosa.power_to_db(melspec)
print(logmelspec)
print(logmelspec.shape)
plt.figure()
file = librosa.display.specshow(logmelspec, sr=sr, x_axis='time', y_axis='mel', fmin=50, fmax=350)
plt.title('Beat wavform')
plt.save(file.png)
# img = mpimg.imread(file.png)
plt.show()
# return img
librosa是否打印有关Mel波段的任何警告
fmax
似乎很低,您是否尝试将其增加到4000。当您这样做时,您的Mel频谱图的形状是否会改变?谢谢您的回答,提取Mel频谱时没有警告,我们在本任务中选择的是[50,350]Hz,以覆盖人类音调的F0范围,我尝试将fmax修改为2000,第三维度值仍然为4。librosa是否打印任何有关Mel标注栏的警告fmax
似乎很低,您是否尝试将其增加到4000。当你这样做的时候,你的Mel光谱图的形状是什么形状?谢谢你的回答,在提取Mel光谱时没有警告,我们在这个任务中选择的是[50,350]Hz,以覆盖人类音调的F0范围,我尝试将fmax修改为2000,第三维度值仍然是4。