Python 提取的Mel光谱的最后一个维度是4 我不熟悉语音识别 我计划提取音频数据的Mel光谱,但我打印出了img.shape,发现它的维度是(650,20000,4),最后一个维度是4,我不知道为什么

Python 提取的Mel光谱的最后一个维度是4 我不熟悉语音识别 我计划提取音频数据的Mel光谱,但我打印出了img.shape,发现它的维度是(650,20000,4),最后一个维度是4,我不知道为什么,python,pycharm,mel,spectrum,librosa,Python,Pycharm,Mel,Spectrum,Librosa,下面是我的代码函数 def read_wav_data(filename): y, sr = librosa.load(filename, sr=None) return y, sr def GetFrequencyFeature5(y, sr): melspec = librosa.feature.melspectrogram(y, sr, n_fft=1024, hop_length=16, n_mels=32, fmin=50, fmax=350) log

下面是我的代码函数

def read_wav_data(filename):
    y, sr = librosa.load(filename, sr=None)
    return y, sr

def GetFrequencyFeature5(y, sr):
    melspec = librosa.feature.melspectrogram(y, sr, n_fft=1024, hop_length=16, n_mels=32, fmin=50, fmax=350)
    logmelspec = librosa.power_to_db(melspec)
    print(logmelspec)
    print(logmelspec.shape)
    plt.figure()
    file = librosa.display.specshow(logmelspec, sr=sr, x_axis='time', y_axis='mel', fmin=50, fmax=350)
    plt.title('Beat wavform')
    plt.save(file.png)
    # img = mpimg.imread(file.png)
    plt.show()
    # return img


librosa是否打印有关Mel波段的任何警告
fmax
似乎很低,您是否尝试将其增加到4000。当您这样做时,您的Mel频谱图的形状是否会改变?谢谢您的回答,提取Mel频谱时没有警告,我们在本任务中选择的是[50,350]Hz,以覆盖人类音调的F0范围,我尝试将fmax修改为2000,第三维度值仍然为4。librosa是否打印任何有关Mel标注栏的警告
fmax
似乎很低,您是否尝试将其增加到4000。当你这样做的时候,你的Mel光谱图的形状是什么形状?谢谢你的回答,在提取Mel光谱时没有警告,我们在这个任务中选择的是[50,350]Hz,以覆盖人类音调的F0范围,我尝试将fmax修改为2000,第三维度值仍然是4。