Audio 将文本映射到Mel光谱图,并将文本转换为Tacotron 2中的输入特征表示
我试图理解文本是如何转换成Mel光谱图的 我很难理解文本如何根据所附的图映射到Mel光谱图,以及每个块内部的内容(字符嵌入、3个conv层和双向LSTM)从另一个图中可以看出,正在根据论文Tacotron-2将文本转换为输入特征表示 我看过几篇在线文章,但没有找到解释。因此,请帮助解释它是如何工作的 ,,Audio 将文本映射到Mel光谱图,并将文本转换为Tacotron 2中的输入特征表示,audio,deep-learning,nlp,audio-processing,spectrogram,Audio,Deep Learning,Nlp,Audio Processing,Spectrogram,我试图理解文本是如何转换成Mel光谱图的 我很难理解文本如何根据所附的图映射到Mel光谱图,以及每个块内部的内容(字符嵌入、3个conv层和双向LSTM)从另一个图中可以看出,正在根据论文Tacotron-2将文本转换为输入特征表示 我看过几篇在线文章,但没有找到解释。因此,请帮助解释它是如何工作的 ,,