Deep learning 在较大图像上使用VAE-GAN结构

Deep learning 在较大图像上使用VAE-GAN结构,deep-learning,computer-vision,Deep Learning,Computer Vision,我正在使用一种最初用于低分辨率图像(mnist,faces)的VAE-GAN体系结构来训练分辨率高得多的音频频谱图。有人对该体系结构的改变有什么建议吗 我能想到的几件事——增加内核大小,增加层/节点的数量。但训练已经相当慢了 任何想法都值得赞赏 而声谱图是二维的。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示,人们确实使用vae搜索音频数据,搜索“音频vae”。这篇文章(VQ-vae)似乎与您正在寻找的内容有关,而音频频谱图是2

我正在使用一种最初用于低分辨率图像(mnist,faces)的VAE-GAN体系结构来训练分辨率高得多的音频频谱图。有人对该体系结构的改变有什么建议吗

我能想到的几件事——增加内核大小,增加层/节点的数量。但训练已经相当慢了


任何想法都值得赞赏

而声谱图是二维的。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示,人们确实使用vae搜索音频数据,搜索“音频vae”。这篇文章(VQ-vae)似乎与您正在寻找的内容有关,而音频频谱图是2d。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示,人们确实使用vae搜索音频数据,搜索“音频vae”。这篇文章(VQ-vae)似乎与您正在寻找的内容有关