Deep learning 在较大图像上使用VAE-GAN结构_Deep Learning_Computer Vision

Deep learning 在较大图像上使用VAE-GAN结构

deep-learning computer-vision

Deep learning 在较大图像上使用VAE-GAN结构,deep-learning,computer-vision,Deep Learning,Computer Vision,我正在使用一种最初用于低分辨率图像（mnist，faces）的VAE-GAN体系结构来训练分辨率高得多的音频频谱图。有人对该体系结构的改变有什么建议吗我能想到的几件事——增加内核大小，增加层/节点的数量。但训练已经相当慢了任何想法都值得赞赏而声谱图是二维的。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示，人们确实使用vae搜索音频数据，搜索“音频vae”。这篇文章（VQ-vae）似乎与您正在寻找的内容有关，而音频频谱图是2

我正在使用一种最初用于低分辨率图像（mnist，faces）的VAE-GAN体系结构来训练分辨率高得多的音频频谱图。有人对该体系结构的改变有什么建议吗

我能想到的几件事——增加内核大小，增加层/节点的数量。但训练已经相当慢了

任何想法都值得赞赏

而声谱图是二维的。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示，人们确实使用vae搜索音频数据，搜索“音频vae”。这篇文章（VQ-vae）似乎与您正在寻找的内容有关，而音频频谱图是2d。。。我不确定人们是否使用卷积神经网络作为音频的前几层。。。我想到的是递归神经网络。。我是LSTM。谷歌快速搜索显示，人们确实使用vae搜索音频数据，搜索“音频vae”。这篇文章（VQ-vae）似乎与您正在寻找的内容有关