Python 重新创建用于生成文本的字符级RNN
我想看一本关于深度学习的书,书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码(也是在线的:)是用keras编写的,我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它 因此,在重新创建它并使其正常工作后,它对它进行了训练,只学会了编写最常见的字符,即空格。然后我试图在一个真正简单的句子中过多地使用它,所以我不得不将序列长度减少到8。这也不起作用,但当将LSTM的隐藏大小减小到仅32时,它几乎完美地了解了这一点。 然后我继续写原始文本,开始使用隐藏的大小、学习速度、优化器(也尝试了adam),并对其进行更长时间的训练。我所能做到的最好的是一些随机的字母,仍然有很多空格,有时像“她”,但远不可读,仍然有相当高的损失。我使用了lr=0.01的RMSprop,隐藏大小为128,超过20000个纪元。我还尝试将隐藏状态和单元格状态初始化为零 问题是,我的结果比书中的结果差得多,但我在pytorch中也做了同样的事情。有人能告诉我,我应该尝试什么,或者我做错了什么。感谢您的帮助强> PS:对不起,我的英语不好 以下是我的原始超参数代码:Python 重新创建用于生成文本的字符级RNN,python,keras,nlp,pytorch,recurrent-neural-network,Python,Keras,Nlp,Pytorch,Recurrent Neural Network,我想看一本关于深度学习的书,书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码(也是在线的:)是用keras编写的,我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它 因此,在重新创建它并使其正常工作后,它对它进行了训练,只学会了编写最常见的字符,即空格。然后我试图在一个真正简单的句子中过多地使用它,所以我不得不将序列长度减少到8。这也不起作用,但当将LSTM的隐藏大小减小到仅32
#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2
#network structure
class RNN(nn.Module):
def __init__(self):
super().__init__()
self.lstm = nn.LSTM(len(chars),hidden_size,layers)
self.linear = nn.Linear(hidden_size,len(chars))
self.softmax = nn.Softmax(dim=2)
def forward(self,x,h,c):
x,(h,c) = self.lstm(x,(h,c))
x = self.softmax(self.linear(x))
return x,h,c
#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()
#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
#generate input and target filled with zeros
input = numpy.zeros((seq_len,batch_size,len(chars)))
target = numpy.zeros((seq_len,batch_size))
for batch in range(batch_size):
#choose random starting index in text
start = random.randrange(len(text)-seq_len-1)
#generate sequences for that batch filled with zeros
input_seq = numpy.zeros((seq_len+1,len(chars)))
target_seq = numpy.zeros((seq_len+1))
for i,char in enumerate(text[start:start+seq_len+1]):
#convert character to index
idx = char_to_idx[char]
#set value of index to one (one-hot-encoding)
input_seq[i,idx] = 1
#set value to index (only label)
target_seq[i] = idx
#insert sequences into input and target
input[:,batch,:] = input_seq[:-1]
target[:,batch] = target_seq[1:]
#convert input and target from numpy array to pytorch tensor on gpu
input = torch.from_numpy(input).float().cuda()
target = torch.from_numpy(target).long().cuda()
#initialize hidden state and cell state to zero
h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
#run the network on the input
output,h,c = rnn(input,h0,c0)
#calculate loss and perform gradient descent
optimizer.zero_grad()
loss = criterion(output.view(-1,len(chars)),target.view(-1))
loss.backward()
optimizer.step()
损失与原始超参数的关系图:
培训后的目标和输出示例:
Target: can bring this instrument of honour
again into his native quarter, be magnanimous in the enterprise,
and go on; I will grace the attempt for a worthy e
Output:
损失图,隐藏大小为128,超过20000个纪元(最佳结果):
我后来终于找到了一种接近真实句子的方法,也许它会对某人有所帮助。以下是一个示例结果: -我没有见过他,王子是一个挥霍国王财产的人 在我的案例中,重要的变化是不要将隐藏和细胞状态化为每批零,而只在每一个时期。为了实现这一点,我必须重写批处理生成器,以便它能够生成后续的批处理