Python 重新创建用于生成文本的字符级RNN_Python_Keras_Nlp_Pytorch_Recurrent Neural Network

Python 重新创建用于生成文本的字符级RNN

python keras nlp pytorch

Python 重新创建用于生成文本的字符级RNN,python,keras,nlp,pytorch,recurrent-neural-network,Python,Keras,Nlp,Pytorch,Recurrent Neural Network,我想看一本关于深度学习的书，书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码（也是在线的：）是用keras编写的，我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它因此，在重新创建它并使其正常工作后，它对它进行了训练，只学会了编写最常见的字符，即空格。然后我试图在一个真正简单的句子中过多地使用它，所以我不得不将序列长度减少到8。这也不起作用，但当将LSTM的隐藏大小减小到仅32

我想看一本关于深度学习的书，书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码（也是在线的：）是用keras编写的，我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它

因此，在重新创建它并使其正常工作后，它对它进行了训练，只学会了编写最常见的字符，即空格。然后我试图在一个真正简单的句子中过多地使用它，所以我不得不将序列长度减少到8。这也不起作用，但当将LSTM的隐藏大小减小到仅32时，它几乎完美地了解了这一点。然后我继续写原始文本，开始使用隐藏的大小、学习速度、优化器（也尝试了adam），并对其进行更长时间的训练。我所能做到的最好的是一些随机的字母，仍然有很多空格，有时像“她”，但远不可读，仍然有相当高的损失。我使用了lr=0.01的RMSprop，隐藏大小为128，超过20000个纪元。我还尝试将隐藏状态和单元格状态初始化为零

问题是，我的结果比书中的结果差得多，但我在pytorch中也做了同样的事情。有人能告诉我，我应该尝试什么，或者我做错了什么。感谢您的帮助 PS：对不起，我的英语不好
以下是我的原始超参数代码：

#hyperparameters batch_size = 256 seq_len = 160 hidden_size = 640 layers = 2 #network structure class RNN(nn.Module): def __init__(self): super().__init__() self.lstm = nn.LSTM(len(chars),hidden_size,layers) self.linear = nn.Linear(hidden_size,len(chars)) self.softmax = nn.Softmax(dim=2) def forward(self,x,h,c): x,(h,c) = self.lstm(x,(h,c)) x = self.softmax(self.linear(x)) return x,h,c #create network, optimizer and criterion rnn = RNN().cuda() optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01) criterion = nn.CrossEntropyLoss() #training loop plt.ion() losses = [] loss_sum = 0 for epoch in range(10000): #generate input and target filled with zeros input = numpy.zeros((seq_len,batch_size,len(chars))) target = numpy.zeros((seq_len,batch_size)) for batch in range(batch_size): #choose random starting index in text start = random.randrange(len(text)-seq_len-1) #generate sequences for that batch filled with zeros input_seq = numpy.zeros((seq_len+1,len(chars))) target_seq = numpy.zeros((seq_len+1)) for i,char in enumerate(text[start:start+seq_len+1]): #convert character to index idx = char_to_idx[char] #set value of index to one (one-hot-encoding) input_seq[i,idx] = 1 #set value to index (only label) target_seq[i] = idx #insert sequences into input and target input[:,batch,:] = input_seq[:-1] target[:,batch] = target_seq[1:] #convert input and target from numpy array to pytorch tensor on gpu input = torch.from_numpy(input).float().cuda() target = torch.from_numpy(target).long().cuda() #initialize hidden state and cell state to zero h0 = torch.zeros(layers,batch_size,hidden_size).cuda() c0 = torch.zeros(layers,batch_size,hidden_size).cuda() #run the network on the input output,h,c = rnn(input,h0,c0) #calculate loss and perform gradient descent optimizer.zero_grad() loss = criterion(output.view(-1,len(chars)),target.view(-1)) loss.backward() optimizer.step()
损失与原始超参数的关系图：
培训后的目标和输出示例：

Target: can bring this instrument of honour again into his native quarter, be magnanimous in the enterprise, and go on; I will grace the attempt for a worthy e Output:
损失图，隐藏大小为128，超过20000个纪元（最佳结果）：
我后来终于找到了一种接近真实句子的方法，也许它会对某人有所帮助。以下是一个示例结果：
-我没有见过他，王子是一个挥霍国王财产的人
在我的案例中，重要的变化是不要将隐藏和细胞状态化为每批零，而只在每一个时期。为了实现这一点，我必须重写批处理生成器，以便它能够生成后续的批处理