Python 重新创建用于生成文本的字符级RNN

Python 重新创建用于生成文本的字符级RNN,python,keras,nlp,pytorch,recurrent-neural-network,Python,Keras,Nlp,Pytorch,Recurrent Neural Network,我想看一本关于深度学习的书,书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码(也是在线的:)是用keras编写的,我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它 因此,在重新创建它并使其正常工作后,它对它进行了训练,只学会了编写最常见的字符,即空格。然后我试图在一个真正简单的句子中过多地使用它,所以我不得不将序列长度减少到8。这也不起作用,但当将LSTM的隐藏大小减小到仅32

我想看一本关于深度学习的书,书中有一章是关于以示例的形式生成文本的。他们使用带有两个LSTM层的字符级RNN生成shakespare样式的文本。但是书中的代码(也是在线的:)是用keras编写的,我只使用pytorch。所以我决定在pytorch中用同样的网络结构和超参数重新创建它

因此,在重新创建它并使其正常工作后,它对它进行了训练,只学会了编写最常见的字符,即空格。然后我试图在一个真正简单的句子中过多地使用它,所以我不得不将序列长度减少到8。这也不起作用,但当将LSTM的隐藏大小减小到仅32时,它几乎完美地了解了这一点。 然后我继续写原始文本,开始使用隐藏的大小、学习速度、优化器(也尝试了adam),并对其进行更长时间的训练。我所能做到的最好的是一些随机的字母,仍然有很多空格,有时像“她”,但远不可读,仍然有相当高的损失。我使用了lr=0.01的RMSprop,隐藏大小为128,超过20000个纪元。我还尝试将隐藏状态和单元格状态初始化为零

问题是,我的结果比书中的结果差得多,但我在pytorch中也做了同样的事情。有人能告诉我,我应该尝试什么,或者我做错了什么。感谢您的帮助 PS:对不起,我的英语不好

以下是我的原始超参数代码:

#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2

#network structure
class RNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.lstm = nn.LSTM(len(chars),hidden_size,layers)
        self.linear = nn.Linear(hidden_size,len(chars))
        self.softmax = nn.Softmax(dim=2)
    def forward(self,x,h,c):
        x,(h,c) = self.lstm(x,(h,c))
        x = self.softmax(self.linear(x))
        return x,h,c

#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()

#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
    #generate input and target filled with zeros
    input = numpy.zeros((seq_len,batch_size,len(chars)))
    target = numpy.zeros((seq_len,batch_size))
    for batch in range(batch_size):
        #choose random starting index in text
        start = random.randrange(len(text)-seq_len-1)
        #generate sequences for that batch filled with zeros
        input_seq = numpy.zeros((seq_len+1,len(chars)))
        target_seq = numpy.zeros((seq_len+1))
        for i,char in enumerate(text[start:start+seq_len+1]):
            #convert character to index
            idx = char_to_idx[char]
            #set value of index to one (one-hot-encoding)
            input_seq[i,idx] = 1
            #set value to index (only label)
            target_seq[i] = idx
        #insert sequences into input and target
        input[:,batch,:] = input_seq[:-1]
        target[:,batch] = target_seq[1:]
    #convert input and target from numpy array to pytorch tensor on gpu
    input = torch.from_numpy(input).float().cuda()
    target = torch.from_numpy(target).long().cuda()

    #initialize hidden state and cell state to zero
    h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    #run the network on the input
    output,h,c = rnn(input,h0,c0)
    #calculate loss and perform gradient descent
    optimizer.zero_grad()
    loss = criterion(output.view(-1,len(chars)),target.view(-1))
    loss.backward()
    optimizer.step()

损失与原始超参数的关系图:

培训后的目标和输出示例:

Target:  can bring this instrument of honour
    again into his native quarter, be magnanimous in the enterprise,
    and go on; I will grace the attempt for a worthy e
Output:                                                                                                                                                                 
损失图,隐藏大小为128,超过20000个纪元(最佳结果):

我后来终于找到了一种接近真实句子的方法,也许它会对某人有所帮助。以下是一个示例结果:

-我没有见过他,王子是一个挥霍国王财产的人

在我的案例中,重要的变化是不要将隐藏和细胞状态化为每批零,而只在每一个时期。为了实现这一点,我必须重写批处理生成器,以便它能够生成后续的批处理