Deep learning 文本生成的深度学习方法(Pytork)

Deep learning 文本生成的深度学习方法(Pytork),deep-learning,nlp,pytorch,nlg,Deep Learning,Nlp,Pytorch,Nlg,大家好, 我想设计一个系统,能够基于大量文本数据集生成故事或诗歌,而无需在推理时输入文本描述/开始/摘要。 到目前为止,我使用的是RNN,但正如您所知,它们有很多缺陷。我的问题是,目前实现这项任务的最佳方法是什么? 我用注意力机制寻找可能性,但结果发现它们适合翻译任务 我知道GPT-2、Bert、Transformer等,但在生成之前,它们都需要一个文本描述作为输入,这不是我想要的。我想要一个能够在培训后从头开始生成故事的系统 非常感谢 编辑 所以评论是:我想从头开始生成文本,而不是在推理时从给

大家好,

我想设计一个系统,能够基于大量文本数据集生成故事或诗歌,而无需在推理时输入文本描述/开始/摘要。

到目前为止,我使用的是RNN,但正如您所知,它们有很多缺陷。我的问题是,目前实现这项任务的最佳方法是什么? 我用注意力机制寻找可能性,但结果发现它们适合翻译任务

我知道GPT-2、Bert、Transformer等,但在生成之前,它们都需要一个文本描述作为输入,这不是我想要的。我想要一个能够在培训后从头开始生成故事的系统

非常感谢

编辑

所以评论是:
我想从头开始生成文本,而不是在推理时从给定的句子开始。我希望它有意义。

是的,您可以做到这一点,这只是在现成模型之上的简单代码操作,无论是基于BERT、GPT-2还是基于LSTM的RNN

怎么做?您必须向模型提供随机输入。这种随机输入可以是随机选择的单词或短语,也可以只是一个零向量

希望能有帮助


你把这里的几件事搞混了

您可以使用基于LSTM或基于转换器的体系结构来实现您想要的

当你们说你们用RNN做的时候,你们可能是说你们已经尝试了基于LSTM的序列到序列模型

现在,你的问题引起了注意。所以你可以利用注意力来改善你的RNN,但这不是一个必要的条件。但是,如果您使用transformer架构,那么它将构建在transformer块中

GPT-2只是一个基于变压器的模型。它的构造块是一个转换器架构

BERT也是另一种基于转换器的体系结构

所以为了回答您的问题,您应该并且可以尝试使用基于LSTM或基于transformer的体系结构来实现您想要的。有时这种架构被称为GPT-2,有时则取决于它的实现方式

我鼓励您阅读Karpath的这本经典著作,如果您理解了它,那么您已经澄清了大部分问题:


请考虑看一下。你的问题在目前的状态下不仅非常广泛,而且缺乏明确的先前努力的迹象(考虑一下问题),并且通过寻求建议吸引了固执己见的答案。另外,你提出的一些理论性问题可能也更适合我,但我对他们的主题政策并不完全熟悉。我的意思是,在所有的Seq-2-Seq模型中,您需要向编码器提供一个输入短语,即使该模型被称为GPT、Bert等,我不希望这样。我想从头开始生成文本,而不是在推理时从给定的句子开始。我希望这是有意义的。在这种情况下,变压器的注意机制是非常无用的,对吗?我的意思是,当我们操纵潜伏期时,我们没有任何需要注意的编码器输入。