Neural network 注意逐字符方式中的文本生成

Neural network 注意逐字符方式中的文本生成,neural-network,nlp,pytorch,transformer,attention-model,Neural Network,Nlp,Pytorch,Transformer,Attention Model,我在网上搜索了几天,寻找任何只使用注意力机制的文本生成模型 在Seq-to-Seq模型中引起轰动的Transformer体系结构实际上完全基于注意力机制,但主要用于翻译或聊天机器人任务,因此它不符合目的,但其原理确实如此 我的问题是: 是否有人知道或听说过一种仅基于注意力的文本生成模式,而不会重复出现 非常感谢 另外,我熟悉PyTorch,建立一个角色级的自我关注模型是一项具有挑战性的任务。字符级模型通常基于RNN。然而,在单词/子单词模型中,从一开始就很清楚什么是具有意义的单元(因此注意机制可

我在网上搜索了几天,寻找任何只使用注意力机制的文本生成模型

Seq-to-Seq模型中引起轰动的Transformer体系结构实际上完全基于注意力机制,但主要用于翻译或聊天机器人任务,因此它不符合目的,但其原理确实如此

我的问题是:

是否有人知道或听说过一种仅基于注意力的文本生成模式,而不会重复出现

非常感谢


另外,我熟悉PyTorch,建立一个角色级的自我关注模型是一项具有挑战性的任务。字符级模型通常基于RNN。然而,在单词/子单词模型中,从一开始就很清楚什么是具有意义的单元(因此注意机制可以关注的单元),字符级模型需要在以下层次中学习单词的意义。这使得模型很难学习

文本生成模型只不过是条件语言模型。谷歌人工智能最近发表了一篇关于谷歌的论文,但这是我所知道的唯一一项工作


无论如何,你应该考虑使用子词单位(如BPE,StaveCube),或者如果你真的需要去字符级,使用RNNs代替。< /P>优秀的论文!非常感谢,先生!据我所知,变压器是顺序模型,所以它们不是生成模型。即使是GPT-2,在解码器中生成故事之前也需要一个主题短语输入编码器。你是说里面没有RNN(没有LSTM和GRU)?是的,先生。无复发,即使有,也应注意中心部位。