Algorithm 如何生成相关文本?

Algorithm 如何生成相关文本?,algorithm,language-agnostic,nlp,probability-theory,gensim,Algorithm,Language Agnostic,Nlp,Probability Theory,Gensim,我想做的是,获取一个文本训练集(自然语言),并使用自动创建的文本增加该训练集,该文本试图模仿文本内容。我使用的是一包单词假设,顺序不重要,语法不重要,我只想创建包含与基本主题相关的单词的文本 现在我正在使用潜在Dirichlet分配对主题分布中的文档进行分类,平均我集合的主题分布,并从这些主题分布生成文档 我想知道两件事: 1-有更好的方法吗 2-我可以用不属于我的集合域的文本训练LDA吗, 在不影响我的主题的情况下:例如,我想增加的设置已经完成 关于政治的文本。我可以用任何文本训练我的模型吗

我想做的是,获取一个文本训练集(自然语言),并使用自动创建的文本增加该训练集,该文本试图模仿文本内容。我使用的是一包单词假设,顺序不重要,语法不重要,我只想创建包含与基本主题相关的单词的文本

现在我正在使用潜在Dirichlet分配对主题分布中的文档进行分类,平均我集合的主题分布,并从这些主题分布生成文档

我想知道两件事:

1-有更好的方法吗

2-我可以用不属于我的集合域的文本训练LDA吗, 在不影响我的主题的情况下:例如,我想增加的设置已经完成 关于政治的文本。我可以用任何文本训练我的模型吗 (汽车、时尚、音乐)和分类我的政治基础文本获得其主题分布,并由此分布生成类似文本

我正在使用Python2.7和gensim。

可能就是您想要的

发件人:

生成(长度=100)

打印随机文本,使用 三元语言模型

参数:

长度(int)–要生成的文本的长度(默认值=100)


我觉得你的问题太模糊了。如果你不关心单词的顺序,你只是生成了一些单词的随机集合,这些单词对人类来说并不像句子和段落那样有意义。在这种情况下,您如何准确评估相关性?我们需要对相关性有一个更精确的定义,或者你需要告诉我们你正在用你正在生成的单词包做什么,这样我们就可以确定需要优化的是什么。你只需要生成一个带有n-gram的马尔可夫语言模型,然后通过计算下一个单词的最大概率,开始随机选择连续的单词。