Algorithm 如何生成相关文本？_Algorithm_Language Agnostic_Nlp_Probability Theory_Gensim

Algorithm 如何生成相关文本？

algorithm language-agnostic nlp

Algorithm 如何生成相关文本？,algorithm,language-agnostic,nlp,probability-theory,gensim,Algorithm,Language Agnostic,Nlp,Probability Theory,Gensim,我想做的是，获取一个文本训练集（自然语言），并使用自动创建的文本增加该训练集，该文本试图模仿文本内容。我使用的是一包单词假设，顺序不重要，语法不重要，我只想创建包含与基本主题相关的单词的文本现在我正在使用潜在Dirichlet分配对主题分布中的文档进行分类，平均我集合的主题分布，并从这些主题分布生成文档我想知道两件事： 1-有更好的方法吗 2-我可以用不属于我的集合域的文本训练LDA吗，在不影响我的主题的情况下：例如，我想增加的设置已经完成关于政治的文本。我可以用任何文本训练我的模型吗

我想做的是，获取一个文本训练集（自然语言），并使用自动创建的文本增加该训练集，该文本试图模仿文本内容。我使用的是一包单词假设，顺序不重要，语法不重要，我只想创建包含与基本主题相关的单词的文本

现在我正在使用潜在Dirichlet分配对主题分布中的文档进行分类，平均我集合的主题分布，并从这些主题分布生成文档

我想知道两件事：

1-有更好的方法吗

2-我可以用不属于我的集合域的文本训练LDA吗，在不影响我的主题的情况下：例如，我想增加的设置已经完成关于政治的文本。我可以用任何文本训练我的模型吗（汽车、时尚、音乐）和分类我的政治基础文本获得其主题分布，并由此分布生成类似文本

我正在使用Python2.7和gensim。

可能就是您想要的

发件人：

生成（长度=100）

打印随机文本，使用三元语言模型

参数：

长度（int）–要生成的文本的长度（默认值=100）

我觉得你的问题太模糊了。如果你不关心单词的顺序，你只是生成了一些单词的随机集合，这些单词对人类来说并不像句子和段落那样有意义。在这种情况下，您如何准确评估相关性？我们需要对相关性有一个更精确的定义，或者你需要告诉我们你正在用你正在生成的单词包做什么，这样我们就可以确定需要优化的是什么。你只需要生成一个带有n-gram的马尔可夫语言模型，然后通过计算下一个单词的最大概率，开始随机选择连续的单词。