Text 用于生成随机但真实的文本的库或工具

Text 用于生成随机但真实的文本的库或工具,text,random,markov-chains,Text,Random,Markov Chains,我正在寻找生成随机但真实文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但我改进它们的尝试并没有取得任何成功 我很乐意使用使用语料库或基于上下文敏感或上下文无关语法的工具。我希望该工具适合纳入另一个项目。 我最近的工作大部分都是用java语言编写的,所以在语言中使用工具是首选,但是我对C语言、C语言、C++语言甚至JavaScript都很好。 这与此类似,但范围更大。类似于Lorem ipsum生成器?还有几个API的链接。如果您想要“随机”文本,扩展您自己的马尔可夫链生成器

我正在寻找生成随机但真实文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但我改进它们的尝试并没有取得任何成功

我很乐意使用使用语料库或基于上下文敏感或上下文无关语法的工具。我希望该工具适合纳入另一个项目。 我最近的工作大部分都是用java语言编写的,所以在语言中使用工具是首选,但是我对C语言、C语言、C++语言甚至JavaScript都很好。
这与此类似,但范围更大。

类似于Lorem ipsum生成器?还有几个API的链接。

如果您想要“随机”文本,扩展您自己的马尔可夫链生成器可能是最佳选择。生成具有上下文的内容是一个开放的研究问题

尝试(如果您没有):

  • 单独标记标点符号,或者在链中包含标点符号(如果尚未标记的话)。这包括段落标记
  • 如果您使用的是2或3历史马尔可夫链,当遇到句号或换行符时,请尝试重置为使用1历史马尔可夫链

或者,您可以在两个过程中使用语料库:

  • 分析句子以确定常见的词类序列,即名词、动词、形容词和副词。WordNet包括这些。其他一切(代词、连词等)都被排除在外,但基本上你可以直接通过它们。 这将把“敏捷的棕色狐狸跳过懒惰的狗”变成“在[形容词][名词]之上的[形容词][名词][动词]”
  • 通过随机选择一个模板句子并用实际的形容词、名词和动词替换[形容词]、[名词]和[动词]来复制句子
  • 这种方法也有很多问题:例如,你需要从周围单词的上下文中知道要选择哪个同音词。在wordnet中查找“quick”会得到关于快速的信息,但也会得到你的指甲



    我知道这不能解决您对库或工具的需求,但可能会给您一些想法。

    我为此使用了许多数据集,包括wikinews文章

    我使用此工具从中提取了文本:

    非常相似,但我正在寻找一种可以使用文本语料库并生成随机但相似文本的方法。很抱歉,我应该在这个问题上说得更清楚。关于你下面的评论,你认为与原文相似的参数是什么?字长?性格概率?句子长度?用文字还是用文字?也许如果你的需求更加具体,你会发现一些东西。我最近发现wordnet的时候正在寻找一个类似的解决方案