Text 在哪里可以找到几乎所有英语单词的列表?

Text 在哪里可以找到几乎所有英语单词的列表?,text,random,Text,Random,我想生成一些随机文本 我试着写一个基本的Java程序 int nowords = r.nextInt(2000); int i, j; for (i = 0; i < nowords; i++) { int lengthofword = r.nextInt(10) + 2; for (j = 0; j < lengthofword; j++) { int ch = r.n

我想生成一些随机文本

我试着写一个基本的Java程序

int nowords = r.nextInt(2000);
        int i, j;

        for (i = 0; i < nowords; i++) {
            int lengthofword = r.nextInt(10) + 2;
            for (j = 0; j < lengthofword; j++) {
                int ch = r.nextInt(26);
                System.out.print(alphabet[ch]);
            }
            System.out.print(" ");
        }
int nowords=r.nextInt(2000);
int i,j;
对于(i=0;i
结果是:

tafawc FLNQHABV mqceuoqy rttzckzqa bdyxzod zbxweclvia wegmxvuoqez ijwauhmzw joxm zvphbs ogpjyip qxoymxkxv YRFIFIG fbhecph Izzcyfma xarzse srwic jgi FKBCDYDPZ qpdvsz rqhjieqno fmelfmtgqe qozenjlxtg vfxd LKMKKGW ytuaduknsl让ao bm lsfjednsa qouinii yrwzerdck yb kszttly zmwflwevyix kdg qpnkzuijva ssau yc wxews drqsdwbc glxb gokunixldec lznuwdvksx ZKZHSIRUXC sqplhv fzixywkaft fqdkumfgddn bcqp oiwwbo emhk kv qhm xkjp kacbmcd ojh wzvukx oztbexkf lylyv kdspqpa zbykj lnprtlxp af bne ryamumcg oyhldwdlq bqyfxrszuf wyrijnr ysnefsz lhhazrdwsev tll ikibsnpqwg ntzlgc aahfsdeups rushos ihqzyucd mjorscchszm tuppz hxi ssumrevg

如果文本至少可以阅读,而不是这样,这将是有益的

我正在考虑使用英语单词,并从中随机挑选来造句。
在哪里可以找到英语单词的大列表?a我在上找到了一些列表。我认为很难找到一个完整的列表,自然语言不是这样工作的。

是一个很好的机器可读词典(链接直接指向下载页面)。这是“仅用于研究目的”(非商业许可证)。它包括对名词、动词等的分类,因此它对于生成随机句子可能比仅仅一个单词列表更有用。

自然语言处理的黄金标准是Wordnet at。它有一个活动用户组,具有与单词相关联的语义和语法,并与其他NLP工具接口。如果你想用这些词来计算,你一定要看一看

然而,随机选择单词并不能产生一个有用的句子,我怀疑你会对结果感到失望。看看OpenNLP之类的工具包,其中有许多工具,包括您肯定需要的词性(POS)


即使你的句子可能有有效的语法,你也需要阅读乔姆斯基和其他人的作品。他的“无色绿色的想法,疯狂地睡觉”说明了这个问题。

你想看看“Lorem Ipsum”。肯定有某种库可以在Java中生成它。

我建议使用lorem ipsum生成器。对于Java来说,这是一个很好的例子。在线版本可用。

拼字游戏词表可能值得一看。有两种变体:(除美国和加拿大外的所有地方)和(美国和加拿大)。这两个词表都可以从不同的网站下载


然而,为了满足您的需要,您可能还需要考虑使用Lorem Ipsum(又名“lipsum”)。一个流行的Lipsum生成器,尽管还有许多其他的生成器。

在站点上查看Lorem Ipsum以生成“无效文本”

网络上有很多发电机

参考文本:
Lorem ipsum dolor sit amet,是一位杰出的献身者。塞德·维韦拉·弗林利亚。在turpis bibendum Placelat的lectus进行Donec。非尼伯莫里斯万岁。nisl的发酵液。nisl东部的佩伦茨克。在nec sem tellus中,ac是一种非直选电路。面容丰满的斜颈,面部矢状位,斜颈处的斜颈。Mauris non neque magna,Vil Dignessim sem。中间直径和中间直径的悬浮体。多内克在毛里斯乌纳,在瓦努普塔特伊普苏姆。威尼斯苏打水不含锡

下载openOffice字典:


如果你使用的是linux pc,请尝试/usr/share/dict

早在1972年,我在12年级时就这样做了,当时我用英语列出了所有可能的第二个字母。换句话说,26个字符串的向量。第一个字符串是A后面所有可能的字母,第二个字符串是B后面所有可能的字母,依此类推

我只是试着用每个可能的两个字母序列来想一个单词,然后列出了这些列表,如果想一个单词太难,我就不把它包括进去。因此,我最终得到了英语中所有常见的两个字母序列

我确实记得生成的文本是可发音的,而且其中经常有真实的单词,或者几乎真实的单词

我是用BASIC写在带有8k核心内存的HP 2100A小型计算机的OCR标记识别卡上的


后来我了解到,你通常可以通过检查字母三元组的频率来识别一种语言,因此我怀疑如果你再这样做一个级别,你最终会得到更多的真实单词,和某种形式的英语有更大的怪异相似性。

你需要大量垃圾邮件过滤器,还是只生成一些文本来填充空间?