Text 英语非代词文本的大自由块

Text 英语非代词文本的大自由块,text,seed,Text,Seed,作为自学python的一部分,我编写了一个脚本,允许用户扮演刽子手。目前,要猜测的刽子手单词只是在脚本代码的开头手动输入 我想让脚本从大量英语单词中随机选择。这是我知道怎么做的——我的问题是首先要找到一系列的单词 有没有人知道网上有一个来源,比如说1000个普通英语单词,可以作为文本块或类似的东西下载,我可以使用 (我最初的想法是从古腾堡计划(project gutenburg)[这个项目只是为了我自己的娱乐,不会在其他任何地方提供,所以版权等对我来说并不重要],但任何类似的内容都可能包含太多的

作为自学python的一部分,我编写了一个脚本,允许用户扮演刽子手。目前,要猜测的刽子手单词只是在脚本代码的开头手动输入

我想让脚本从大量英语单词中随机选择。这是我知道怎么做的——我的问题是首先要找到一系列的单词

有没有人知道网上有一个来源,比如说1000个普通英语单词,可以作为文本块或类似的东西下载,我可以使用

(我最初的想法是从古腾堡计划(project gutenburg)[这个项目只是为了我自己的娱乐,不会在其他任何地方提供,所以版权等对我来说并不重要],但任何类似的内容都可能包含太多的名称或非标准单词,不适合《刽子手》。我需要的文本基本上只有拼字游戏中使用的合法单词)

我想这是一个有点奇怪的问题,但实际上我认为答案可能不仅对我有用,而且对任何从事文字游戏或类似项目的人都有用,因为这些项目需要大量的文字种子列表


非常感谢您的链接或建议:)

您尝试过/usr/share/dict/words吗?

您尝试过/usr/share/dict/words吗?

手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。通读课文,数一数每个单词被找到的次数。最常见的词是代词、连词等。。。把它们扔掉就行了

专有名词很可能是最不常见的词,当然除非你的文章是故事,那么角色名称很可能会经常出现。可能处理专有名词的最好方法是使用许多来源,并计算该词在多少来源中找到。从本质上讲,在许多不同来源中常见的单词可能不是专有名词。特定于一个文本源的单词,你可以扔掉。这一想法与经济有关

一旦你计算了这些单词的频率,你也可以很容易地查看这些单词,并根据需要调整你的列表

使用Wordnet


另一个想法是从中下载单词。Wordnet为许多单词讲述词性。你可以只使用名词和动词。手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。通读课文,数一数每个单词被找到的次数。最常见的词是代词、连词等。。。把它们扔掉就行了

专有名词很可能是最不常见的词,当然除非你的文章是故事,那么角色名称很可能会经常出现。可能处理专有名词的最好方法是使用许多来源,并计算该词在多少来源中找到。从本质上讲,在许多不同来源中常见的单词可能不是专有名词。特定于一个文本源的单词,你可以扔掉。这一想法与经济有关

一旦你计算了这些单词的频率,你也可以很容易地查看这些单词,并根据需要调整你的列表

使用Wordnet


另一个想法是从中下载单词。Wordnet为许多单词讲述词性。你可以只使用名词和动词来表达你的意图。

会有用吗?

会有用吗?

-1假设他使用linux,而linux的市场份额为2%。哦,该死,这是个好主意。谢谢编辑:事实上对我来说并不理想,因为里面有很多人名、首字母缩略词等等。。。但这将给我一些暂时的工作机会,至少-1假设他使用linux,当它有2%的市场份额时。谢谢编辑:事实上对我来说并不理想,因为里面有很多人名、首字母缩略词等等。。。但至少在目前,这会给我一些工作上的帮助