Text 英语非代词文本的大自由块_Text_Seed

Text 英语非代词文本的大自由块

text

Text 英语非代词文本的大自由块,text,seed,Text,Seed,作为自学python的一部分，我编写了一个脚本，允许用户扮演刽子手。目前，要猜测的刽子手单词只是在脚本代码的开头手动输入我想让脚本从大量英语单词中随机选择。这是我知道怎么做的——我的问题是首先要找到一系列的单词有没有人知道网上有一个来源，比如说1000个普通英语单词，可以作为文本块或类似的东西下载，我可以使用（我最初的想法是从古腾堡计划（project gutenburg）[这个项目只是为了我自己的娱乐，不会在其他任何地方提供，所以版权等对我来说并不重要]，但任何类似的内容都可能包含太多的

作为自学python的一部分，我编写了一个脚本，允许用户扮演刽子手。目前，要猜测的刽子手单词只是在脚本代码的开头手动输入

我想让脚本从大量英语单词中随机选择。这是我知道怎么做的——我的问题是首先要找到一系列的单词

有没有人知道网上有一个来源，比如说1000个普通英语单词，可以作为文本块或类似的东西下载，我可以使用

（我最初的想法是从古腾堡计划（project gutenburg）[这个项目只是为了我自己的娱乐，不会在其他任何地方提供，所以版权等对我来说并不重要]，但任何类似的内容都可能包含太多的名称或非标准单词，不适合《刽子手》。我需要的文本基本上只有拼字游戏中使用的合法单词）

我想这是一个有点奇怪的问题，但实际上我认为答案可能不仅对我有用，而且对任何从事文字游戏或类似项目的人都有用，因为这些项目需要大量的文字种子列表

非常感谢您的链接或建议：）

您尝试过/usr/share/dict/words吗？

手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。通读课文，数一数每个单词被找到的次数。最常见的词是代词、连词等。。。把它们扔掉就行了

专有名词很可能是最不常见的词，当然除非你的文章是故事，那么角色名称很可能会经常出现。可能处理专有名词的最好方法是使用许多来源，并计算该词在多少来源中找到。从本质上讲，在许多不同来源中常见的单词可能不是专有名词。特定于一个文本源的单词，你可以扔掉。这一想法与经济有关

一旦你计算了这些单词的频率，你也可以很容易地查看这些单词，并根据需要调整你的列表

使用Wordnet

另一个想法是从中下载单词。Wordnet为许多单词讲述词性。你可以只使用名词和动词。手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。通读课文，数一数每个单词被找到的次数。最常见的词是代词、连词等。。。把它们扔掉就行了

一旦你计算了这些单词的频率，你也可以很容易地查看这些单词，并根据需要调整你的列表

使用Wordnet

另一个想法是从中下载单词。Wordnet为许多单词讲述词性。你可以只使用名词和动词来表达你的意图。

会有用吗？

-1假设他使用linux，而linux的市场份额为2%。哦，该死，这是个好主意。谢谢编辑：事实上对我来说并不理想，因为里面有很多人名、首字母缩略词等等。。。但这将给我一些暂时的工作机会，至少-1假设他使用linux，当它有2%的市场份额时。谢谢编辑：事实上对我来说并不理想，因为里面有很多人名、首字母缩略词等等。。。但至少在目前，这会给我一些工作上的帮助