Language agnostic 如何在字典中自动分类单词?

Language agnostic 如何在字典中自动分类单词?,language-agnostic,data-mining,classification,Language Agnostic,Data Mining,Classification,我有一个很大的字典文件,dic.txt,它实际上是每行有一个英语单词的。我想自动将这个文件分为3个不同的文件easy_dic.txt,这是我们每天最常用的单词-16岁的词汇,中等年龄的单词没有那么多常用,但很多人仍然知道-了解30岁的孩子减去easy_dic.txt中的单词,hard_dic.txt非常深奥的单词,只有专业的拼字游戏玩家才会知道。你可以使用互联网上的任何资源来完成这项任务,最简单的方法是什么 最好从计算机可读的三个类别中挑选一些书。 为这些书中的所有单词创建直方图。 合并每个类别

我有一个很大的字典文件,dic.txt,它实际上是每行有一个英语单词的。我想自动将这个文件分为3个不同的文件easy_dic.txt,这是我们每天最常用的单词-16岁的词汇,中等年龄的单词没有那么多常用,但很多人仍然知道-了解30岁的孩子减去easy_dic.txt中的单词,hard_dic.txt非常深奥的单词,只有专业的拼字游戏玩家才会知道。你可以使用互联网上的任何资源来完成这项任务,最简单的方法是什么

最好从计算机可读的三个类别中挑选一些书。 为这些书中的所有单词创建直方图。 合并每个类别中所有书籍的直方图。 在处理词典时,请检查单词在哪个类别的直方图中计数最高,然后将该单词放入该类别。
除了最后一步,你还可以简单地处理你的直方图,从所有直方图中删除一个单词,除了点击量最高的那个。那么你已经有了一个单词列表,而没有使用外部字典文件。

谷歌有正确的工具:,并共享它的数据库

这是一个检查和比较文学、杂志等中单词出现频率的工具

您可以下载数据库,并从中训练词典


顺便说一句,该工具使用起来非常有趣,可以发现单词的出生和消失日期。

下载Wikipedia dump,使用一些Lingpipe工具学习单词频率优化数据结构。检查字典中的单词频率分布,然后将它们分成3组

相当开放。仅使用字典文件是不可能的。显然,您可以使用internet上的任何可用资源。我想知道是否有可用的API。我不认为这个问题是无止境的,它非常清楚需要做什么。@Oded也许你是对的,但这个问题非常有趣,并且有很多有用的结果。我在尝试创建一个模块来生成拼写错误单词的建议时遇到了同样的问题。通过在一定的编辑距离间隔内建议最常用的单词,该软件的猜测能力大大提高。@belisarius-是的,我的用例是一个类似拼字游戏的游戏,有3个难度级别,AI在更高的难度级别中使用更深奥的单词。把一个16岁的,一个30岁的专业拼字游戏玩家加入你的算法!要补充这个答案,您可能需要查看该页面上的Unigram列表。对于截断,你可以采取你认为边界容易,边界中等和边界模糊,找到这些单词的计数,然后通过对这些计数进行阈值排序。