Search 如何获得各种语言中最常用的单词列表?
Stack Overflow实现了它的“相关问题”功能,根据谷歌的说法,它以当前被问问题的标题,并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交,以查找相关问题 我如何得到这样一份最常见的英语单词列表?还是其他语言中最常见的词?这是我可以从谷歌网站上得到的吗?A是你想要的。您还可以制作自己的,或自定义一个用于特定领域的库,这是熟悉一些好库的好方法。从中讨论的一些文本开始,然后尝试此信封背面脚本的一些变体:Search 如何获得各种语言中最常用的单词列表?,search,nlp,Search,Nlp,Stack Overflow实现了它的“相关问题”功能,根据谷歌的说法,它以当前被问问题的标题,并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交,以查找相关问题 我如何得到这样一份最常见的英语单词列表?还是其他语言中最常见的词?这是我可以从谷歌网站上得到的吗?A是你想要的。您还可以制作自己的,或自定义一个用于特定领域的库,这是熟悉一些好库的好方法。从中讨论的一些文本开始,然后尝试此信封背面脚本的一些变体: from nltk.stem.porter import Porte
from nltk.stem.porter import PorterStemmer
import os
import string
from collections import defaultdict
ps = PorterStemmer()
word_count = defaultdict(int)
source_directory = '/some/dir/full/of/text'
for root, dirs, files in os.walk(source_directory):
for item in files:
current_text = os.path.join(root, item)
words = open(current_text, 'r').read().split()
for word in words:
entry = ps.stem_word(word.strip(string.punctuation).lower())
word_count[entry] += 1
results = [[word_count[i], i] for i in word_count]
print sorted(results)
以下是下载的几本书中最常见的词语:
[2955, 'that'], [4201, 'in'], [4658, 'to'], [4689, 'a'], [6441, 'and'], [6705, 'of'], [14508, 'the']]
查看当您从查询中筛选出最常见的x、y或z编号,或将其完全从文本搜索索引中删除时会发生什么情况。如果包含真实世界的数据,也可能会得到一些有趣的结果——例如,“社区”“wiki”不太可能是通用列表中的常用词,但如果是这样的话,显然不会出现这种情况,您可能希望将其排除在外