Search 如何获得各种语言中最常用的单词列表？_Search_Nlp

Search 如何获得各种语言中最常用的单词列表？

search nlp

Search 如何获得各种语言中最常用的单词列表？,search,nlp,Search,Nlp,Stack Overflow实现了它的“相关问题”功能，根据谷歌的说法，它以当前被问问题的标题，并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交，以查找相关问题我如何得到这样一份最常见的英语单词列表？还是其他语言中最常见的词？这是我可以从谷歌网站上得到的吗？A是你想要的。您还可以制作自己的，或自定义一个用于特定领域的库，这是熟悉一些好库的好方法。从中讨论的一些文本开始，然后尝试此信封背面脚本的一些变体： from nltk.stem.porter import Porte

Stack Overflow实现了它的“相关问题”功能，根据谷歌的说法，它以当前被问问题的标题，并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交，以查找相关问题

我如何得到这样一份最常见的英语单词列表？还是其他语言中最常见的词？这是我可以从谷歌网站上得到的吗？

A是你想要的。您还可以制作自己的，或自定义一个用于特定领域的库，这是熟悉一些好库的好方法。从中讨论的一些文本开始，然后尝试此信封背面脚本的一些变体：

from nltk.stem.porter import PorterStemmer
import os
import string
from collections import defaultdict

ps = PorterStemmer()
word_count = defaultdict(int)

source_directory = '/some/dir/full/of/text'

for root, dirs, files in os.walk(source_directory):
    for item in files:
        current_text = os.path.join(root, item)
        words = open(current_text, 'r').read().split()
        for word in words:
            entry = ps.stem_word(word.strip(string.punctuation).lower())
            word_count[entry] += 1

results = [[word_count[i], i] for i in word_count]

print sorted(results)

以下是下载的几本书中最常见的词语：

[2955, 'that'], [4201, 'in'], [4658, 'to'], [4689, 'a'], [6441, 'and'], [6705, 'of'], [14508, 'the']]

查看当您从查询中筛选出最常见的x、y或z编号，或将其完全从文本搜索索引中删除时会发生什么情况。如果包含真实世界的数据，也可能会得到一些有趣的结果——例如，“社区”“wiki”不太可能是通用列表中的常用词，但如果是这样的话，显然不会出现这种情况，您可能希望将其排除在外