Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Search 如何获得各种语言中最常用的单词列表?_Search_Nlp - Fatal编程技术网

Search 如何获得各种语言中最常用的单词列表?

Search 如何获得各种语言中最常用的单词列表?,search,nlp,Search,Nlp,Stack Overflow实现了它的“相关问题”功能,根据谷歌的说法,它以当前被问问题的标题,并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交,以查找相关问题 我如何得到这样一份最常见的英语单词列表?还是其他语言中最常见的词?这是我可以从谷歌网站上得到的吗?A是你想要的。您还可以制作自己的,或自定义一个用于特定领域的库,这是熟悉一些好库的好方法。从中讨论的一些文本开始,然后尝试此信封背面脚本的一些变体: from nltk.stem.porter import Porte

Stack Overflow实现了它的“相关问题”功能,根据谷歌的说法,它以当前被问问题的标题,并从中删除了10000个最常见的英语单词。剩下的单词将作为全文搜索提交,以查找相关问题

我如何得到这样一份最常见的英语单词列表?还是其他语言中最常见的词?这是我可以从谷歌网站上得到的吗?

A是你想要的。您还可以制作自己的,或自定义一个用于特定领域的库,这是熟悉一些好库的好方法。从中讨论的一些文本开始,然后尝试此信封背面脚本的一些变体:

from nltk.stem.porter import PorterStemmer
import os
import string
from collections import defaultdict

ps = PorterStemmer()
word_count = defaultdict(int)

source_directory = '/some/dir/full/of/text'

for root, dirs, files in os.walk(source_directory):
    for item in files:
        current_text = os.path.join(root, item)
        words = open(current_text, 'r').read().split()
        for word in words:
            entry = ps.stem_word(word.strip(string.punctuation).lower())
            word_count[entry] += 1

results = [[word_count[i], i] for i in word_count]

print sorted(results)
以下是下载的几本书中最常见的词语:

[2955, 'that'], [4201, 'in'], [4658, 'to'], [4689, 'a'], [6441, 'and'], [6705, 'of'], [14508, 'the']]
查看当您从查询中筛选出最常见的x、y或z编号,或将其完全从文本搜索索引中删除时会发生什么情况。如果包含真实世界的数据,也可能会得到一些有趣的结果——例如,“社区”“wiki”不太可能是通用列表中的常用词,但如果是这样的话,显然不会出现这种情况,您可能希望将其排除在外