Search 免费谷歌词频数据库？_Search_Word Frequency

Search 免费谷歌词频数据库？

Search 免费谷歌词频数据库？,search,word-frequency,Search,Word Frequency,在本周的Stackoverflow播客上，Jeff提到，2004年他写了一个脚本，用110000个英语单词查询Google，并收集了一个包含每个单词点击数的数据库。他们在Stackoverflow上使用此选项，例如用于每个问题页面右侧的“相关”列表因为今天用类似的脚本创建其中一个是很困难的（正如Joel提到的，“30000个单词就有人敲你的门”），我想知道是否有人知道一个更先进、免费的谷歌词频数据库（例如，对于IT来说，自那以后肯定发生了变化，如jquery、ruby、azure等）快速的谷

在本周的Stackoverflow播客上，Jeff提到，2004年他写了一个脚本，用110000个英语单词查询Google，并收集了一个包含每个单词点击数的数据库。他们在Stackoverflow上使用此选项，例如用于每个问题页面右侧的“相关”列表

因为今天用类似的脚本创建其中一个是很困难的（正如Joel提到的，“30000个单词就有人敲你的门”），我想知道是否有人知道一个更先进、免费的谷歌词频数据库（例如，对于IT来说，自那以后肯定发生了变化，如jquery、ruby、azure等）

快速的谷歌搜索（！）会发现一些点击率。这看起来很有希望：

但是它并不是针对it单词。

你可以在朋友/同事之间划分一个列表，并使用足够大的超时时间，这样你每天每个IP的请求不会超过50000个，然后合并结果。我不确定这种方法的合法性，但让谷歌人用这种方法“敲你的门”的可能性很低

注意：根据Skuta提供的数据编辑

根据谷歌的说法，每个IP每天可以发送50000个查询。我真的不认为把它分给你的朋友是违法的

我对每天每个IP的查询也有类似的问题，但我们用完全不同的方法解决了它。

回答这个问题可能晚了，但我可以提出不同的方法。而不是从谷歌那里得到“点击数”，自己计算近似值。获取大量文本页面（语料库），并计算其中每个单词的数量。我在维基百科上做过这件事。有一个所有维基页面的转储。您只需要编写一个解析器来提取文本和计算单词。结果是一个超过110K个单词（至少200-300万个）的列表。如果你真的需要谷歌搜索结果中的数字，你可以得到一些单词样本并查询谷歌，然后对计算值进行一些标准化以匹配谷歌值。

我希望这有帮助