Search 免费谷歌词频数据库?

Search 免费谷歌词频数据库?,search,word-frequency,Search,Word Frequency,在本周的Stackoverflow播客上,Jeff提到,2004年他写了一个脚本,用110000个英语单词查询Google,并收集了一个包含每个单词点击数的数据库。他们在Stackoverflow上使用此选项,例如用于每个问题页面右侧的“相关”列表 因为今天用类似的脚本创建其中一个是很困难的(正如Joel提到的,“30000个单词就有人敲你的门”),我想知道是否有人知道一个更先进、免费的谷歌词频数据库(例如,对于IT来说,自那以后肯定发生了变化,如jquery、ruby、azure等) 快速的谷

在本周的Stackoverflow播客上,Jeff提到,2004年他写了一个脚本,用110000个英语单词查询Google,并收集了一个包含每个单词点击数的数据库。他们在Stackoverflow上使用此选项,例如用于每个问题页面右侧的“相关”列表

因为今天用类似的脚本创建其中一个是很困难的(正如Joel提到的,“30000个单词就有人敲你的门”),我想知道是否有人知道一个更先进、免费的谷歌词频数据库(例如,对于IT来说,自那以后肯定发生了变化,如jquery、ruby、azure等)

快速的谷歌搜索(!)会发现一些点击率。这看起来很有希望:


但是它并不是针对it单词。

你可以在朋友/同事之间划分一个列表,并使用足够大的超时时间,这样你每天每个IP的请求不会超过50000个,然后合并结果。我不确定这种方法的合法性,但让谷歌人用这种方法“敲你的门”的可能性很低


注意:根据Skuta提供的数据编辑

根据谷歌的说法,每个IP每天可以发送50000个查询。我真的不认为把它分给你的朋友是违法的


我对每天每个IP的查询也有类似的问题,但我们用完全不同的方法解决了它。

回答这个问题可能晚了,但我可以提出不同的方法。 而不是从谷歌那里得到“点击数”,自己计算近似值。获取大量文本页面(语料库),并计算其中每个单词的数量。 我在维基百科上做过这件事。有一个所有维基页面的转储。您只需要编写一个解析器来提取文本和计算单词。结果是一个超过110K个单词(至少200-300万个)的列表。 如果你真的需要谷歌搜索结果中的数字,你可以得到一些单词样本并查询谷歌,然后对计算值进行一些标准化以匹配谷歌值。
我希望这有帮助

相关播客的链接会很有趣。