Math 计算googlen项的共享

Math 计算googlen项的共享,math,logic,Math,Logic,我需要关于如何计算多个术语的组合的指导。 例如,以以下基本术语为例: “汤姆·克鲁斯”=12000000页 “约翰·特拉沃尔塔”=4900000页 现在,如果我们添加第二项: “汤姆·克鲁斯”+“山达基”=784000页 “约翰·特拉沃尔塔”+“山达基”=331000页 因此,汤姆·克鲁斯和山达基的谷歌份额为(784000*100/12000000)=6.53%,而约翰·特拉沃尔塔和山达基的谷歌份额为(331000*100/4900000)=6.76% 现在,如果我们在查询中添加第三个

我需要关于如何计算多个术语的组合的指导。

例如,以以下基本术语为例:

  • “汤姆·克鲁斯”=12000000页
  • “约翰·特拉沃尔塔”=4900000页
现在,如果我们添加第二项:

  • “汤姆·克鲁斯”+“山达基”=784000页
  • “约翰·特拉沃尔塔”+“山达基”=331000页
因此,汤姆·克鲁斯和山达基的谷歌份额为(784000*100/12000000)=6.53%,而约翰·特拉沃尔塔和山达基的谷歌份额为(331000*100/4900000)=6.76%


现在,如果我们在查询中添加第三个术语:

  • “汤姆·克鲁斯”+“山达基”+“堆栈溢出”=100页
  • “约翰·特拉沃尔塔”+“山达基”+“堆栈溢出”=181页
我现在应该如何计算谷歌的份额百分比

// Tom Cruise
100 * 100 / 784000 = 0.01% // StackOverflow / Scientology
// or...
100 * 100 / 12000000 = 0.00083% // StackOverflow / Tom Cruise

// John Travolta
181 * 100 / 331000 = 0.05% // StackOverflow / Scientology
// or...
181 * 100 / 4900000 = 0.00369% // StackOverflow / John Travolta
在SO社区中,约翰·特拉沃尔塔似乎是汤姆·克鲁斯的5倍多的山达基信徒


计算谷歌N项份额的正确方法是什么?

视情况而定。首先,让我们为什么是谷歌共享打下一点基础

考虑一下你的搜索

"Tom Cruise" + "Scientology"
"John Travolta" + "Scientology"
当你计算谷歌分享时,你计算的是搜索
“山达基”
中也包含
“汤姆·克鲁斯”
的百分比,而搜索
“山达基”
中也包含
“约翰·特拉沃尔塔”
的百分比。因此,计算方法如下:

Google search for "Scientology": 4,730,000 hits
与之相比:

Google search for "Tom Cruise" and "Scientology": 825,000 hits
Google search for "John Travolta" and "Scientology": 340,000 hits
因此,
“汤姆·克鲁斯”
谷歌在
“山达基”
中的份额为17.44%。
“约翰·特拉沃尔塔”
谷歌在
“山达基”
中的份额为7.18%。我们说相对于
,“汤姆·克鲁斯”
“山达基”
的联系要比
“约翰·特拉沃尔塔”
“山达基”
的联系要多。因此,我注意到你最初对谷歌在
“汤姆·克鲁斯”
“山达基”
中的
“约翰·特拉沃尔塔”
份额的计算是不正确的。关键是要弄清楚你的基本搜索是什么(这里是“山达基”),以及你想要了解的术语是什么(这里是“汤姆·克鲁斯”,而不是“约翰·特拉沃尔塔”)

现在考虑搜索< /P>

"Scientology" + "Tom Cruise" + keyword

有两种方式来看待这一点。你是想在(
“山达基”
+
关键字
)的空间里衡量
“汤姆·克鲁斯”
“约翰·特拉沃尔塔”
的份额,还是想在
“山达基”
的空间里衡量
“汤姆·克鲁斯”
+
关键字
的份额?这些是不同的

Google search for "Scientology" + "StackOverflow": 34,300

Google search for "Tom Cruise" and "Scientology" and "StackOverflow": 1,360
Google search for "John Travotla" and "Scientology" and "StackOverflow": 1,660
如果你想在(
“山达基”
+
“StackOverflow”
)的空间中分享
“汤姆·克鲁斯”
“约翰·特拉沃尔塔”
),你应该计算:

"Tom Cruise": 1360 / 34300 = 3.97%
"John Travolta": 1660 / 34300 = 4.84%
"Tom Cruise" + "StackOverflow": 1360 / 4730000 = .0029%
"John Travolta" + "StackOverflow" : 1660 / 4730000 = .0035%
如果你想在
“山达基”
的空间中分享
“汤姆·克鲁斯”+“斯塔克沃夫”
“约翰·特拉沃尔塔”+“斯塔克沃夫”
,你应该计算:

"Tom Cruise": 1360 / 34300 = 3.97%
"John Travolta": 1660 / 34300 = 4.84%
"Tom Cruise" + "StackOverflow": 1360 / 4730000 = .0029%
"John Travolta" + "StackOverflow" : 1660 / 4730000 = .0035%

你看,这一切都取决于你的基本搜索是什么,以及你试图找到的术语是什么。在第一个版本中,我们的基本搜索是
“山达基”+“StackOverflow”
,我们看到了
“汤姆·克鲁斯”
“约翰·特拉沃尔塔”
在这个空间中所占的份额。在第二个版本中,我们的基本搜索是
“山达基”
,我们看到了
“汤姆·克鲁斯”+“斯塔克沃夫”
“约翰·特拉沃尔塔”+“斯塔克沃夫”
在这个空间中有什么共享。

这取决于你在追求什么。第一个数字是衡量堆栈溢出在显示Tom Cruise和山达基的所有结果中所占比例的指标,第二个数字是衡量堆栈溢出和山达基在显示Tom Cruise的所有结果中所占比例的指标。

我看不出N个术语和2个术语之间的区别。每当你有超过一个搜索词时,你就隐含地获得了关于某个初始搜索词的谷歌共享。对于任何N>=2,对于窄查询的每个子集都有多个Google共享

你说“谷歌分享的汤姆·克鲁斯和山达基”是6.53%,但这有点误导,因为术语“”往往意味着某种对称,你可以在不改变含义的情况下切换“汤姆·克鲁斯”和“山达基”。事实并非如此,因为你最初的术语是“汤姆·克鲁斯”

也许对你计算的分数更好的描述是说“汤姆·克鲁斯的‘山达基’谷歌份额为6.53%。”这消除了所有的歧义,因为现在我们知道,“汤姆·克鲁斯”与术语“山达基”一起出现的时间占6.53%,而不是相反(即6.53%的山达基结果提到汤姆·克鲁斯)


当你这样想的时候,对应于N项的泛化就掉了出来。只要在“has/have”前面加上你喜欢的任何初始术语,以及在后面加上你喜欢的任何其他缩小术语即可。根据您给出的数字,您可以说“约翰·特拉沃尔塔的山达基参考文献的堆栈溢出谷歌份额为0.05%”或“约翰·特拉沃尔塔的山达基+堆栈溢出谷歌份额为0.00369%”。选择哪种方式在上下文中更具信息性。

想想维恩图!