Math 正确报告搜索值样本的误差幅度

Math 正确报告搜索值样本的误差幅度,math,google-analytics,statistics,survey,Math,Google Analytics,Statistics,Survey,在Google Analytics中,我可以获得用户在网站上搜索的所有术语的列表。对于一个大型站点,在几个星期的过程中,这可能会超过10000个条款。我想创建一个报告,对用户搜索的术语类型进行分类,但是在合理的时间范围内,手动浏览10000个术语并对它们进行分类是很困难的。所以我的直觉是样本和关于样本的报告 我想确保我使用了正确的公式来生成样本的误差范围,并且我正确地报告了它 我想做的是随机抽取所用术语的样本,然后将这些术语放入某种电子表格中,并手工在类别(产品、人员、工作)中进行编码。最后,我

在Google Analytics中,我可以获得用户在网站上搜索的所有术语的列表。对于一个大型站点,在几个星期的过程中,这可能会超过10000个条款。我想创建一个报告,对用户搜索的术语类型进行分类,但是在合理的时间范围内,手动浏览10000个术语并对它们进行分类是很困难的。所以我的直觉是样本和关于样本的报告

我想确保我使用了正确的公式来生成样本的误差范围,并且我正确地报告了它

我想做的是随机抽取所用术语的样本,然后将这些术语放入某种电子表格中,并手工在类别(产品、人员、工作)中进行编码。最后,我将对每一个抽样的术语进行分类,并给出样本的百分比

为了获得95%的置信度,我打算使用:

误差幅度=(1.96*0.5)/sqrt((总体\总计数-1)*样本\总计数/(总体\总计数-样本\总计数))

population_total_count是总体(完整列表)中的搜索总数,sample_search_total_count是我抽取的随机样本中的搜索数

如果我的样本百分比中有25%是“产品”,并且我有3%的误差,我会报告说“我们预计25%的搜索是在95%置信度下搜索产品正负3%”。对于同一调查中的任何其他类别,我都会说“在95%置信度下搜索正负3%”

我是否使用了正确的公式并正确地讨论了这个问题?我对每个类别使用相同的+/-误差范围是否正确?

从“1.96”中,我可以告诉你,你假设你的数据遵循正态分布,这是不必要的(对于小数据集来说,近似值太粗糙)

您应该使用以下三种方法之一:

  • 一个Dirichlet多项式模型,如果数据可以建模为从一个类似的过程中生成(即,假设所有用户的搜索行为都是相似的),或者您乐意将其视为相似的

  • 如果您知道或怀疑存在两种或几种类型的数据(例如,一组儿童和一组成人正在输入搜索词,而您不知道谁是谁),Dirichlet分布的混合

  • 多项式比例的置信区间,如果您急于寻找现成的频密技术。R中的MultinomCI函数就是一个示例工具。请参见DescTools20中的示例

  • 以上三种方法的参考:。祝你好运