Math 正确报告搜索值样本的误差幅度_Math_Google Analytics_Statistics_Survey

Math 正确报告搜索值样本的误差幅度

math google-analytics statistics

Math 正确报告搜索值样本的误差幅度,math,google-analytics,statistics,survey,Math,Google Analytics,Statistics,Survey,在Google Analytics中，我可以获得用户在网站上搜索的所有术语的列表。对于一个大型站点，在几个星期的过程中，这可能会超过10000个条款。我想创建一个报告，对用户搜索的术语类型进行分类，但是在合理的时间范围内，手动浏览10000个术语并对它们进行分类是很困难的。所以我的直觉是样本和关于样本的报告我想确保我使用了正确的公式来生成样本的误差范围，并且我正确地报告了它我想做的是随机抽取所用术语的样本，然后将这些术语放入某种电子表格中，并手工在类别（产品、人员、工作）中进行编码。最后，我

在Google Analytics中，我可以获得用户在网站上搜索的所有术语的列表。对于一个大型站点，在几个星期的过程中，这可能会超过10000个条款。我想创建一个报告，对用户搜索的术语类型进行分类，但是在合理的时间范围内，手动浏览10000个术语并对它们进行分类是很困难的。所以我的直觉是样本和关于样本的报告

我想确保我使用了正确的公式来生成样本的误差范围，并且我正确地报告了它

我想做的是随机抽取所用术语的样本，然后将这些术语放入某种电子表格中，并手工在类别（产品、人员、工作）中进行编码。最后，我将对每一个抽样的术语进行分类，并给出样本的百分比

为了获得95%的置信度，我打算使用：

误差幅度=（1.96*0.5）/sqrt（（总体\总计数-1）*样本\总计数/（总体\总计数-样本\总计数））

population_total_count是总体（完整列表）中的搜索总数，sample_search_total_count是我抽取的随机样本中的搜索数

如果我的样本百分比中有25%是“产品”，并且我有3%的误差，我会报告说“我们预计25%的搜索是在95%置信度下搜索产品正负3%”。对于同一调查中的任何其他类别，我都会说“在95%置信度下搜索正负3%”

我是否使用了正确的公式并正确地讨论了这个问题？我对每个类别使用相同的+/-误差范围是否正确？

从“1.96”中，我可以告诉你，你假设你的数据遵循正态分布，这是不必要的（对于小数据集来说，近似值太粗糙）

您应该使用以下三种方法之一：

一个Dirichlet多项式模型，如果数据可以建模为从一个类似的过程中生成（即，假设所有用户的搜索行为都是相似的），或者您乐意将其视为相似的

如果您知道或怀疑存在两种或几种类型的数据（例如，一组儿童和一组成人正在输入搜索词，而您不知道谁是谁），Dirichlet分布的混合

多项式比例的置信区间，如果您急于寻找现成的频密技术。R中的MultinomCI函数就是一个示例工具。请参见DescTools20中的示例

以上三种方法的参考：。祝你好运