Statistics 当一个集合是另一个集合的子集且样本量不相同时,如何比较两个集合的均值

Statistics 当一个集合是另一个集合的子集且样本量不相同时,如何比较两个集合的均值,statistics,Statistics,我有两套包含一些出版物的引用计数。在这些集合中,一个是另一个的子集。也就是说,子集包含一些出现在另一个集合上的精确引用计数。e、 g Set1 Set2 (Subset) 50 50 24 24 12 - 5 5 4 4 43 43 2 - 2 - 1 - 1 - 所以我想确定子集中的数字是否足以表示set1?关于这个问题: 我本打算申请学生t-测试,但我不确定如何申请 应用它

我有两套包含一些出版物的引用计数。在这些集合中,一个是另一个的子集。也就是说,子集包含一些出现在另一个集合上的精确引用计数。e、 g

Set1    Set2 (Subset)
50      50
24      24
12      -
5       5
4       4
43      43
2       -
2       -
1       -
1       -
所以我想确定子集中的数字是否足以表示set1?关于这个问题:

  • 我本打算申请学生t-测试,但我不确定如何申请 应用它。原因是集合是相互依赖的,所以我可以 不适用未配对t检验,要求两组数据必须来自 独立人群。另一方面,配对t检验也可以 看起来不合适,因为样本大小必须相等
  • 如果出现异常值,我应该删除它吗?对我来说,这是不合逻辑的 因为它通常不是一个异常值,但出版物被引用的次数相当多 所以它属于同一个样品。如何处理此类案件? 如果我不删除它,它会导致差异太大 影响统计测试…用 中位数而非平均值,因为引文分布通常倾向于 高度倾斜

  • 我该如何解决这个问题?

    也许这个问题最适合Yes@AiltonAndradedeOliveira,我已经在那里问过了,但由于我很长时间没有得到任何回应,我决定在这里试试:)我不太理解你的问题。你是否会问这样的问题:“Set2的平均值是否与Set1的平均值足够相似?”(或除平均值之外的任何其他统计数据)。如果是这种情况,你的Set2是来自总体Set1的样本。关于你的案例2:引用可能是幂律分布的,方差可能不存在。@Ottoomet,正如你所说的set2是set1的样本。我如何比较平均数1=2?好的,那么你基本上需要样本统计的标准误差(好的,置信区间),样本是从一个有限的总体中抽取的,没有重复。我对这种取样不太了解,但我怀疑set2的大小