R 2x4列联表的统计数据,包括大计数和小计数

R 2x4列联表的统计数据,包括大计数和小计数,r,statistics,contingency,R,Statistics,Contingency,我很抱歉,如果这是一个非常天真的问题 我有7000个2x4列联表和计数数据。它们代表基因组中的一个特定位置,以及在两种不同环境中每个dna核苷酸在该位置被观察到的次数。 列联表的一个例子是 A C G T condition1 0 2 20 70000 condition2 3 15 0 95000 or A C G T c

我很抱歉,如果这是一个非常天真的问题

我有7000个2x4列联表和计数数据。它们代表基因组中的一个特定位置,以及在两种不同环境中每个dna核苷酸在该位置被观察到的次数。 列联表的一个例子是

            A      C      G      T 
condition1  0      2      20     70000
condition2  3      15     0      95000

or
            A      C     G       T 
condition1  80146  0     5       0
condition2  26821  2     4       0

数据只能是正整数。最小计数为0,最大计数可达800000。一个计数通常是该行和该列的几乎所有总计数(例如,在两种情况下相同,例如第一种情况下为单元格T,第二种情况下为单元格A),然后1或2个其他单元格将具有低计数。。。应该在这些其他细胞中观察差异(如果有的话)

目标是确定这两种环境条件之间显著不同的位置,以便进一步分析。我们的测量方法估计错误率为10^-6

我用R来分析这些数据。我不确定我是否可以对此进行卡方检验,因为细胞计数很小或为0。 通过fisher测试,我得到了两个错误:

with a workspace of 1E5 
FEXACT error 40.
Out of workspace.

with a workspace of >3E5
FEXACT error 501.
The hash table key cannot be computed because the largest key
is larger than the largest representable int.
The algorithm cannot proceed.
Reduce the workspace size or use another algorithm.
有人能为fisher或卡方检验建议一个合适的测试或设置吗

多谢各位


罗恩

费舍尔的R精确检验只适用于较小的数据。如果将T列中的数据从70000和95000减少到700和950,Fisher测试将起作用


同时,我尝试了你的数据,它起了作用。对于较大的数据,卡方检验优于Fisher精确检验。

卡方检验有效:

df1 = structure(list(A = c(0L, 3L), C = c(2L, 15L), G = c(20L, 0L), 
    T = c(70000L, 95000L)), .Names = c("A", "C", "G", "T"), class = "data.frame", row.names = 1:2)

df1
  A  C  G     T
1 0  2 20 70000
2 3 15  0 95000

chisq.test(df1)

        Pearson's Chi-squared test

data:  df1
X-squared = 35.8943, df = 3, p-value = 7.884e-08

Warning message:
In chisq.test(df1) : Chi-squared approximation may be incorrect

我不确定这是否足够

为了让问题更清楚,您可以给列命名,告诉每列可以包含哪些值,并给出两个示例表。这将有助于论坛的成员帮助你。刚刚做到的。希望这现在更有意义。“1或2个其他细胞的计数较低…应该在这些其他细胞中观察到差异(如果有)。”:你说的低是什么意思:以100为截止值可以吗?100可能较高。。。也许30或50是一个更好的截止。理论上,错误率为1e-6,每行的中位数总数约为50000-150000个事件(n),因此即使观察很少的事件也应高于错误率。当某些单元格的值为0或低于5时,可以进行卡方检验吗?这就是警告的来源吗?我同意凯生的观点,忽略这个警告。test给出了一个错误,这正是您应该使用卡方检验的原因。如需统计建议,请发至(CrossValidated)。谢谢大家。我将其发布在stats exchange上,以确保测试正确,并且可以忽略警告。感谢您的反馈。您好,我不确定如果我将数据缩小10,是否会遇到问题,因为不可能缩放0值,当n为100000时得到0并不意味着当n为10000时得到0。至于chisq.test,如下所示,我不确定是否可以将其用于包含少于5个的单元格,并且我收到一条警告消息,即近似值可能不正确。嗨,Ron,我不是统计学专家。你可以查看这一页。我认为只要chisq.test对您的数据起作用,您就不必太担心。