相对频率有差异吗?使用R

相对频率有差异吗?使用R,r,R,我需要帮助,试图找出如何使用R来确定我的数据集的相对频率是否存在差异。我一直在读关于各种可能性的书,但我不确定我是否做对了。我想知道的是,V13和V35 gene.fragment的“Total.Clusters”列下的值是否与整个gene.fragment值有显著差异。这就是我的数据,我有9700个数据点: Total.Clusters Singleton.clusters >1seq.clusters gene.fragment algorithm 5427

我需要帮助,试图找出如何使用
R
来确定我的数据集的相对频率是否存在差异。我一直在读关于各种可能性的书,但我不确定我是否做对了。我想知道的是,V13和V35 gene.fragment的“Total.Clusters”列下的值是否与整个gene.fragment值有显著差异。这就是我的数据,我有9700个数据点:

Total.Clusters  Singleton.clusters >1seq.clusters   gene.fragment   algorithm
5427              3767             1660             whole           uclust
5929              4277             1652             V13             uclust
3911              2312             1599             V35             uclust
要测试正态性,我会在R中执行以下操作:

data1<-read.csv(file.choose())    
x<-data1[,c(1)])    
shapiro.test(x)
## 
## Shapiro-Wilk normality test
## data:  x
## W = 0.9224, p-value = 0.4607`
data1
所以本质上,我试图弄清楚5427和5929是否彼此有显著差异,以及5427和3911是否彼此有显著差异

这没有道理;您无法测试单个数字之间的显著差异。您可以测试的是
all
V13
V35
的分布是否存在显著差异。您可以使用
pairwise.t.test

pairwise.t.test(data1$Total.Clusters, data1$gene.fragment, p.adjust.method="none")

查看
?pairwise.t.test
查看多重比较选项。

您有多少个数据点?查看
pairwise.t.test
函数我有9700个数据点(我会把它添加到问题中,谢谢!)