Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/wix/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R:在至少X个相同类型的样本中,计算超过阈值的条目数?_R_Count_Threshold_Subset - Fatal编程技术网

R:在至少X个相同类型的样本中,计算超过阈值的条目数?

R:在至少X个相同类型的样本中,计算超过阈值的条目数?,r,count,threshold,subset,R,Count,Threshold,Subset,我想在至少X个相同类型(列ID)的样本中计算超过阈值的行条目数?下面是我想做的一个例子: 在至少2个同一类型的品种中,计算计数高于5的基因(g1-g4)数量 Cultivar A A B B B g1 5 2 6 7 10 g2 6 9 3 2 1 g3 2 1 3 4 5 g4 4 6 7 3 2 计数结果必须是g1、g2,但不是g3和g4。 结果=2。 我知道如何计算两个随机样本中的基因数量,并对过程进行随机和二次抽样: #Filter f

我想在至少X个相同类型(列ID)的样本中计算超过阈值的行条目数?下面是我想做的一个例子:

在至少2个同一类型的品种中,计算计数高于5的基因(g1-g4)数量

Cultivar A A B B B
g1       5 2 6 7 10
g2       6 9 3 2 1
g3       2 1 3 4 5
g4       4 6 7 3 2 
计数结果必须是g1、g2,但不是g3和g4。 结果=2。 我知道如何计算两个随机样本中的基因数量,并对过程进行随机和二次抽样:

#Filter for genes with values larger than 5 reads in at least 2 random samples
# Replace values >5 to 1
Gene_counts1=ifelse(RAW_gene_counts>5,1,0)
# Number of randomizations 100
MATRIX = matrix(NA,100,length(SAMPLE))
x=1
SAMPLE = c(10,20,30,40,50,60)
for(i in SAMPLE){
for (j in 1:100){
    columns = sample(1:ncol(Gene_counts1), i, replace = TRUE)
    random_sample = mapply(function(row,col)return(Gene_counts1[row,col]), col=columns)
    MATRIX[j,x] = sum(rowSums(random_sample)>=2)
    }
    x=x+1
}
MATRIX
colnames(MATRIX)=SAMPLE

有人能帮我吗?

品种是指
A
s和
B
s还是指
g1
g2
,等等?此外,作为效率的一般概念,您可以简单地使用
Gene_counts1=as.integer(RAW_Gene_counts>5)
而不是
Gene_counts1=ifelse(RAW_Gene_counts>5,1,0)
请以
dput(RAW_Gene_counts)
dput(head(RAW_Gene_counts))的输出形式提供数据
。品种指As和Bs结构(列表(V2=结构(c(5L,3L,4L,1L,2L),.Label=结构(c(“2”,“4”,“5”,“6”,“A”),class=“factor”),V3=结构(c(5L,2L,4L,1L,3L),.Label=结构(c(4L,2L,1L,1L,1L,3L),.Label=结构)(c(“3”,“6”,“7”,“B”),class=“factor”),V5=结构(c(5L,4L,1L,3L,2L),.Label=c(“2”,“3”,“4”,“7”,“B”),class=“factor”),.Names=c(“V2”,“V3”,“V4”,“V5”),class=“data.frame”,row.Names=c(“品种”,“g1”,“g2”,“g3”,“g4”))