Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/67.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 计算多个组中的共享和唯一标记_R - Fatal编程技术网

R 计算多个组中的共享和唯一标记

R 计算多个组中的共享和唯一标记,r,R,我在几个群体中输入了一组标记。一些标记是跨群体共享的(可能是所有群体或更少群体,例如5个群体中只有3个群体共享一个标记),而其他标记是特定群体独有的。一些标记可能在某些群体中缺失,但在其他群体中存在。我想计算每个群体特有的标记。 我有5个单独的文件,列出在每个群体中检测到的标记,输入文件是 标记物组1 snp1 snp2 snp3 snp4 snp5 snp6 snp7 snp8 snp9 snp10 snp11…snp100 组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组

我在几个群体中输入了一组标记。一些标记是跨群体共享的(可能是所有群体或更少群体,例如5个群体中只有3个群体共享一个标记),而其他标记是特定群体独有的。一些标记可能在某些群体中缺失,但在其他群体中存在。我想计算每个群体特有的标记。 我有5个单独的文件,列出在每个群体中检测到的标记,输入文件是

标记物组1
snp1
snp2
snp3
snp4
snp5
snp6
snp7
snp8
snp9
snp10
snp11…snp100


组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组也是如此;i、 它们携带不同的SNP组合。因此,如果将所有5个文件合并为一个文件,则会有一些单元格为空。

我将使用Excel VLookup

它可以给你一个像这样的东西

ALL MARKERS      File1     File2    File3    File4    last_file_with_marker   COUNT
snp1              snp1      snp1     snp1     snp1           File4               4
snp2              snp2      snp2              snp2           File4               3
snp3              snp3      snp3     snp3                    File3               3
snp4                        snp4                             File2               1
snp5              snp5      snp5     snp5     snp5           File4               4
如果File1位于工作表2上,则File1、File2、File3、File4列中所有单元格的公式可能类似于: =VLOOKUP($A2&“”,Sheet2!数据,1,FALSE)

然后,您可以在下一列中添加内容(标题:最后一个\u文件\u和\u标记) =查找(A2,B2:E2,$B$1:$E$1)

和一个count列来查找只有一个的。 =计数IF(B2:E2,A2)


您可以根据计数列进行排序,以找到具有唯一标记的单核苷酸多态性。

谢谢,但我正在寻找一种先进的自动化解决方案,以便在r软件中使用,因为我在大组中键入了约500个单核苷酸多态性(n=3000个个体)。