R 计算多个组中的共享和唯一标记_R

R 计算多个组中的共享和唯一标记

R 计算多个组中的共享和唯一标记,r,R,我在几个群体中输入了一组标记。一些标记是跨群体共享的（可能是所有群体或更少群体，例如5个群体中只有3个群体共享一个标记），而其他标记是特定群体独有的。一些标记可能在某些群体中缺失，但在其他群体中存在。我想计算每个群体特有的标记。我有5个单独的文件，列出在每个群体中检测到的标记，输入文件是标记物组1 snp1 snp2 snp3 snp4 snp5 snp6 snp7 snp8 snp9 snp10 snp11…snp100 组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组

我在几个群体中输入了一组标记。一些标记是跨群体共享的（可能是所有群体或更少群体，例如5个群体中只有3个群体共享一个标记），而其他标记是特定群体独有的。一些标记可能在某些群体中缺失，但在其他群体中存在。我想计算每个群体特有的标记。我有5个单独的文件，列出在每个群体中检测到的标记，输入文件是

标记物组1
snp1
snp2
snp3
snp4
snp5
snp6
snp7
snp8
snp9
snp10
snp11…snp100

组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组也是如此；i、它们携带不同的SNP组合。因此，如果将所有5个文件合并为一个文件，则会有一些单元格为空。

我将使用Excel VLookup

它可以给你一个像这样的东西

ALL MARKERS      File1     File2    File3    File4    last_file_with_marker   COUNT
snp1              snp1      snp1     snp1     snp1           File4               4
snp2              snp2      snp2              snp2           File4               3
snp3              snp3      snp3     snp3                    File3               3
snp4                        snp4                             File2               1
snp5              snp5      snp5     snp5     snp5           File4               4

如果File1位于工作表2上，则File1、File2、File3、File4列中所有单元格的公式可能类似于： =VLOOKUP（$A2&“”，Sheet2！数据，1，FALSE）

然后，您可以在下一列中添加内容（标题：最后一个\u文件\u和\u标记） =查找（A2，B2:E2，$B$1:$E$1）

和一个count列来查找只有一个的。 =计数IF（B2:E2，A2）

您可以根据计数列进行排序，以找到具有唯一标记的单核苷酸多态性。

谢谢，但我正在寻找一种先进的自动化解决方案，以便在r软件中使用，因为我在大组中键入了约500个单核苷酸多态性（n=3000个个体）。