R 计算多个组中的共享和唯一标记
我在几个群体中输入了一组标记。一些标记是跨群体共享的(可能是所有群体或更少群体,例如5个群体中只有3个群体共享一个标记),而其他标记是特定群体独有的。一些标记可能在某些群体中缺失,但在其他群体中存在。我想计算每个群体特有的标记。 我有5个单独的文件,列出在每个群体中检测到的标记,输入文件是 标记物组1R 计算多个组中的共享和唯一标记,r,R,我在几个群体中输入了一组标记。一些标记是跨群体共享的(可能是所有群体或更少群体,例如5个群体中只有3个群体共享一个标记),而其他标记是特定群体独有的。一些标记可能在某些群体中缺失,但在其他群体中存在。我想计算每个群体特有的标记。 我有5个单独的文件,列出在每个群体中检测到的标记,输入文件是 标记物组1 snp1 snp2 snp3 snp4 snp5 snp6 snp7 snp8 snp9 snp10 snp11…snp100 组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组
snp1
snp2
snp3
snp4
snp5
snp6
snp7
snp8
snp9
snp10
snp11…snp100
组2的输入文件可能具有SNP 5、6、9、20-70。第3组至第5组也是如此;i、 它们携带不同的SNP组合。因此,如果将所有5个文件合并为一个文件,则会有一些单元格为空。我将使用Excel VLookup 它可以给你一个像这样的东西
ALL MARKERS File1 File2 File3 File4 last_file_with_marker COUNT
snp1 snp1 snp1 snp1 snp1 File4 4
snp2 snp2 snp2 snp2 File4 3
snp3 snp3 snp3 snp3 File3 3
snp4 snp4 File2 1
snp5 snp5 snp5 snp5 snp5 File4 4
如果File1位于工作表2上,则File1、File2、File3、File4列中所有单元格的公式可能类似于:
=VLOOKUP($A2&“”,Sheet2!数据,1,FALSE)
然后,您可以在下一列中添加内容(标题:最后一个\u文件\u和\u标记)
=查找(A2,B2:E2,$B$1:$E$1)
和一个count列来查找只有一个的。
=计数IF(B2:E2,A2)
您可以根据计数列进行排序,以找到具有唯一标记的单核苷酸多态性。谢谢,但我正在寻找一种先进的自动化解决方案,以便在r软件中使用,因为我在大组中键入了约500个单核苷酸多态性(n=3000个个体)。