Python 计算数据帧中的唯一名称
我将大数据框简化为这个简单的数据框:Python 计算数据帧中的唯一名称,python,pandas,dataframe,iteration,Python,Pandas,Dataframe,Iteration,我将大数据框简化为这个简单的数据框: IDX POS REF ALT 13 633 C A 15 643 C T 42 2015 G A 43 2016 G A 151 9538 T C 154 9542 TC TCC,T 169 10041 T A 170 10041 T TAA,TA 数据来自一个具有核苷酸位置的基因组区域以及来自同一位置不同人群的参考基因组核苷酸和替代核苷酸。我发现有些位置(95
IDX POS REF ALT
13 633 C A
15 643 C T
42 2015 G A
43 2016 G A
151 9538 T C
154 9542 TC TCC,T
169 10041 T A
170 10041 T TAA,TA
数据来自一个具有核苷酸位置的基因组区域以及来自同一位置不同人群的参考基因组核苷酸和替代核苷酸。我发现有些位置(9542和10041)有两种不同的核苷酸替代物
我想遍历ALT列并计算唯一核苷酸的数量,以形成一个包含计数的单独列。我还没有看到如何使用python实现这一点
然后,新数据帧将如下所示:
IDX POS REF ALT COUNT
13 633 C A 1
15 643 C T 1
42 2015 G A 1
43 2016 G A 1
151 9538 T C 1
154 9542 TC TCC,T 2
169 10041 T A 1
170 10041 T TAA,TA 2
熊猫(或者仅仅是蟒蛇)是如何做到这一点的
多谢各位
罗德里戈我要
数一数
逗号,加上1
df['COUNT'] = df.ALT.str.count(',') + 1