Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/299.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 在多索引数据帧中计算值并将其放入第二级列_Python_Pandas_Dataframe_Data Manipulation_Multi Index - Fatal编程技术网

Python 在多索引数据帧中计算值并将其放入第二级列

Python 在多索引数据帧中计算值并将其放入第二级列,python,pandas,dataframe,data-manipulation,multi-index,Python,Pandas,Dataframe,Data Manipulation,Multi Index,我有一个多索引数据框,我想在其中放置一个名为AB的二级列。该二级列的值应等于每个样本的AD[1]/DP,例如,样本1 AB=60/180 import pandas as pd import numpy as np genotype_data = [ ['0/1', '120,60', 180, 5, '0/1', '200,2', 202, 99], ['0/1', '200,20', 60, 99, '0/1'

我有一个多索引数据框,我想在其中放置一个名为AB的二级列。该二级列的值应等于每个样本的AD[1]/DP,例如,样本1 AB=60/180

import pandas as pd
import numpy as np

genotype_data = [
                    ['0/1', '120,60', 180, 5, '0/1', '200,2', 202, 99],
                    ['0/1', '200,20', 60, 99, '0/1', '200,50', 250, 99],
                    ['0/1', '200,2', 202, 99, '0/1', '200,2', 202, 99] 
]


genotype_columns = [['Sample1', 'Sample2'], ['GT', 'AD', 'DP', 'GQ']]
cols = pd.MultiIndex.from_product(genotype_columns)
df = pd.DataFrame(data=genotype_data, columns=cols)
此代码生成以下输入文件/df:

   Sample1                        Sample2                       
GT      AD   DP  GQ      GT      AD   DP  GQ
0/1  120,60  180   5     0/1   200,2  202  99
0/1  200,20   60   3     0/1  200,50  250  99
0/1   200,2  202  99     0/1   200,2  202  99
预期结果应为:

      Sample1                        Sample2                       
GT      AD   DP  GQ    AB      GT      AD   DP  GQ    AB
0/1  120,60  180   5  0.33     0/1   200,2  202  99  0.01
0/1  200,20   60   3  0.33     0/1  200,50  250  99  0.20
0/1   200,2  202  99  0.01     0/1   200,2  202  99  0.01
我已经想出了一个解决方案,但它非常缓慢,效率低下,并且依赖于循环。我需要一个更有效的解决方案,因为我将在非常大的文件上执行此操作

def calc_AB(df):

    sam = df.columns.levels[0][0]
    AD = df.xs('AD', level=1, axis=1).unstack().str.split(",", n=2)
    DP = df.xs('DP', level=1, axis=1).unstack()
    AB = round(pd.to_numeric(AD.str[1]) / pd.to_numeric(DP), 2)
    df[sam, 'AB'] = AB.tolist()

    return df 


dfs = [calc_AB(df[[sam]].astype(str)) for sam in df.columns.levels[0].tolist()]

pd.concat(dfs, axis=1) 

非常感谢您的帮助。

您需要重新组织索引,以确保只有一列名为“AD”:

df.columns = df.columns.swaplevel(0,1)
stacked = df.stack()
#               AD   DP  GQ   GT    
#0 Sample1  120,60  180   5  0/1  
#  Sample2   200,2  202  99  0/1 
#1 Sample1  200,20   60  99  0/1 
#  Sample2  200,50  250  99  0/1 
#2 Sample1   200,2  202  99  0/1 
#  Sample2   200,2  202  99  0/1 
现在计算新列非常简单:

stacked['AB'] = stacked['AD'].str.split(',').str[1].astype(int)/stacked['DP']

stacked
#               AD   DP  GQ   GT        AB
#0 Sample1  120,60  180   5  0/1  0.333333
#  Sample2   200,2  202  99  0/1  0.009901
#1 Sample1  200,20   60  99  0/1  0.333333
#  Sample2  200,50  250  99  0/1  0.200000
#2 Sample1   200,2  202  99  0/1  0.009901
#  Sample2   200,2  202  99  0/1  0.009901

如果需要,可以将索引恢复到以前的任何位置。

我喜欢使用stack()。。。要取消堆栈df=stacked.stack().unstack([1,-1]).sort_index(),令人惊讶/遗憾的是,这与我的解决方案需要相同的处理时间。不过,它更干净、更好,所以我现在就使用它。在对不同的大文件进行进一步测试后,我发现它实际上比我的解决方案慢约8倍。