Python 连接两列
我有两个文本列A和B。我想取第一个非空字符串,或者如果A和B都有值,则取A中的值。C是我试图创建的列:Python 连接两列,python,pandas,dataframe,Python,Pandas,Dataframe,我有两个文本列A和B。我想取第一个非空字符串,或者如果A和B都有值,则取A中的值。C是我试图创建的列: import pandas as pd cols = ['A','B'] data = [['data','data'], ['','data'], ['',''], ['data1','data2']] df = pd.DataFrame.from_records(data=data, columns=cols) A
import pandas as pd
cols = ['A','B']
data = [['data','data'],
['','data'],
['',''],
['data1','data2']]
df = pd.DataFrame.from_records(data=data, columns=cols)
A B
0 data data
1 data
2
3 data1 data2
我的尝试:
df['C'] = df[cols].apply(lambda row: sorted([val if val else '' for val in row], reverse=True)[0], axis=1) #Reverse sort to avoid picking an empty string
A B C
0 data data data
1 data data
2
3 data1 data2 data2 #I want data1 here
预期产出:
A B C
0 data data data
1 data data
2
3 data1 data2 data1
我想我需要与SQL coalesce等效的pandas。让我们试试
idxmax
+lookup
:
df['C'] = df.lookup(df.index, df.ne('').idxmax(1))
或者,您可以使用系列。其中
:
df['C'] = df['A'].where(lambda x: x.ne(''), df['B'])
您还可以使用:
A B C
0 data data data
1 data data
2
3 data1 data2 data1
In [1022]: import numpy as np
In [1023]: df['C'] = np.where(df['A'].eq(''), df['B'], df['A'])
In [1024]: df
Out[1024]:
A B C
0 data data data
1 data data
2
3 data1 data2 data1