Python 熊猫：跨数据集列匹配_Python_Pandas

Python 熊猫：跨数据集列匹配

python pandas

Python 熊猫：跨数据集列匹配,python,pandas,Python,Pandas,有多个数据集，我想了解它们之间的潜在联系。例如，如果数据集A和B中的字符串列有许多相同的值，则可能是链接。有可能自动进行这种分析吗？您可以随时将它们制作成数据帧并进行检查。根据数据的大小，速度可能较慢。但这是一种非常基本的方法，下面的代码为学习目的创建了额外的数据帧，这不是最好的代码，但我想让您看到进展 import pandas as pd import numpy as np df = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.N

有多个数据集，我想了解它们之间的潜在联系。例如，如果数据集A和B中的字符串列有许多相同的值，则可能是链接。有可能自动进行这种分析吗？

您可以随时将它们制作成数据帧并进行检查。根据数据的大小，速度可能较慢。但这是一种非常基本的方法，下面的代码为学习目的创建了额外的数据帧，这不是最好的代码，但我想让您看到进展

import pandas as pd
import numpy as np
df = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.NaN], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : ['Pharmacy of IDAHO','Access medicare arkansas','NJ Pharmacy','Idaho Rx','CA Herbals','Florida Pharma','AK RX','Ohio Drugs','PA Rx','USA Pharma'], 
                    'D' : [123456,123456,1234567,12345678,12345,12345,12345678,123456789,1234567,np.NaN],
                    'E' : ['Assign','Unassign','Assign','Ugly','Appreciate','Undo','Assign','Unicycle','Assign','Unicorn',]})
df2 = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.NaN], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : ['Pharmacy of IDAHO','Arkansas','NJ Pharmacy','Idaho Rockies?','CA Herbals','blah blah','AK RX','test_test','PA Rx','USA4Lyfe'], 
                    'D' : [123456,123456,1234567,12345678,12345,12345,12345678,123456789,1234567,np.NaN]})
#Creates a Column in DF2 If Matching
df2['Values']= df['C'] == df2['C']
#Creates another dataframe where the values are only True
df3 = df2[df2['Values']== True]
#Prints the length of the DataFrame which actually gives you the amount of common values
print("There are",len(df3), "Occurences")

输出：

共发生5次

使用

pandas.merge

创建数据库样式join@PaulH我不想加入。我想知道要加入哪些栏目。开始挖掘

pandas.Series.unique