Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/283.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 熊猫:跨数据集列匹配_Python_Pandas - Fatal编程技术网

Python 熊猫:跨数据集列匹配

Python 熊猫:跨数据集列匹配,python,pandas,Python,Pandas,有多个数据集,我想了解它们之间的潜在联系。例如,如果数据集A和B中的字符串列有许多相同的值,则可能是链接。有可能自动进行这种分析吗?您可以随时将它们制作成数据帧并进行检查。根据数据的大小,速度可能较慢。但这是一种非常基本的方法,下面的代码为学习目的创建了额外的数据帧,这不是最好的代码,但我想让您看到进展 import pandas as pd import numpy as np df = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.N

有多个数据集,我想了解它们之间的潜在联系。例如,如果数据集A和B中的字符串列有许多相同的值,则可能是链接。有可能自动进行这种分析吗?

您可以随时将它们制作成数据帧并进行检查。根据数据的大小,速度可能较慢。但这是一种非常基本的方法,下面的代码为学习目的创建了额外的数据帧,这不是最好的代码,但我想让您看到进展

import pandas as pd
import numpy as np
df = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.NaN], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : ['Pharmacy of IDAHO','Access medicare arkansas','NJ Pharmacy','Idaho Rx','CA Herbals','Florida Pharma','AK RX','Ohio Drugs','PA Rx','USA Pharma'], 
                    'D' : [123456,123456,1234567,12345678,12345,12345,12345678,123456789,1234567,np.NaN],
                    'E' : ['Assign','Unassign','Assign','Ugly','Appreciate','Undo','Assign','Unicycle','Assign','Unicorn',]})
df2 = pd.DataFrame({'A' : [np.NaN,np.NaN,3,4,5,5,3,1,5,np.NaN], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : ['Pharmacy of IDAHO','Arkansas','NJ Pharmacy','Idaho Rockies?','CA Herbals','blah blah','AK RX','test_test','PA Rx','USA4Lyfe'], 
                    'D' : [123456,123456,1234567,12345678,12345,12345,12345678,123456789,1234567,np.NaN]})
#Creates a Column in DF2 If Matching
df2['Values']= df['C'] == df2['C']
#Creates another dataframe where the values are only True
df3 = df2[df2['Values']== True]
#Prints the length of the DataFrame which actually gives you the amount of common values
print("There are",len(df3), "Occurences")
输出:
共发生5次

使用
pandas.merge
创建数据库样式join@PaulH我不想加入。我想知道要加入哪些栏目。开始挖掘
pandas.Series.unique