Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 对字符串列执行pd.merge时出现键错误_Python_Pandas_Join - Fatal编程技术网

Python 对字符串列执行pd.merge时出现键错误

Python 对字符串列执行pd.merge时出现键错误,python,pandas,join,Python,Pandas,Join,在两个数据帧上执行合并时遇到问题 我的数据如下,其中一个数据集包含121种不同指示物种的140000个发生记录,例如: taxon spp1 spp1 spp118 spp98 spp64 spp119 另一个包含121个物种的列表,带有数字分数,例如: taxon score spp1 8 spp2 4 spp3 2 spp4 7 ... spp118 4 spp119 2 spp120 1 spp121 8 我希望使用分类单元列作为连接字段将分数列连接到数据集,以便进行

在两个数据帧上执行合并时遇到问题

我的数据如下,其中一个数据集包含121种不同指示物种的140000个发生记录,例如:

taxon
spp1
spp1
spp118
spp98
spp64
spp119
另一个包含121个物种的列表,带有数字分数,例如:

taxon  score
spp1   8
spp2   4
spp3   2
spp4   7
...
spp118 4
spp119 2
spp120 1
spp121 8
我希望使用分类单元列作为连接字段将分数列连接到数据集,以便进行后续分析,我设想如下输出:

taxon  score
spp1   8
spp1   8
spp118 4
spp98  6
spp64  2
spp119 2
到目前为止,我尝试了以下方法:

data_in1 = pd.read_csv(r'occourence_list.csv', encoding='utf-8')
df1 = pd.DataFrame(data_in1)
df1['taxon'] = df1['taxon'].astype(str)
print(df1.head())
print(df1.dtypes)

data_in2 = pd.read_csv(r'score_list.csv', encoding='utf-8')
df2 = pd.DataFrame(data_in2)
df2['taxon'] = df2['taxon'].astype(str)
print(df2.head())
print(df2.dtypes)

result = pd.merge(df1,
                  df2[['iapa_score']],
                  left_on=['taxon'],
                  right_on=['taxon'],
                  how='outer')

print(result.head())
但是,这将返回以下错误:

Traceback (most recent call last):
  File "C:/Users/", line 19, in <module>
    how='outer')
  File "C:\Program Files\ArcGIS\Pro\bin\Python\envs\arcgispro-py3\lib\site-packages\pandas\core\reshape\merge.py", line 47, in merge
    validate=validate)
  File "C:\Program Files\ArcGIS\Pro\bin\Python\envs\arcgispro-py3\lib\site-packages\pandas\core\reshape\merge.py", line 529, in __init__
    self.join_names) = self._get_merge_keys()
  File "C:\Program Files\ArcGIS\Pro\bin\Python\envs\arcgispro-py3\lib\site-packages\pandas\core\reshape\merge.py", line 833, in _get_merge_keys
    right._get_label_or_level_values(rk))
  File "C:\Program Files\ArcGIS\Pro\bin\Python\envs\arcgispro-py3\lib\site-packages\pandas\core\generic.py", line 1706, in _get_label_or_level_values
    raise KeyError(key)
KeyError: 'taxon'

我偶然发现了一个解决方案,我改变了:

result = pd.merge(df1,
                  df2[['iapa_score']],
                  left_on=['taxon'],
                  right_on=['taxon'],
                  how='outer')


它成功了。我的印象是,在第二个数据框之后[]内的列名暗示了您希望加入的列。

在我看来,问题来自这行df2['iapa_分数']],因为如果您将数据框限制为列iapa_分数,则列分类单元将不再出现,因此出现了关键错误。您还应该在合并中使用参数how='left',因为您只想保留来自df1的行

我自己创建了2个数据帧来重现您的情况,请看一下:

df1 = pd.DataFrame({'taxon': ["spp1", "spp1", "spp3"]})
df2 = pd.DataFrame({'taxon': ["spp1", "spp2", "spp3", "spp4"], 'score': ["8", "7", "6", "17"]})
result = pd.merge(df1,
                  df2,
                  left_on=['taxon'],
                  right_on=['taxon'],
                  how='left')
print(result)
df1:

df2:

结果:

  taxon score
0  spp1     8
1  spp1     8
2  spp3     6

感谢您的解释,我偶然发现了导致关键错误的原因,这使它更加清晰,并指出了从外部连接到左连接的变化。
  taxon
0  spp1
1  spp1
2  spp3
  taxon score
0  spp1     8
1  spp2     7
2  spp3     6
3  spp4    17
  taxon score
0  spp1     8
1  spp1     8
2  spp3     6