Python 在Pandas中合并索引上几乎重复的字符串行?

Python 在Pandas中合并索引上几乎重复的字符串行?,python,pandas,Python,Pandas,我有一个数据集,每个记录有两个副本。每个记录都有一个ID,每个副本都有相同的ID 在记录的两份副本中,18个字段中有15个字段是相同的。但在3个字段中,顶行包含2个项目和1个NAN;最下面一行包含1个项目(最上面一行有一个NAN)和2个NAN(最上面一行有项目)。有时会出现不遵循此模式的随机NAN 我需要将每条记录折叠成一条,这样我就有了一条包含所有3个非NAN字段的记录 我尝试过各种版本的groupby。但这忽略了我需要的3个字段,它们都是基于字符串的。它将某些数值字段的值加倍 如果所有这些都

我有一个数据集,每个记录有两个副本。每个记录都有一个ID,每个副本都有相同的ID

在记录的两份副本中,18个字段中有15个字段是相同的。但在3个字段中,顶行包含2个项目和1个NAN;最下面一行包含1个项目(最上面一行有一个NAN)和2个NAN(最上面一行有项目)。有时会出现不遵循此模式的随机NAN

我需要将每条记录折叠成一条,这样我就有了一条包含所有3个非NAN字段的记录

我尝试过各种版本的
groupby
。但这忽略了我需要的3个字段,它们都是基于字符串的。它将某些数值字段的值加倍

如果所有这些都失败了,我将把字母字段转换成数字代码和df.groupby(['ID']).agg('sum')


但我认为可能有一种更聪明的方法可以做到这一点。

欢迎使用堆栈溢出!请查看并提供一个包含样本输入和样本输出的示例,以便我们更好地了解您的问题您想要的聚合是
第一个
df.groupby('ID').agg('first')
。此外,对字符串求和也不好:可以添加数据集的示例吗?您是否尝试过使用for循环函数用相同id的非nan字符串填充nan?欢迎使用堆栈溢出!请查看并提供一个包含样本输入和样本输出的示例,以便我们更好地了解您的问题您想要的聚合是
第一个
df.groupby('ID').agg('first')
。此外,对字符串求和也不好:可以添加数据集的示例吗?您是否尝试过使用for循环函数用相同id的非nan字符串填充nan?