Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/297.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 跨多个列将匹配对分组在一起_Python_Pandas_Dataframe_Cluster Computing - Fatal编程技术网

Python 跨多个列将匹配对分组在一起

Python 跨多个列将匹配对分组在一起,python,pandas,dataframe,cluster-computing,Python,Pandas,Dataframe,Cluster Computing,谢谢你的阅读 我有一个数据框,看起来像这样: Col_A Col_B Col_C Col_D Col_E 1 2 null null null 1 null 3 null null null 2 3 null null null 2 null 4 null 1 null null null 5 每一行由两个ID之间的匹配

谢谢你的阅读

我有一个数据框,看起来像这样:

Col_A  Col_B   Col_C  Col_D  Col_E  
 1     2       null   null   null  
 1     null    3      null   null  
 null  2       3      null   null  
 null  2       null   4      null  
 1     null    null   null   5 
每一行由两个ID之间的匹配组成(例如,第一行中a列的ID1匹配到B列的ID2)

在上面的示例中,所有5个ID都已连接(1连接到2、2到3、2到4、1到5)。因此,我想创建一个新列,将所有这些行聚集在一起,以便轻松访问每组匹配对:

Col_A  Col_B   Col_C  Col_D  Col_E  Group ID
 1     2       null   null   null      1
 1     null    3      null   null      1
 null  2       3      null   null      1
 null  2       null   4      null      1
 1     null    null   null   5         1

我还没有找到一个类似的问题,但如果这是重复的,我道歉。非常感谢您的建议。

正如@YOBEN_S和@QuangHoang所建议的,您可以使用networkx库和类似的工具

鉴于df

df = pd.DataFrame({'Col_A': {0: 1.0, 1: 1.0, 2: np.nan, 3: np.nan, 4: 1.0, 5: np.nan},
 'Col_B': {0: 2.0, 1: np.nan, 2: 2.0, 3: 2.0, 4: np.nan, 5: np.nan},
 'Col_C': {0: np.nan, 1: 3.0, 2: 3.0, 3: np.nan, 4: np.nan, 5: np.nan},
 'Col_D': {0: np.nan, 1: np.nan, 2: np.nan, 3: 4.0, 4: np.nan, 5: np.nan},
 'Col_E': {0: np.nan, 1: np.nan, 2: np.nan, 3: np.nan, 4: 5.0, 5: np.nan},
 'Col_F': {0: np.nan, 1: np.nan, 2: np.nan, 3: np.nan, 4: np.nan, 5: 6.0},
 'Col_G': {0: np.nan, 1: np.nan, 2: np.nan, 3: np.nan, 4: np.nan, 5: 7.0}})

|    |   Col_A |   Col_B |   Col_C |   Col_D |   Col_E |   Col_F |   Col_G |
|---:|--------:|--------:|--------:|--------:|--------:|--------:|--------:|
|  0 |       1 |       2 |     nan |     nan |     nan |     nan |     nan |
|  1 |       1 |     nan |       3 |     nan |     nan |     nan |     nan |
|  2 |     nan |       2 |       3 |     nan |     nan |     nan |     nan |
|  3 |     nan |       2 |     nan |       4 |     nan |     nan |     nan |
|  4 |       1 |     nan |     nan |     nan |       5 |     nan |     nan |
|  5 |     nan |     nan |     nan |     nan |     nan |       6 |       7 |
使用

输出:

|    |   Col_A |   Col_B |   Col_C |   Col_D |   Col_E |   Col_F |   Col_G |   groupid |
|---:|--------:|--------:|--------:|--------:|--------:|--------:|--------:|----------:|
|  0 |       1 |       2 |     nan |     nan |     nan |     nan |     nan |         1 |
|  1 |       1 |     nan |       3 |     nan |     nan |     nan |     nan |         1 |
|  2 |     nan |       2 |       3 |     nan |     nan |     nan |     nan |         1 |
|  3 |     nan |       2 |     nan |       4 |     nan |     nan |     nan |         1 |
|  4 |       1 |     nan |     nan |     nan |       5 |     nan |     nan |         1 |
|  5 |     nan |     nan |     nan |     nan |     nan |       6 |       7 |         2 |

看起来像是网络问题~ checkout
networkx
package。干杯,这真的很有用-除了使用to\u numpy(),还有其他选择吗?是的,对于
df.to\u numpy()
,你可以使用
df.to\u numpy()
和旧版本的pandas。嗨,有没有其他选择来使用networkx/图论包(loop?)。这在较大的数据集(数十万行)上运行缓慢。Thanks@Joseph0210人力资源管理。。我不知道还有另一个简单的解决办法。我相信你可以编写一个自定义函数来做同样的事情,但我不确定它会更快。
|    |   Col_A |   Col_B |   Col_C |   Col_D |   Col_E |   Col_F |   Col_G |   groupid |
|---:|--------:|--------:|--------:|--------:|--------:|--------:|--------:|----------:|
|  0 |       1 |       2 |     nan |     nan |     nan |     nan |     nan |         1 |
|  1 |       1 |     nan |       3 |     nan |     nan |     nan |     nan |         1 |
|  2 |     nan |       2 |       3 |     nan |     nan |     nan |     nan |         1 |
|  3 |     nan |       2 |     nan |       4 |     nan |     nan |     nan |         1 |
|  4 |       1 |     nan |     nan |     nan |       5 |     nan |     nan |         1 |
|  5 |     nan |     nan |     nan |     nan |     nan |       6 |       7 |         2 |