Python 熊猫-如何在数据帧中组合选定的行_Python_Pandas_Networkx

Python 熊猫-如何在数据帧中组合选定的行

python pandas

Python 熊猫-如何在数据帧中组合选定的行,python,pandas,networkx,Python,Pandas,Networkx,我一直在阅读一个巨大的（5 GB）gzip文件，格式如下： User1 User2 W 0 11 12 1 1 12 11 2 2 13 14 1 3 14 13 2 User1 User2 W 0 11 12 3 1 13 14 3 这基本上是一个有向图，表示具有一定权重的用户之间的连接。由于文件太大，我试图通过networkx读取它，构建一个有向图，然后将其设置

我一直在阅读一个巨大的（5 GB）gzip文件，格式如下：

   User1  User2  W
0     11     12  1
1     12     11  2
2     13     14  1
3     14     13  2

   User1  User2  W
0     11     12  3
1     13     14  3

这基本上是一个有向图，表示具有一定权重的用户之间的连接。由于文件太大，我试图通过networkx读取它，构建一个有向图，然后将其设置为无向。但是花了太多时间。所以我在考虑做同样的事情，分析熊猫数据帧。我想以以下形式返回上一个数据帧：

   User1  User2  W
0     11     12  1
1     12     11  2
2     13     14  1
3     14     13  2

   User1  User2  W
0     11     12  3
1     13     14  3

其中，两个方向上的公共链接已合并为一个，其中W为单个权重之和。任何帮助都将不胜感激。

可能有一种更简洁的方法，但这是有效的。主要的技巧是规范化数据，使User1始终是较低的数字ID。然后您可以使用

groupby

，因为

11,12

和

12,11

现在被认为代表相同的东西

In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})

In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)

In [333]: df = df.drop(['User1','User2'],axis=1)

In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]: 
U1  U2
11  12    3
13  14    3
Name: W, dtype: int64

要获得避免创建新变量的更简洁的代码，可以将中间的3个步骤替换为：

In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values

请注意，列切换可能比您想象的要复杂，请参见此处：

一般来说，要使这段代码快速，这将取决于您的数据。我不认为上面的代码会像您可能做的其他事情那样重要。例如，您的问题应该服从分块方法，在该方法中，您迭代代码的各个部分，每次迭代时逐渐缩小它。在这种情况下，您需要考虑的主要问题是在分块之前对数据进行排序，以尽量减少需要进行的传递次数。但是这样做应该可以让你在内存中完成所有的工作。

谢谢你的技巧！这是可行的，但因为我在处理大文件，所以我也在寻找更简洁的东西。我正在考虑，但再次感谢！好啊事实上，简洁性和速度在这里并不一定相关（或者在一般情况下！），但我将展示一个更简洁的方法，并且我将添加一些关于速度考虑的注释。好吧，太晚了！我将在这里留下评论。很高兴这对你有用。再次感谢约翰！：-）