Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/299.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 熊猫-如何在数据帧中组合选定的行_Python_Pandas_Networkx - Fatal编程技术网

Python 熊猫-如何在数据帧中组合选定的行

Python 熊猫-如何在数据帧中组合选定的行,python,pandas,networkx,Python,Pandas,Networkx,我一直在阅读一个巨大的(5 GB)gzip文件,格式如下: User1 User2 W 0 11 12 1 1 12 11 2 2 13 14 1 3 14 13 2 User1 User2 W 0 11 12 3 1 13 14 3 这基本上是一个有向图,表示具有一定权重的用户之间的连接。由于文件太大,我试图通过networkx读取它,构建一个有向图,然后将其设置

我一直在阅读一个巨大的(5 GB)gzip文件,格式如下:

   User1  User2  W
0     11     12  1
1     12     11  2
2     13     14  1
3     14     13  2
   User1  User2  W
0     11     12  3
1     13     14  3
这基本上是一个有向图,表示具有一定权重的用户之间的连接。由于文件太大,我试图通过networkx读取它,构建一个有向图,然后将其设置为无向。但是花了太多时间。所以我在考虑做同样的事情,分析熊猫数据帧。我想以以下形式返回上一个数据帧:

   User1  User2  W
0     11     12  1
1     12     11  2
2     13     14  1
3     14     13  2
   User1  User2  W
0     11     12  3
1     13     14  3

其中,两个方向上的公共链接已合并为一个,其中W为单个权重之和。任何帮助都将不胜感激。

可能有一种更简洁的方法,但这是有效的。主要的技巧是规范化数据,使User1始终是较低的数字ID。然后您可以使用
groupby
,因为
11,12
12,11
现在被认为代表相同的东西

In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})

In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)

In [333]: df = df.drop(['User1','User2'],axis=1)

In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]: 
U1  U2
11  12    3
13  14    3
Name: W, dtype: int64
要获得避免创建新变量的更简洁的代码,可以将中间的3个步骤替换为:

In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values
请注意,列切换可能比您想象的要复杂,请参见此处:


一般来说,要使这段代码快速,这将取决于您的数据。我不认为上面的代码会像您可能做的其他事情那样重要。例如,您的问题应该服从分块方法,在该方法中,您迭代代码的各个部分,每次迭代时逐渐缩小它。在这种情况下,您需要考虑的主要问题是在分块之前对数据进行排序,以尽量减少需要进行的传递次数。但是这样做应该可以让你在内存中完成所有的工作。

谢谢你的技巧!这是可行的,但因为我在处理大文件,所以我也在寻找更简洁的东西。我正在考虑,但再次感谢!好啊事实上,简洁性和速度在这里并不一定相关(或者在一般情况下!),但我将展示一个更简洁的方法,并且我将添加一些关于速度考虑的注释。好吧,太晚了!我将在这里留下评论。很高兴这对你有用。再次感谢约翰!:-)