Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/297.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 熊猫:将一列变成一张表_Python_Pandas - Fatal编程技术网

Python 熊猫:将一列变成一张表

Python 熊猫:将一列变成一张表,python,pandas,Python,Pandas,我有一张桌子,实际上是两张桌子。表中的每一行是表A中的行和表B中的行,用“|”分隔。每个列中的列由“,”分隔 这是一个巨大的表(200GB),所以我需要有效地完成这项工作 样本数据: 0.0,0|586,abc,6 0.4,2|416,efg,3 1.0,8|007,hik,1 我想将表A作为熊猫表,将表B作为单独的熊猫表。“这是一个巨大的表(200 GB),因此我需要高效地完成此操作。”-然后不要使用pandas 如果必须,您可以首先将数据作为单个数据帧读入: df = pd.read_

我有一张桌子,实际上是两张桌子。表中的每一行是表A中的行和表B中的行,用“|”分隔。每个列中的列由“,”分隔

这是一个巨大的表(200GB),所以我需要有效地完成这项工作

样本数据:

0.0,0|586,abc,6
0.4,2|416,efg,3
1.0,8|007,hik,1
我想将表A作为熊猫表,将表B作为单独的熊猫表。

“这是一个巨大的表(200 GB),因此我需要高效地完成此操作。”-然后不要使用
pandas

如果必须,您可以首先将数据作为单个数据帧读入:

  df = pd.read_csv('test.txt', header=None, sep='[,|]')
然后根据需要分离数据:

  df1 = df.iloc[:, 0:3]
  df2 = df.iloc[:, 3:5]
  del df
这涉及到分离,并且只加载一次数据,但是您应该为这种大小的数据寻找不同的工具…

“这是一个巨大的表(200 GB),所以我需要高效地完成此操作。”-然后不要使用
熊猫

如果必须,您可以首先将数据作为单个数据帧读入:

  df = pd.read_csv('test.txt', header=None, sep='[,|]')
然后根据需要分离数据:

  df1 = df.iloc[:, 0:3]
  df2 = df.iloc[:, 3:5]
  del df

这涉及到分离,并且只加载一次数据,但是您应该为这种大小的数据寻找不同的工具…

您希望对此执行什么操作?除非你有一台巨大的机器,对于这种格式的原始200gb,你应该允许内存中的数据帧至少有600-700gb的RAM(这可能是非常保守的…在你开始之前可能甚至有1tb)。我有一台巨大的机器。好的。。。一开始至少有几百GB的ram?是的,我有,并且大小约为100 GB原始数据。之后您打算如何处理这些数据帧?您希望对此执行什么操作?除非你有一台巨大的机器,对于这种格式的原始200gb,你应该允许内存中的数据帧至少有600-700gb的RAM(这可能是非常保守的…在你开始之前可能甚至有1tb)。我有一台巨大的机器。好的。。。一开始至少有几百GB的ram?是的,我有,而且大小大约为100GB。之后你打算如何处理这些数据帧?为什么不使用pandas?核心python会更好地处理这个问题吗?@datanearyor-公平地说,如果您有足够的RAM,那么您可以使用pandas。我认为一个更传统的
大数据
工具是合适的,比如spark。你为什么不使用pandas呢?核心python会更好地处理这个问题吗?@datanearyor-公平地说,如果您有足够的RAM,那么您可以使用pandas。我认为更传统的
大数据
工具是合适的,例如spark。