Python 熊猫：将一列变成一张表_Python_Pandas

Python 熊猫：将一列变成一张表

python pandas

Python 熊猫：将一列变成一张表,python,pandas,Python,Pandas,我有一张桌子，实际上是两张桌子。表中的每一行是表A中的行和表B中的行，用“|”分隔。每个列中的列由“，”分隔这是一个巨大的表（200GB），所以我需要有效地完成这项工作样本数据： 0.0,0|586,abc,6 0.4,2|416,efg,3 1.0,8|007,hik,1 我想将表A作为熊猫表，将表B作为单独的熊猫表。“这是一个巨大的表（200 GB），因此我需要高效地完成此操作。”-然后不要使用pandas 如果必须，您可以首先将数据作为单个数据帧读入： df = pd.read_

我有一张桌子，实际上是两张桌子。表中的每一行是表A中的行和表B中的行，用“|”分隔。每个列中的列由“，”分隔

这是一个巨大的表（200GB），所以我需要有效地完成这项工作

样本数据：

0.0,0|586,abc,6
0.4,2|416,efg,3
1.0,8|007,hik,1

我想将表A作为熊猫表，将表B作为单独的熊猫表。

“这是一个巨大的表（200 GB），因此我需要高效地完成此操作。”-然后不要使用

pandas

如果必须，您可以首先将数据作为单个数据帧读入：

  df = pd.read_csv('test.txt', header=None, sep='[,|]')

然后根据需要分离数据：

  df1 = df.iloc[:, 0:3]
  df2 = df.iloc[:, 3:5]
  del df

这涉及到分离，并且只加载一次数据，但是您应该为这种大小的数据寻找不同的工具…

“这是一个巨大的表（200 GB），所以我需要高效地完成此操作。”-然后不要使用

熊猫
如果必须，您可以首先将数据作为单个数据帧读入：
  df = pd.read_csv('test.txt', header=None, sep='[,|]')

然后根据需要分离数据：
  df1 = df.iloc[:, 0:3]
  df2 = df.iloc[:, 3:5]
  del df

这涉及到分离，并且只加载一次数据，但是您应该为这种大小的数据寻找不同的工具…
您希望对此执行什么操作？除非你有一台巨大的机器，对于这种格式的原始200gb，你应该允许内存中的数据帧至少有600-700gb的RAM（这可能是非常保守的…在你开始之前可能甚至有1tb）。我有一台巨大的机器。好的。。。一开始至少有几百GB的ram？是的，我有，并且大小约为100 GB原始数据。之后您打算如何处理这些数据帧？您希望对此执行什么操作？除非你有一台巨大的机器，对于这种格式的原始200gb，你应该允许内存中的数据帧至少有600-700gb的RAM（这可能是非常保守的…在你开始之前可能甚至有1tb）。我有一台巨大的机器。好的。。。一开始至少有几百GB的ram？是的，我有，而且大小大约为100GB。之后你打算如何处理这些数据帧？为什么不使用pandas？核心python会更好地处理这个问题吗？@datanearyor-公平地说，如果您有足够的RAM，那么您可以使用pandas。我认为一个更传统的大数据工具是合适的，比如spark。你为什么不使用pandas呢？核心python会更好地处理这个问题吗？@datanearyor-公平地说，如果您有足够的RAM，那么您可以使用pandas。我认为更传统的大数据工具是合适的，例如spark。