python从文件中删除数据帧_Python_Pandas_Reshape

python从文件中删除数据帧

python pandas

python从文件中删除数据帧,python,pandas,reshape,Python,Pandas,Reshape,我想从一个文件创建一个dataframe对象。该文件看起来与此类似 Gibberish Header1 Gibberish Header2 Gibberish Header3 Gibberish Header4 (etc)... TAG THING_I_WANT_AS_COLUMN_NAME Column1 1.0 # I'll want this index as data 1 1.2 # I'll want this index as data 2 1.3 etc TAG THIN

我想从一个文件创建一个dataframe对象。该文件看起来与此类似

Gibberish Header1
Gibberish Header2
Gibberish Header3
Gibberish Header4 (etc)...
TAG THING_I_WANT_AS_COLUMN_NAME Column1
1.0  # I'll want this index as data 1 
1.2  # I'll want this index as data 2 
1.3  etc
TAG THING_I_WANT_AS_COLUMN_NAME Column2
1.1
1.1
1.7

我希望数据帧看起来类似于：

       Column_1    Column_2 
data1  1.0         1.1
data2  1.2         1.1
data3  1.3         1.7

有没有一种方法可以在不编写函数的情况下将其转换为可以直接写入DataFrame类的字典？我在考虑可能的重塑，但我真的不确定如何在我的情况下工作。我知道将其写入dict是一件容易的事情，但这些文件可能相当大，因此它可能会大大降低我的速度，甚至不可能使用我的RAM

任何帮助，即使是正确方向上的一点，都将不胜感激

谢谢

当从头开始创建熊猫数据帧时，我通常会。。。作为pd进口熊猫

# create array for each column
col1 = [float(35*x) for x in xrange(10)]
col2 = [float(220*x) for x in xrange(10)]

dict = {'col1_name': col1, 'coll2_name': col2}
df = pd.DataFrame(dict)

正如其他人所说，您必须首先解析数据。在没有看到实际数据的情况下，很难说清楚具体是什么。您可以在文件中的每一行上循环，忽略标题，一旦您点击了带有列名和内容的行并设置了标志。然后，可以开始向数组追加值。一旦你在数组中得到了两组数字，像我在上面做的那样建立一个字典，你就有了一个数据帧

不，您需要编写代码将其转换为pandas可以直接读取的格式（如CSV）。预解析并持久化，然后将其读入

数据帧

——无需将中间产品保留在内存中。