Python 从文本文件创建数据帧_Python_Dataframe

Python 从文本文件创建数据帧

python dataframe

Python 从文本文件创建数据帧,python,dataframe,Python,Dataframe,我有一个类似的文本文件sample.txt someText someText COLUMN1: value1, COLUMN2:value2, COLUMN3: value3 COLUMN1: value11, COLUMN2:value22, COLUMN3: value33 someOtherText someOtherText someOtherText someOtherText COLUMN1: value111, COLUMN2:value222, COLUMN3: value3

我有一个类似的文本文件

sample.txt

someText someText 
COLUMN1: value1, COLUMN2:value2, COLUMN3: value3
COLUMN1: value11, COLUMN2:value22, COLUMN3: value33
someOtherText someOtherText
someOtherText someOtherText
COLUMN1: value111, COLUMN2:value222, COLUMN3: value333

有什么好方法可以创建一个数据框架，其标题为COLUMN1、COLUMN2和COLUMN3，并将上述文本中的所有值放到相应的列中

非常感谢您提前

我将首先清理数据，我的意思是，过滤txt文件，使其只包含您未来的记录

COLUMN1: value1, COLUMN2:value2, COLUMN3: value3
COLUMN1: value11, COLUMN2:value22, COLUMN3: value33
COLUMN1: value111, COLUMN2:value222, COLUMN3: value333

如果您知道这行只包含这些单词（并且顺序相同），那么这是一个很好的起点。下一步是格式化，用一些正则表达式删除所有的“列…”，然后你就有了一个csv文件，可以加载到像pandas、spark之类的框架中

value1, value2, value3
value11, value22, value33
value111, value222, value333

请记住，在这种方法中，排序非常重要。另一种方法是以非常类似的方式转换为json文件：

{'COLUMN1': 'value1', 'COLUMN2': 'value2', 'COLUMN3': 'value3'}

引用列名是必需的，但值可能因其类型而异。

是否存在特定问题？你试过什么吗？请看。