Python 3.x 如何将非结构化文本数据转换为数据帧
我有一个数据集,其中一列如下所示:Python 3.x 如何将非结构化文本数据转换为数据帧,python-3.x,pandas,Python 3.x,Pandas,我有一个数据集,其中一列如下所示: Log_column A: 1 B:2 Action Type: This data is not relevant A: 1 B:4 Action Type: Hello World D:90 Null E:500-----K:"Hello" A B Action Type D E K 1 2 some_text Null Null Null 1 4 Null Null
Log_column
A: 1 B:2 Action Type: This data is not relevant
A: 1 B:4
Action Type: Hello World D:90
Null
E:500-----K:"Hello"
A B Action Type D E K
1 2 some_text Null Null Null
1 4 Null Null Null Null
列中的每个条目都是一种长key:value对,没有逗号分隔。如何获得这样的数据帧:
Log_column
A: 1 B:2 Action Type: This data is not relevant
A: 1 B:4
Action Type: Hello World D:90
Null
E:500-----K:"Hello"
A B Action Type D E K
1 2 some_text Null Null Null
1 4 Null Null Null Null
我如何使用熊猫和Numpy解决这个问题?列名可以有空格,这使得解析更加困难
然而,如果我们知道列名,那么它解决了问题吗?列
D
来自哪里?我认为您的预期输出需要更加关注。你是说只有键['A',B'
的值是相关的吗?其他一切都是nan
?否则,第1行列动作类型
中的一些文本是什么?你提前知道预期的键吗?或者它们是动态的吗?如果事先不知道,则是带空格的键(“动作类型”)几乎不可能正确解析