Python 解析数据帧
我在从XML解析的单个数据帧中有以下数据Python 解析数据帧,python,pandas,Python,Pandas,我在从XML解析的单个数据帧中有以下数据 index xml_data 0 \n 1 sessionKey 2 JKX6G3_07092016_1476953673631 3 \n
index xml_data
0 \n
1 sessionKey
2 JKX6G3_07092016_1476953673631
3 \n
4 Number
5 JKX6G3
6 \n
7 CreateDate
8 1468040400000
9 \n
10 Id
11 83737626
12 1
13 \n
14 customerAge
15 64
16 1
我希望在“\n”之后的每一行都有一列,与该列关联的值就是下一行,例如:
sessionKey Number CreateDate Id Age
JKX6G3_07092016_1476953673631 JKX6G3 1.46804E+12 83737626 64
有没有比以下更优雅的方法:
对于doc_df.itertuples()中的行:
然后遍历每一行并进行解析
import pandas as pd
import numpy as np
# set dataframe
...
# get columns name
columns = []
count_n = 0
for i in range(0, len(df)-1):
if (df.iloc[i]['xml_data'] == '\\n'):
columns.append(df.iloc[i+1]['xml_data'])
count_n += 1
# generate new df
new_df = pd.DataFrame(columns = columns, index = np.arange(count_n))
j = 0
count = 0
# set values
for i in range(0, len(df)-2):
if (df.iloc[i]['xml_data'] == '\\n'):
new_df.iloc[j][df.iloc[i+1]['xml_data']] = df.iloc[i+2]['xml_data']
count += 1
if count == len(new_df):
count = 0
j += 1
new_df.dropna(inplace=True)
print(new_df)
结果:
sessionKey Number CreateDate Id customerAge
0 JKX6G3_07092016_1476953673631 JKX6G3 1468040400000 83737626 64
我将查找
\n
的位置,添加一个来定位键,添加2个值。然后构建一个数组和一个后续的数据帧
v = df.xml_data.values
a, b = np.where(v == '\\n')[0][None, :] + [[1], [2]]
pd.DataFrame([v[b]], columns=v[a])
sessionKey Number CreateDate Id customerAge
0 JKX6G3_07092016_1476953673631 JKX6G3 1468040400000 83737626 64
这也是我想要的解决方案,但@piRSquared解决方案正是我想要的。太好了!正是我想要的。谢谢