Python 清理数据集的最佳方法
我正在寻找最好的方法,将这些数据整理成我可以输入的数据框,以便进一步分析。前几行数据目前的结构如下(有几千行数据): 各栏如下: 标识符,未使用,常数,z1,z2,z3,z4,z5,z6,未使用,z7, z8,yPT,未使用,未使用 因此,并非数据中的每一列都是重要的,但是,如果可以将其转换为pandas数据帧,我可以很容易地处理这一点。尝试一下(如果您更方便,也可以从文件中读取):Python 清理数据集的最佳方法,python,pandas,machine-learning,deep-learning,data-science,Python,Pandas,Machine Learning,Deep Learning,Data Science,我正在寻找最好的方法,将这些数据整理成我可以输入的数据框,以便进一步分析。前几行数据目前的结构如下(有几千行数据): 各栏如下: 标识符,未使用,常数,z1,z2,z3,z4,z5,z6,未使用,z7, z8,yPT,未使用,未使用 因此,并非数据中的每一列都是重要的,但是,如果可以将其转换为pandas数据帧,我可以很容易地处理这一点。尝试一下(如果您更方便,也可以从文件中读取): 将熊猫作为pd导入 输入=“” 4 0 1. 1 37.0 10.000 0 3 18. 40.0 7
将熊猫作为pd导入
输入=“”
4 0 1. 1 37.0 10.000 0 3 18. 40.0 7 4 0. 01.
5 0 1. 0 27.0 4.000 0 4 14. 20.0 6 4 0. 01.
11 0 1. 0 32.0 15.000 1 1 12. 12.5 1 4 0. 01.
16 0 1. 1 57.0 15.000 1 5 18. 12.5 6 5 0. 01.
23 0 1. 1 22.0 0.750 0 2 17. 7.5 6 3 0. 01.
29 0 1. 0 32.0 1.500 0 2 17. 7.5 5 5 0. 01.
44 0 1. 0 22.0 0.750 0 2 12. 12.5 1 3 0. 01.
45 0 1. 1 57.0 15.000 1 2 14. 20.0 4 4 0. 01.
47 0 1. 0 32.0 15.000 1 4 16. 20.0 1 2 0. 01.
49 0 1. 1 22.0 1.500 0 4 14. 12.5 4 5 0. 01.
50 0 1. 1 37.0 15.000 1 2 20. 20.0 7 2 0. 01.
55 0 1. 1 27.0 4.000 1 4 18. 12.5 6 4 0. 01.
'''
input_uarr=[[行中单元格的单元格。拆分(“”)如果单元格!='']如果行!=''输入中行的单元格。拆分(“\n”)如果行!='']
hdrs=[“标识符”、“未使用”、“常量”、“z1”、“z2”、“z3”、“z4”、“z5”、“z6”、“未使用”、“z7”、“z8”、“yPT”、“未使用”、“未使用”]
df=pd.DataFrame(数据=输入,列=HDR)
df=df[[col for col in df.columns if col!=“not used”]]
打印(测向头(10))
输出:
标识符常数z1 z2 z3 z4 z5 z6 z7 z8 yPT
0 4 1. 1 37.0 10.000 0 3 18. 7 4 0.
1 5 1. 0 27.0 4.000 0 4 14. 6 4 0.
2 11 1. 0 32.0 15.000 1 1 12. 1 4 0.
3 16 1. 1 57.0 15.000 1 5 18. 6 5 0.
4 23 1. 1 22.0 0.750 0 2 17. 6 3 0.
5 29 1. 0 32.0 1.500 0 2 17. 5 5 0.
6 44 1. 0 22.0 0.750 0 2 12. 1 3 0.
7 45 1. 1 57.0 15.000 1 2 14. 4 4 0.
8 47 1. 0 32.0 15.000 1 4 16. 1 2 0.
9 49 1. 1 22.0 1.500 0 4 14. 4 5 0.
你能用带有标题的文件制作一个csv文件吗?这对我帮助很大,谢谢!
4 0 1. 1 37.0 10.000 0 3 18. 40.0 7 4 0. 0. 1.
5 0 1. 0 27.0 4.000 0 4 14. 20.0 6 4 0. 0. 1.
11 0 1. 0 32.0 15.000 1 1 12. 12.5 1 4 0. 0. 1.
16 0 1. 1 57.0 15.000 1 5 18. 12.5 6 5 0. 0. 1.
23 0 1. 1 22.0 0.750 0 2 17. 7.5 6 3 0. 0. 1.
29 0 1. 0 32.0 1.500 0 2 17. 7.5 5 5 0. 0. 1.
44 0 1. 0 22.0 0.750 0 2 12. 12.5 1 3 0. 0. 1.
45 0 1. 1 57.0 15.000 1 2 14. 20.0 4 4 0. 0. 1.
47 0 1. 0 32.0 15.000 1 4 16. 20.0 1 2 0. 0. 1.
49 0 1. 1 22.0 1.500 0 4 14. 12.5 4 5 0. 0. 1.
50 0 1. 1 37.0 15.000 1 2 20. 20.0 7 2 0. 0. 1.
55 0 1. 1 27.0 4.000 1 4 18. 12.5 6 4 0. 0. 1.