Python 清理数据集的最佳方法

Python 清理数据集的最佳方法,python,pandas,machine-learning,deep-learning,data-science,Python,Pandas,Machine Learning,Deep Learning,Data Science,我正在寻找最好的方法,将这些数据整理成我可以输入的数据框,以便进一步分析。前几行数据目前的结构如下(有几千行数据): 各栏如下: 标识符,未使用,常数,z1,z2,z3,z4,z5,z6,未使用,z7, z8,yPT,未使用,未使用 因此,并非数据中的每一列都是重要的,但是,如果可以将其转换为pandas数据帧,我可以很容易地处理这一点。尝试一下(如果您更方便,也可以从文件中读取): 将熊猫作为pd导入 输入=“” 4 0 1. 1 37.0 10.000 0 3 18. 40.0 7

我正在寻找最好的方法,将这些数据整理成我可以输入的数据框,以便进一步分析。前几行数据目前的结构如下(有几千行数据):

各栏如下:

标识符,未使用,常数,z1,z2,z3,z4,z5,z6,未使用,z7, z8,yPT,未使用,未使用

因此,并非数据中的每一列都是重要的,但是,如果可以将其转换为pandas数据帧,我可以很容易地处理这一点。

尝试一下(如果您更方便,也可以从文件中读取):

将熊猫作为pd导入
输入=“”
4  0 1.  1 37.0 10.000  0  3 18. 40.0  7  4  0.  01.
5  0 1.  0 27.0  4.000  0  4 14. 20.0  6  4  0.  01.
11  0 1.  0 32.0 15.000  1  1 12. 12.5  1  4  0.  01.
16  0 1.  1 57.0 15.000  1  5 18. 12.5  6  5  0.  01.
23  0 1.  1 22.0  0.750  0  2 17.  7.5  6  3  0.  01.
29  0 1.  0 32.0  1.500  0  2 17.  7.5  5  5  0.  01.
44  0 1.  0 22.0  0.750  0  2 12. 12.5  1  3  0.  01.
45  0 1.  1 57.0 15.000  1  2 14. 20.0  4  4  0.  01.
47  0 1.  0 32.0 15.000  1  4 16. 20.0  1  2  0.  01.
49  0 1.  1 22.0  1.500  0  4 14. 12.5  4  5  0.  01.
50  0 1.  1 37.0 15.000  1  2 20. 20.0  7  2  0.  01.
55  0 1.  1 27.0  4.000  1  4 18. 12.5  6  4  0.  01.
'''
input_uarr=[[行中单元格的单元格。拆分(“”)如果单元格!='']如果行!=''输入中行的单元格。拆分(“\n”)如果行!='']
hdrs=[“标识符”、“未使用”、“常量”、“z1”、“z2”、“z3”、“z4”、“z5”、“z6”、“未使用”、“z7”、“z8”、“yPT”、“未使用”、“未使用”]
df=pd.DataFrame(数据=输入,列=HDR)
df=df[[col for col in df.columns if col!=“not used”]]
打印(测向头(10))
输出:

标识符常数z1 z2 z3 z4 z5 z6 z7 z8 yPT
0          4       1.  1  37.0  10.000  0  3  18.  7  4  0.
1          5       1.  0  27.0   4.000  0  4  14.  6  4  0.
2         11       1.  0  32.0  15.000  1  1  12.  1  4  0.
3         16       1.  1  57.0  15.000  1  5  18.  6  5  0.
4         23       1.  1  22.0   0.750  0  2  17.  6  3  0.
5         29       1.  0  32.0   1.500  0  2  17.  5  5  0.
6         44       1.  0  22.0   0.750  0  2  12.  1  3  0.
7         45       1.  1  57.0  15.000  1  2  14.  4  4  0.
8         47       1.  0  32.0  15.000  1  4  16.  1  2  0.
9         49       1.  1  22.0   1.500  0  4  14.  4  5  0.

你能用带有标题的文件制作一个csv文件吗?这对我帮助很大,谢谢!
  4  0 1.  1 37.0 10.000  0  3 18. 40.0  7  4  0.  0.  1.                   
  5  0 1.  0 27.0  4.000  0  4 14. 20.0  6  4  0.  0.  1.                   
 11  0 1.  0 32.0 15.000  1  1 12. 12.5  1  4  0.  0.  1.                   
 16  0 1.  1 57.0 15.000  1  5 18. 12.5  6  5  0.  0.  1.                   
 23  0 1.  1 22.0  0.750  0  2 17.  7.5  6  3  0.  0.  1.                   
 29  0 1.  0 32.0  1.500  0  2 17.  7.5  5  5  0.  0.  1.                   
 44  0 1.  0 22.0  0.750  0  2 12. 12.5  1  3  0.  0.  1.                   
 45  0 1.  1 57.0 15.000  1  2 14. 20.0  4  4  0.  0.  1.                   
 47  0 1.  0 32.0 15.000  1  4 16. 20.0  1  2  0.  0.  1.                   
 49  0 1.  1 22.0  1.500  0  4 14. 12.5  4  5  0.  0.  1.                   
 50  0 1.  1 37.0 15.000  1  2 20. 20.0  7  2  0.  0.  1.                   
 55  0 1.  1 27.0  4.000  1  4 18. 12.5  6  4  0.  0.  1.