Python 机器学习中如何处理离散数据集?
数据集没有高斯分布。这些点是分散的。我想简单地规范化(例如,Python 机器学习中如何处理离散数据集?,python,machine-learning,dataset,classification,Python,Machine Learning,Dataset,Classification,数据集没有高斯分布。这些点是分散的。我想简单地规范化(例如,预处理.MinMaxScaler())它们不是一个好主意。如何处理这样的数据集 >> df["Attribute2"].value_counts() #check the distribution of Attribute2 Output: 0 1044 6 8 1 4 268729 1 我在下表中组织了一些选定属性的值计数 +--
预处理.MinMaxScaler()
)它们不是一个好主意。如何处理这样的数据集
>> df["Attribute2"].value_counts() #check the distribution of Attribute2
Output:
0 1044
6 8
1 4
268729 1
我在下表中组织了一些选定属性的值计数
+------------+------------+------------+------------+------------+
| Attribute1 | Attribute2 | Attribute3 | Attribute4 | Attribute5 |
+------------+------------+------------+------------+------------+
|value count|value count|value count|value count|value count|
| 0 732 | 0 1044 | 0 1047 | 0 855 | 0 1053 |
| 2 139 | 6 8 | 50 5 | 1 170 | 1 4 |
| 1 77 | 1 4 | 308 2 | 2 26 | |
| 27 21 | 268729 1 | 324 1 | 6004 1 | |
| 3 20 | | 309 1 | 3001 1 | |
| 4 11 | | 307 1 | 739 1 | |
| 240 10 | | | 10 1 | |
| 15 9 | | | 4 1 | |
| 12 8 | | | 3 1 | |
| 6 8 | | | | |
| 24 6 | | | | |
| 9 6 | | | | |
| 43 4 | | | | |
| 18 4 | | | | |
| 21 2 | | | | |
+------------+------------+------------+------------+------------+
更多细节:这是一个分类(>5类)问题,因此线性回归在这里不适用。我投票结束这个问题,因为它与ML理论和/或方法论无关,而与中定义的编程无关。