Python 机器学习中如何处理离散数据集？_Python_Machine Learning_Dataset_Classification

Python 机器学习中如何处理离散数据集？

python machine-learning

Python 机器学习中如何处理离散数据集？,python,machine-learning,dataset,classification,Python,Machine Learning,Dataset,Classification,数据集没有高斯分布。这些点是分散的。我想简单地规范化（例如，预处理.MinMaxScaler（））它们不是一个好主意。如何处理这样的数据集 >> df["Attribute2"].value_counts() #check the distribution of Attribute2 Output: 0 1044 6 8 1 4 268729 1 我在下表中组织了一些选定属性的值计数 +--

数据集没有高斯分布。这些点是分散的。我想简单地规范化（例如，

预处理.MinMaxScaler（）

）它们不是一个好主意。如何处理这样的数据集

>> df["Attribute2"].value_counts() #check the distribution of Attribute2
Output:
0         1044
6            8
1            4
268729       1

我在下表中组织了一些选定属性的值计数

+------------+------------+------------+------------+------------+
| Attribute1 | Attribute2 | Attribute3 | Attribute4 | Attribute5 |
+------------+------------+------------+------------+------------+
|value  count|value  count|value  count|value  count|value  count|
| 0      732 | 0     1044 | 0     1047 | 0      855 | 0     1053 |
| 2      139 | 6        8 | 50       5 | 1      170 | 1        4 |
| 1       77 | 1        4 | 308      2 | 2       26 |            |
| 27      21 | 268729   1 | 324      1 | 6004     1 |            |
| 3       20 |            | 309      1 | 3001     1 |            |
| 4       11 |            | 307      1 | 739      1 |            |
| 240     10 |            |            | 10       1 |            |
| 15       9 |            |            | 4        1 |            |
| 12       8 |            |            | 3        1 |            |
| 6        8 |            |            |            |            |
| 24       6 |            |            |            |            |
| 9        6 |            |            |            |            |
| 43       4 |            |            |            |            |
| 18       4 |            |            |            |            |
| 21       2 |            |            |            |            |
+------------+------------+------------+------------+------------+

更多细节：这是一个分类（>5类）问题，因此线性回归在这里不适用。

我投票结束这个问题，因为它与ML理论和/或方法论无关，而与中定义的编程无关。