Machine learning 数值变换的ML_Machine Learning_Classification

Machine learning 数值变换的ML

machine-learning

Machine learning 数值变换的ML,machine-learning,classification,Machine Learning,Classification,我有一个200大小的小数据集。数据集非常简单：每一行由[0，1]范围内的一个实数组成，该实数映射到一个标签。总共有24个标签，我的任务的实质是训练分类器基本上找到映射到标签的范围我可以想到两种方法。第一个是SVC，因为它们能够将输入平面分成24个区域，这正是我所需要的。然而，当我尝试编码它时，我最终得到了一些可怕的结果：分类器没有学习任何东西，并且不管输入值如何，都会吐出相同的标签我正在考虑的第二种方法是神经网络，但由于缺乏特征和训练数据，我高度怀疑这种方法的可行性如果需要，我可以分享我与

我有一个200大小的小数据集。数据集非常简单：每一行由[0，1]范围内的一个实数组成，该实数映射到一个标签。总共有24个标签，我的任务的实质是训练分类器基本上找到映射到标签的范围

我可以想到两种方法。第一个是SVC，因为它们能够将输入平面分成24个区域，这正是我所需要的。然而，当我尝试编码它时，我最终得到了一些可怕的结果：分类器没有学习任何东西，并且不管输入值如何，都会吐出相同的标签

我正在考虑的第二种方法是神经网络，但由于缺乏特征和训练数据，我高度怀疑这种方法的可行性

如果需要，我可以分享我与scikit learn一起开发的SVC代码

下面是我在终端上转储的数据：

Label: Min, Mean, Max
{0: [0.96, 0.98, 1.0],
 1: [0.15, 0.36, 0.92],
 2: [0.14, 0.56, 0.98],
 3: [0.37, 0.7, 1.0],
 4: [0.23, 0.23, 0.23],
 6: [0.41, 0.63, 0.97],
 7: [0.13, 0.38, 0.61],
 8: [0.11, 0.68, 1.0],
 9: [0.09, 0.51, 1.0],
 10: [0.19, 0.61, 0.97],
 11: [0.26, 0.41, 0.57],
 12: [0.29, 0.72, 0.95],
 13: [0.63, 0.9, 0.99],
 14: [0.06, 0.55, 1.0],
 15: [0.1, 0.64, 1.0],
 16: [0.26, 0.58, 0.95],
 17: [0.29, 0.88, 1.0],
 21: [0.58, 0.79, 1.0],
 22: [0.24, 0.59, 0.94],
 23: [0.12, 0.62, 0.95]}

如您所见，数据到处都是，但我想知道是否有可能找到每个标签最能代表的范围

如果有人能告诉我我是否走上了正确的道路，我将不胜感激。谢谢

如果标签范围不重叠，则这不是ML问题；这是一个简单的列表排序任务。按实数对数据进行排序；按标签分组。在每个标签内，取最小值和最大值；那是你的范围

如果您需要分区，则按实际值的顺序对范围进行排序。对于每对相邻的类，取边界值的中值，并将其作为类之间的分区

例如，给定3个类中12个值的列表

(0.10, 3), (0.40, 2), (0.11, 3), (0.24, 1),
(0.20, 1), (0.21, 1), (0.12, 3), (0.41, 2),
(0.18, 3), (0.42, 2), (0.46, 2), (0.22, 1)

按每对中的第一个值对列表进行排序：

(0.10, 3), (0.11, 3), (0.12, 3), (0.18, 3),
(0.20, 1), (0.21, 1), (0.22, 1), (0.24, 1),
(0.40, 2), (0.41, 2), (0.42, 2), (0.46, 2),

现在，每个标签都有一个范围：

3 [0.10 - 0.18]
1 [0.20 - 0.24]
2 [0.40 - 0.46]

如果需要分区值，只需取边界平均值，就可以使用值0.19和0.32来分隔类。

如果您需要分区，则按实际值的顺序对范围进行排序。对于每对相邻的类，取边界值的中值，并将其作为类之间的分区

例如，给定3个类中12个值的列表

(0.10, 3), (0.40, 2), (0.11, 3), (0.24, 1),
(0.20, 1), (0.21, 1), (0.12, 3), (0.41, 2),
(0.18, 3), (0.42, 2), (0.46, 2), (0.22, 1)

按每对中的第一个值对列表进行排序：

(0.10, 3), (0.11, 3), (0.12, 3), (0.18, 3),
(0.20, 1), (0.21, 1), (0.22, 1), (0.24, 1),
(0.40, 2), (0.41, 2), (0.42, 2), (0.46, 2),

现在，每个标签都有一个范围：

3 [0.10 - 0.18]
1 [0.20 - 0.24]
2 [0.40 - 0.46]

如果需要分区值，只需取边界平均值，值为0.19和0.32即可将类分开。

如果我们假设，每个类的样本在某种程度上居中（但仍然有噪声；可能存在重叠），sklearn中最自然的分类器可能是我们假设每个类的点都遵循正态分布

下面是一些代码，用于构建一些虚假数据，对其进行分类和评估：

将numpy导入为np
从sklearn.model\u选择导入列车\u测试\u拆分
从sklearn.naive_bayes导入GaussianNB
从sklearn.metrics导入准确性\u分数
np.随机种子（1）
“”“数据参数+数据生成”“”
N_类=24
N每类样本数=10
西格玛=0.01
类中心=np.随机.随机（大小=N类）
#丑陋的代码和糟糕的numpy风格
X=[]
对于class_中心中的class_中心：
样本=np.随机.正常（大小=每类N个样本）*西格玛
对于样本+class_中心中的样本：
附加（示例）
Y=[]
对于ind，枚举中的c（类中心）：
对于范围内的s（每类N个样本）：
Y.append（ind）
X=np.数组（X）.重塑（-1,1）
Y=np.数组（Y）
“拆分、拟合和评估”
X_序列，X_测试，y_序列，y_测试=序列测试分割（X，y，测试大小=0.1，随机状态=0）
et=高斯B（）
et.fit（X_系列、y_系列）
打印（'测试预测'）
预测值=预测值（X_检验）
打印（preds）
打印（“原始样本”）
打印（y_测试）
打印（“准确度-分数”）
打印（准确度评分（y检验，preds））

输出

Prediction on test
[10  7  3  7  8  3 23  3 11 19  7 20  8 15 11 13 18 11  3 16  8  9  8 12]
Original samples
[10  7  3  7 10 22 15 22 15 19  7 20  8 15 23 13 18 11 22  0 10 17  8 12]
Accuracy-score
0.583333333333

当然，结果在很大程度上取决于每类

N个样本和SIGMA

编辑：
正如你们现在展示的数据，很明显我的假设不成立。
请参阅此代码完成的以下绘图（文件从[]（）
；人们应该发布与csv兼容的数据！）：
绘图：

现在只需考虑观察一些x
，您需要决定y
。对于大多数x系列来说都很难
显然还有类平衡问题，它解释了大多数预测的类14的输出。
如果我们假设，每个类的样本在某种程度上居中（但仍然嘈杂；可能存在重叠），sklearn中最自然的分类器可能是我们假设每个类的点都遵循正态分布
下面是一些代码，用于构建一些虚假数据，对其进行分类和评估：
将numpy导入为np
从sklearn.model\u选择导入列车\u测试\u拆分
从sklearn.naive_bayes导入GaussianNB
从sklearn.metrics导入准确性\u分数
np.随机种子（1）
“”“数据参数+数据生成”“”
N_类=24
N每类样本数=10
西格玛=0.01
类中心=np.随机.随机（大小=N类）
#丑陋的代码和糟糕的numpy风格
X=[]
对于class_中心中的class_中心：
样本=np.随机.正常（大小=每类N个样本）*西格玛
对于样本+class_中心中的样本：
附加（示例）
Y=[]
对于ind，枚举中的c（类中心）：
对于范围内的s（每类N个样本）：
Y.append（ind）
X=np.数组（X）.重塑（-1,1）
Y=np.数组（Y）
“拆分、拟合和评估”
X_序列，X_测试，y_序列，y_测试=序列测试分割（X，y，测试大小=0.1，随机状态=0）
et=高斯B（）
et.fit（X_系列、y_系列）
打印（'测试预测'）
预测值=预测值（X_检验）
打印（preds）
打印（“原始样本”）
打印（y_测试）
打印（'Ac