Python 回归与分类,两者都能解决的问题

Python 回归与分类,两者都能解决的问题,python,machine-learning,regression,classification,Python,Machine Learning,Regression,Classification,我有一个问题,我一直将其视为分类问题。我试图根据大量的输入特性预测一台机器是否能通过一个特定的测试 我真正感兴趣的是一台新机器是否能通过测试。如果某些特征(如速度、振动等)超出范围,则可能通过或不通过测试 因此,我可以: 1) 将其视为纯回归问题;尝试预测速度、振动等的实际值 2) 将其视为一个纯粹的分类问题;对于每个观察,在标签上输入它是通过还是失败,并尝试在我正在制作的工具中预测这一点 3) 将其视为伪问题;在这里,我预测了实际值,并根据与通过/失败阈值之间的距离,提出了我对通过或失败有多大

我有一个问题,我一直将其视为分类问题。我试图根据大量的输入特性预测一台机器是否能通过一个特定的测试

我真正感兴趣的是一台新机器是否能通过测试。如果某些特征(如速度、振动等)超出范围,则可能通过或不通过测试

因此,我可以:

1) 将其视为纯回归问题;尝试预测速度、振动等的实际值

2) 将其视为一个纯粹的分类问题;对于每个观察,在标签上输入它是通过还是失败,并尝试在我正在制作的工具中预测这一点

3) 将其视为伪问题;在这里,我预测了实际值,并根据与通过/失败阈值之间的距离,提出了我对通过或失败有多大信心的度量

要清楚;我正在研究一个真正的问题。我对获得某个特定值的超精确预测不感兴趣,只想知道一台机器是否被预测通过或失败(以及奖金扩展;它是真的可能性有多大)

我一直在使用分类模型,因为我只有几百次观察,而之前的一些研究表明,这可能是处理这个问题的最佳方法。然而,我现在想知道这是否是正确的做法

你会怎么做


非常感谢。

如果没有数据并运行分类或回归,比较将很难,因为您为每个族使用的度量是不同的。 例如,将回归的RMSE与分类问题的F1分数(或准确度)进行比较将是苹果对橙色的比较

如果你能训练出一个好的回归模型(低RMSE),那将是非常理想的,因为这将为你提供比最初的通过/失败问题更多的信息。根据我过去与工业客户的经验


首先培训您提到的所有3个模型,然后
向您的客户展示结果,让他们为您指出哪些模型/输出对他们更有意义。

无需数据和运行分类或回归,比较将很难,因为您为每个族使用的度量是不同的。 例如,将回归的RMSE与分类问题的F1分数(或准确度)进行比较将是苹果对橙色的比较

如果你能训练出一个好的回归模型(低RMSE),那将是非常理想的,因为这将为你提供比最初的通过/失败问题更多的信息。根据我过去与工业客户的经验


首先培训您提到的所有3个模型,然后
向您的客户展示结果,让他们为您指出哪些模型/输出对他们更有意义。

因为这更多的是关于理论,这对于or stack站点来说是一个更好的问题。也就是说,这在很大程度上取决于你的最终目标是什么。你的模型应该旨在预测你试图使用的结果。你想预测失败/不失败吗?分类。您是否试图预测单个组件的故障?多标签分类。预测部件是否会超速?可能是回归。我的最终目标是预测通过/失败;但我真的不在乎“一般来说”最好的方法是否是尝试预测一个更精确的参数值,并计算出这是通过还是失败。我想知道是否有人以前有过处理此类问题的经验,尤其是在我没有大型数据集的情况下……在我作为一名军事核工程师的工作中,故障概率通常被认为是非常重要的——例如,我们将替换功能,正是因为我们知道部件在给定的使用寿命后发生故障的概率,所以才可以使用机器部件。出于这个原因,我倾向于选择你的第三个选择。太好了,谢谢你,这是很有价值的见解。在我的特殊情况下;能够按照“通过/失败概率”的顺序对机器进行排序仍然很有用。我最初试图通过对我的分类尝试进行预测来实现这一点;但通过测量参数与通过/失败阈值之间的距离,这样做会更简单。再次感谢,因为它更多的是关于理论,这将是一个更好的问题或堆栈网站。也就是说,这在很大程度上取决于你的最终目标是什么。你的模型应该旨在预测你试图使用的结果。你想预测失败/不失败吗?分类。您是否试图预测单个组件的故障?多标签分类。预测部件是否会超速?可能是回归。我的最终目标是预测通过/失败;但我真的不在乎“一般来说”最好的方法是否是尝试预测一个更精确的参数值,并计算出这是通过还是失败。我想知道是否有人以前有过处理此类问题的经验,尤其是在我没有大型数据集的情况下……在我作为一名军事核工程师的工作中,故障概率通常被认为是非常重要的——例如,我们将替换功能,正是因为我们知道部件在给定的使用寿命后发生故障的概率,所以才可以使用机器部件。出于这个原因,我倾向于选择你的第三个选择。太好了,谢谢你,这是很有价值的见解。在我的特殊情况下;能够按照“通过/失败概率”的顺序对机器进行排序仍然很有用。我最初试图通过对我的分类尝试进行预测来实现这一点;但这会更简单