Machine learning 我可以先对同一数据集应用“分类”，然后再应用“回归”吗？_Machine Learning_Regression_Classification_Data Science_Prediction

Machine learning 我可以先对同一数据集应用“分类”，然后再应用“回归”吗？

machine-learning

Machine learning 我可以先对同一数据集应用“分类”，然后再应用“回归”吗？,machine-learning,regression,classification,data-science,prediction,Machine Learning,Regression,Classification,Data Science,Prediction,我是数据科学的初学者，需要一个主题的帮助我有一个关于机构客户的数据集。我的目标是首先确定哪些客户将向该机构付款，然后确定付款客户将支付多少钱在这种情况下，我认为我可以首先通过分类确定哪些客户将支付，然后通过应用回归确定将支付多少所以，首先我想应用分类，然后对这个输出应用回归。我怎样才能做到这一点呢？当然，你完全可以应用一种分类方法，然后再进行回归分析。这实际上是探索性数据分析中的常见模式对于您的用例，基于您正在共享的基本信息，我会直观地选择1和2 逻辑回归实际上是一种分类工具，尽管名称表

我是数据科学的初学者，需要一个主题的帮助

我有一个关于机构客户的数据集。我的目标是首先确定哪些客户将向该机构付款，然后确定付款客户将支付多少钱

在这种情况下，我认为我可以首先通过分类确定哪些客户将支付，然后通过应用回归确定将支付多少

所以，首先我想应用分类，然后对这个输出应用回归。我怎样才能做到这一点呢？

当然，你完全可以应用一种分类方法，然后再进行回归分析。这实际上是探索性数据分析中的常见模式

对于您的用例，基于您正在共享的基本信息，我会直观地选择1和2

逻辑回归实际上是一种分类工具，尽管名称表明并非如此。在二元逻辑回归模型中，因变量有两个分类级别，这是您需要预测客户是否愿意付款的二元决策

多元线性回归应用于可用数据集中的相同自变量，然后将为您提供一个线性模型，以预测您的客户将支付多少，即。推理的输出将是一个连续变量-实际预期美元价值

这将是我建议实施的方法，因为您是这个领域的新手。现在，基于可用数据、数据性质、客户需求等，显然有许多不同的其他方法来定义这些模型，但逻辑+多元回归方法应该是一个确定的方法

如果您需要更多的细节或澄清，请告诉我。

当然，您可以在回归分析之后应用分类方法。这实际上是探索性数据分析中的常见模式

对于您的用例，基于您正在共享的基本信息，我会直观地选择1和2

如果您需要更多的细节或澄清，请告诉我。

另一种方法是仅将其作为纯回归。不需要处理级联模型。哪个更容易处理

例如，您可以与不愿意为支出金额支付0的人相关联，并在这些实例上拟合模型

对于业务，您可以应用一个阈值，在该阈值中，如果预测金额低于或多或少的固定阈值，您可以将用户分类为不愿意付款

另一种方法是仅将其作为纯回归。不需要处理级联模型。哪个更容易处理

例如，您可以与不愿意为支出金额支付0的人相关联，并在这些实例上拟合模型

对于业务，您可以应用一个阈值，在该阈值中，如果预测金额低于或多或少的固定阈值，您可以将用户分类为不愿意付款

当然，您可以通过垂直叠加模型来实现。假设您使用的是二进制分类，在预测之后，您将有一个目标值为0和1的数据帧。您将在target==1的位置进行筛选，并创建一个新的数据帧。然后运行回归

此外，如果没有标签，则可以使用聚类，而不是分类，因为成本较低。

当然可以通过垂直堆叠模型来实现。假设您使用的是二进制分类，在预测之后，您将有一个目标值为0和1的数据帧。您将在target==1的位置进行筛选，并创建一个新的数据帧。然后运行回归

此外，如果没有标签，而不是分类，则可以使用群集，因为成本较低。

我有一点很困惑，我有客户的id。在进行逻辑回归之前，我将一个名为“label”的列添加到我创建的“train”集合中

ave，如果客户已付款，则此列的值为1，否则为0。我坚持的观点是，在对测试数据应用逻辑回归后，我是否应该从那里了解客户id信息，并找出这些客户将支付多少钱？我的观点是，客户id不应该是线性回归模型的因变量。预测不应基于客户是谁——这应该是一个盲目的决定，完全基于您为每个客户提供的有形信息，即他们的购买行为/模式。告诉模型客户是谁，即使用id作为输入之一会引入不必要的偏见。首先感谢您的兴趣。在对我的数据集应用逻辑回归后，我不知道如何继续。到目前为止，我在示例中遇到了一个单一的模型应用程序。我应用了逻辑回归，那么我该怎么做呢？非常感谢。假设您的模型有3个输入变量：每个客户的收入水平、历史每周支出和年龄。第一个模型是二元逻辑回归，用目标变量的二元标签进行训练。经过培训后，您可以根据每个全新客户的特征预测他们是否会购买收入、支出、AGNOW，您的第二个模型线性多重回归将使用与输入收入水平、历史每周支出和年龄相同的3个因变量。目标变量应为“花费”。您可以使用历史支出金额标签对其进行培训。一旦经过培训，您就可以根据3个给定的功能预测推断任何新客户的预期支出。希望它能澄清一点整体方法。我有一点困惑，我有客户的id。在进行逻辑回归之前，我在我拥有的“train”集合中添加了一个名为“label”的列，如果客户已付款，则该列的值为1，否则为0。我坚持的观点是，在对测试数据应用逻辑回归后，我是否应该从那里了解客户id信息，并找出这些客户将支付多少钱？我的观点是，客户id不应该是线性回归模型的因变量。预测不应基于客户是谁——这应该是一个盲目的决定，完全基于您为每个客户提供的有形信息，即他们的购买行为/模式。告诉模型客户是谁，即使用id作为输入之一会引入不必要的偏见。首先感谢您的兴趣。在对我的数据集应用逻辑回归后，我不知道如何继续。到目前为止，我在示例中遇到了一个单一的模型应用程序。我应用了逻辑回归，那么我该怎么做呢？非常感谢。假设您的模型有3个输入变量：每个客户的收入水平、历史每周支出和年龄。第一个模型是二元逻辑回归，用目标变量的二元标签进行训练。经过培训后，您可以根据每个全新客户的特征预测他们是否会购买收入、支出、AGNOW，您的第二个模型线性多重回归将使用与输入收入水平、历史每周支出和年龄相同的3个因变量。目标变量应为“花费”。您可以使用历史支出金额标签对其进行培训。一旦经过培训，您就可以根据3个给定的功能预测推断任何新客户的预期支出。希望它能澄清一点总体方法。