Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 我可以先对同一数据集应用“分类”,然后再应用“回归”吗?_Machine Learning_Regression_Classification_Data Science_Prediction - Fatal编程技术网

Machine learning 我可以先对同一数据集应用“分类”,然后再应用“回归”吗?

Machine learning 我可以先对同一数据集应用“分类”,然后再应用“回归”吗?,machine-learning,regression,classification,data-science,prediction,Machine Learning,Regression,Classification,Data Science,Prediction,我是数据科学的初学者,需要一个主题的帮助 我有一个关于机构客户的数据集。我的目标是首先确定哪些客户将向该机构付款,然后确定付款客户将支付多少钱 在这种情况下,我认为我可以首先通过分类确定哪些客户将支付,然后通过应用回归确定将支付多少 所以,首先我想应用分类,然后对这个输出应用回归。我怎样才能做到这一点呢?当然,你完全可以应用一种分类方法,然后再进行回归分析。这实际上是探索性数据分析中的常见模式 对于您的用例,基于您正在共享的基本信息,我会直观地选择1和2 逻辑回归实际上是一种分类工具,尽管名称表

我是数据科学的初学者,需要一个主题的帮助

我有一个关于机构客户的数据集。我的目标是首先确定哪些客户将向该机构付款,然后确定付款客户将支付多少钱

在这种情况下,我认为我可以首先通过分类确定哪些客户将支付,然后通过应用回归确定将支付多少


所以,首先我想应用分类,然后对这个输出应用回归。我怎样才能做到这一点呢?

当然,你完全可以应用一种分类方法,然后再进行回归分析。这实际上是探索性数据分析中的常见模式

对于您的用例,基于您正在共享的基本信息,我会直观地选择1和2

逻辑回归实际上是一种分类工具,尽管名称表明并非如此。在二元逻辑回归模型中,因变量有两个分类级别,这是您需要预测客户是否愿意付款的二元决策

多元线性回归应用于可用数据集中的相同自变量,然后将为您提供一个线性模型,以预测您的客户将支付多少,即。推理的输出将是一个连续变量-实际预期美元价值

这将是我建议实施的方法,因为您是这个领域的新手。现在,基于可用数据、数据性质、客户需求等,显然有许多不同的其他方法来定义这些模型,但逻辑+多元回归方法应该是一个确定的方法


如果您需要更多的细节或澄清,请告诉我。

当然,您可以在回归分析之后应用分类方法。这实际上是探索性数据分析中的常见模式

对于您的用例,基于您正在共享的基本信息,我会直观地选择1和2

逻辑回归实际上是一种分类工具,尽管名称表明并非如此。在二元逻辑回归模型中,因变量有两个分类级别,这是您需要预测客户是否愿意付款的二元决策

多元线性回归应用于可用数据集中的相同自变量,然后将为您提供一个线性模型,以预测您的客户将支付多少,即。推理的输出将是一个连续变量-实际预期美元价值

这将是我建议实施的方法,因为您是这个领域的新手。现在,基于可用数据、数据性质、客户需求等,显然有许多不同的其他方法来定义这些模型,但逻辑+多元回归方法应该是一个确定的方法


如果您需要更多的细节或澄清,请告诉我。

另一种方法是仅将其作为纯回归。不需要处理级联模型。哪个更容易处理

例如,您可以与不愿意为支出金额支付0的人相关联,并在这些实例上拟合模型


对于业务,您可以应用一个阈值,在该阈值中,如果预测金额低于或多或少的固定阈值,您可以将用户分类为不愿意付款

另一种方法是仅将其作为纯回归。不需要处理级联模型。哪个更容易处理

例如,您可以与不愿意为支出金额支付0的人相关联,并在这些实例上拟合模型


对于业务,您可以应用一个阈值,在该阈值中,如果预测金额低于或多或少的固定阈值,您可以将用户分类为不愿意付款

当然,您可以通过垂直叠加模型来实现。假设您使用的是二进制分类,在预测之后,您将有一个目标值为0和1的数据帧。您将在target==1的位置进行筛选,并创建一个新的数据帧。然后运行回归


此外,如果没有标签,则可以使用聚类,而不是分类,因为成本较低。

当然可以通过垂直堆叠模型来实现。假设您使用的是二进制分类,在预测之后,您将有一个目标值为0和1的数据帧。您将在target==1的位置进行筛选,并创建一个新的数据帧。然后运行回归


此外,如果没有标签,而不是分类,则可以使用群集,因为成本较低。

我有一点很困惑,我有客户的id。在进行逻辑回归之前,我将一个名为“label”的列添加到我创建的“train”集合中
ave,如果客户已付款,则此列的值为1,否则为0。我坚持的观点是,在对测试数据应用逻辑回归后,我是否应该从那里了解客户id信息,并找出这些客户将支付多少钱?我的观点是,客户id不应该是线性回归模型的因变量。预测不应基于客户是谁——这应该是一个盲目的决定,完全基于您为每个客户提供的有形信息,即他们的购买行为/模式。告诉模型客户是谁,即使用id作为输入之一会引入不必要的偏见。首先感谢您的兴趣。在对我的数据集应用逻辑回归后,我不知道如何继续。到目前为止,我在示例中遇到了一个单一的模型应用程序。我应用了逻辑回归,那么我该怎么做呢?非常感谢。假设您的模型有3个输入变量:每个客户的收入水平、历史每周支出和年龄。第一个模型是二元逻辑回归,用目标变量的二元标签进行训练。经过培训后,您可以根据每个全新客户的特征预测他们是否会购买收入、支出、AGNOW,您的第二个模型线性多重回归将使用与输入收入水平、历史每周支出和年龄相同的3个因变量。目标变量应为“花费”。您可以使用历史支出金额标签对其进行培训。一旦经过培训,您就可以根据3个给定的功能预测推断任何新客户的预期支出。希望它能澄清一点整体方法。我有一点困惑,我有客户的id。在进行逻辑回归之前,我在我拥有的“train”集合中添加了一个名为“label”的列,如果客户已付款,则该列的值为1,否则为0。我坚持的观点是,在对测试数据应用逻辑回归后,我是否应该从那里了解客户id信息,并找出这些客户将支付多少钱?我的观点是,客户id不应该是线性回归模型的因变量。预测不应基于客户是谁——这应该是一个盲目的决定,完全基于您为每个客户提供的有形信息,即他们的购买行为/模式。告诉模型客户是谁,即使用id作为输入之一会引入不必要的偏见。首先感谢您的兴趣。在对我的数据集应用逻辑回归后,我不知道如何继续。到目前为止,我在示例中遇到了一个单一的模型应用程序。我应用了逻辑回归,那么我该怎么做呢?非常感谢。假设您的模型有3个输入变量:每个客户的收入水平、历史每周支出和年龄。第一个模型是二元逻辑回归,用目标变量的二元标签进行训练。经过培训后,您可以根据每个全新客户的特征预测他们是否会购买收入、支出、AGNOW,您的第二个模型线性多重回归将使用与输入收入水平、历史每周支出和年龄相同的3个因变量。目标变量应为“花费”。您可以使用历史支出金额标签对其进行培训。一旦经过培训,您就可以根据3个给定的功能预测推断任何新客户的预期支出。希望它能澄清一点总体方法。