Python 使用机器学习模型(scikit或statsmodels)回答业务问题

Python 使用机器学习模型(scikit或statsmodels)回答业务问题,python,machine-learning,statistics,regression,data-science,Python,Machine Learning,Statistics,Regression,Data Science,谢谢你在这方面的帮助 这感觉像是一个愚蠢的问题,我可能把事情复杂化了。一些背景信息-我最近刚刚学习了Python中的一些机器学习方法(scikit和一些statsmodels),如线性回归、逻辑回归、KNN等。我可以在pandas数据帧中准备数据,并将分类数据转换为0和1。我还可以将它们加载到模型中(比如scikit learn中的逻辑回归)。我知道如何训练和测试它(使用CV等),以及一些微调方法(gridscore等)。但这一切都在新数据预测结果的范围之内。我主要专注于学习建立一个模型来预测新

谢谢你在这方面的帮助

这感觉像是一个愚蠢的问题,我可能把事情复杂化了。一些背景信息-我最近刚刚学习了Python中的一些机器学习方法(scikit和一些statsmodels),如线性回归、逻辑回归、KNN等。我可以在pandas数据帧中准备数据,并将分类数据转换为0和1。我还可以将它们加载到模型中(比如scikit learn中的逻辑回归)。我知道如何训练和测试它(使用CV等),以及一些微调方法(gridscore等)。但这一切都在新数据预测结果的范围之内。我主要专注于学习建立一个模型来预测新的X值,并测试该模型以确认准确性/精密度

然而,现在我很难识别和执行其他类型问题的步骤,比如说,回归模型可以回答,比如:

为什么上个月客服电话减少了? 我们应该采用这种促销模式还是另一种

假设我们拥有所有的变量/预测集,我们将如何使用任何有监督的机器学习模型,或仅使用statsmodels包中的stat模型来确定这两个问题

希望这是有意义的。我当然可以更详细地谈

为什么上个月客服电话减少了

这取决于您必须分析和探索数据的类型和特征。其中一个基本问题是查看功能和目标变量之间的相关性,以检查您是否能够识别任何与掉话相关的功能。因此,探索不同的统计数据可能比预测模型更有助于回答这个问题

此外,在开始使用预测模型之前分析和探索数据始终是一种良好的做法,因为根据您选择的预测模型,通常需要改进数据(缩放、删除异常值、丢失数据等)

我们应该采用这种促销模式还是另一种


这个问题可以根据回归或您为此数据设计的任何其他预测模型来回答。如果您能提供促销模型的输入功能,这些模型将帮助您预测该功能的销售/结果。

您的问题可能被认为过于宽泛,因为您所问的实际上是“我应该建模什么?”的一个版本,也就是说,我将尝试对您提出的问题提供一些想法,以防证明它有用

以您的第一个假设为例: “为什么上个月客服电话减少了?”

首先,这假设您有一个您想要了解的现象(较低的客户服务电话)。在开发任何模型时,您应该确保您提出的问题在理论上可以由模型来回答。在这种情况下,措辞可能是:哪些因素导致上个月的客户服务电话减少(与之前某个时间段相比),而我们掌握了良好的信息

措辞有些生硬,但指出了问题所在:该模型是用来量化问题潜在答案的工具

此时,您需要的是理解为什么可能从模型中包含或排除信息。理论是最好的指南,即使是松散的。客户电话的功能是什么?售出的单位数量?生产质量?随装置提供的说明是否清晰?此外,其中一些是其他问题的函数:单位数量是一年中时间、市场营销、一般销售趋势等的函数

假设您已经识别并能够捕获您认为与感兴趣的结果相关的功能:客户服务呼叫。此外,假设您已经存储、清理、处理了它们,并且准备好了一个数据集并等待

如上所述,您希望解释您已经看到的一个结果(通话中断)。你有无数的模型选择;类型/样式的选择完全取决于您想知道的内容。从你提出问题的方式来看,你似乎对因果关系感兴趣。这很难做到,因为总有一些变量是你无法捕捉的,这些变量可能会影响你所做的事情(混淆),但并非不可能。回归模型(线性、逻辑、一般最大似然、GLM、2SLS等)通常擅长于此,完全不需要执行ML中的常规训练/测试步骤(尽管,正如我在某个地方读到的人——参考任何人——所说,没有预测就没有解释)从这些模型中得到的系数可以告诉您哪些特性与服务调用的增加/减少相关(我不说“原因”,因为这需要一些非常具体的条件)

或者,您可能只想问“我捕获的那些功能,哪一个是服务呼叫量中最具预测性的”,在这种情况下,您有一个更直接的预测模型,您只是在寻找一个真正好的预测模型。当然,这些并不是相互排斥的。如果某件事是因果关系,那么它在预测模型中通常是重要的(当然,因果关系的影响可能很小)

最后,您应该熟悉对系数的解释,以及从模型中得出的与感兴趣的响应变量之间关系的结果。这将有助于提供一个关于每个模型可以对感兴趣的现象说些什么的好主意