Python 如何在具有分类变量和连续变量的数据集中发现和计算相关性?

Python 如何在具有分类变量和连续变量的数据集中发现和计算相关性?,python,correlation,Python,Correlation,我正在研究一个保险领域用例,以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息,如婚姻状况、吸烟者(是或否)、年龄(年轻人、成年人、老年人)、性别(男性/女性),很少有连续变量,如保费支付、保险金额 我的目标是使用这个分类变量和连续变量的混合集并预测类(1-将购买第二个策略,0-将不购买第二个策略)。那么,我如何才能找到/计算该数据集中的相关性,并仅选择重要的相关性用于逻辑回归公式进行分类 如果有人能提供文章,链接到Python中完成的类似工作,我们将不胜感激。对于这个问题

我正在研究一个保险领域用例,以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息,如婚姻状况、吸烟者(是或否)、年龄(年轻人、成年人、老年人)、性别(男性/女性),很少有连续变量,如保费支付、保险金额

我的目标是使用这个分类变量和连续变量的混合集并预测类(1-将购买第二个策略,0-将不购买第二个策略)。那么,我如何才能找到/计算该数据集中的相关性,并仅选择重要的相关性用于逻辑回归公式进行分类


如果有人能提供文章,链接到Python中完成的类似工作,我们将不胜感激。

对于这个问题,购买第二个策略更像是一个概率事件,而不是确定性事件。例如,您的客户A购买另一种保险的可能性,以及客户A不购买另一种保险的可能性

首先,你需要有一个假设。购买第二个保单是您的因变量(顾名思义,它将取决于其他变量的值);这是等式的Y。您认为哪些因素会导致客户获得另一项保单

根据您在保险领域的经验,您可能会说X岁以上的客户或Y年以上的客户来自性别Z等。这些是你的独立变量——方程的X

如果你真的想用Python来解决这个问题,请检查,但如果是我,我会从Excel开始,如果事情变得更复杂,请切换到Python


对于分类数据,您可以为它们指定值。。。例如,男性的性别为1,女性的性别为0。查看此链接了解更多信息

我的数据本质上是事务性的,因此我做了一些功能工程。我对每个客户的策略计数进行了分组,如果策略计数大于1,则给它一个结果类1,否则该类标记为0。通过这种方法,我将每个客户分类为他所属的类别。在这些数据上,我应用逻辑回归预测a级客户将属于哪一类。我是数据科学的新手,请建议我的方法是否可以即兴使用。是的,我对分类变量使用了一种热编码。