Python 如何在具有分类变量和连续变量的数据集中发现和计算相关性？_Python_Correlation

Python 如何在具有分类变量和连续变量的数据集中发现和计算相关性？

python

Python 如何在具有分类变量和连续变量的数据集中发现和计算相关性？,python,correlation,Python,Correlation,我正在研究一个保险领域用例，以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息，如婚姻状况、吸烟者（是或否）、年龄（年轻人、成年人、老年人）、性别（男性/女性），很少有连续变量，如保费支付、保险金额我的目标是使用这个分类变量和连续变量的混合集并预测类（1-将购买第二个策略，0-将不购买第二个策略）。那么，我如何才能找到/计算该数据集中的相关性，并仅选择重要的相关性用于逻辑回归公式进行分类如果有人能提供文章，链接到Python中完成的类似工作，我们将不胜感激。对于这个问题

我正在研究一个保险领域用例，以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息，如婚姻状况、吸烟者（是或否）、年龄（年轻人、成年人、老年人）、性别（男性/女性），很少有连续变量，如保费支付、保险金额

我的目标是使用这个分类变量和连续变量的混合集并预测类（1-将购买第二个策略，0-将不购买第二个策略）。那么，我如何才能找到/计算该数据集中的相关性，并仅选择重要的相关性用于逻辑回归公式进行分类

如果有人能提供文章，链接到Python中完成的类似工作，我们将不胜感激。

对于这个问题，购买第二个策略更像是一个概率事件，而不是确定性事件。例如，您的客户A购买另一种保险的可能性，以及客户A不购买另一种保险的可能性
首先，你需要有一个假设。购买第二个保单是您的因变量（顾名思义，它将取决于其他变量的值）；这是等式的Y。您认为哪些因素会导致客户获得另一项保单
根据您在保险领域的经验，您可能会说X岁以上的客户或Y年以上的客户来自性别Z等。这些是你的独立变量——方程的X
如果你真的想用Python来解决这个问题，请检查，但如果是我，我会从Excel开始，如果事情变得更复杂，请切换到Python

对于分类数据，您可以为它们指定值。。。例如，男性的性别为1，女性的性别为0。查看此链接了解更多信息
我的数据本质上是事务性的，因此我做了一些功能工程。我对每个客户的策略计数进行了分组，如果策略计数大于1，则给它一个结果类1，否则该类标记为0。通过这种方法，我将每个客户分类为他所属的类别。在这些数据上，我应用逻辑回归预测a级客户将属于哪一类。我是数据科学的新手，请建议我的方法是否可以即兴使用。是的，我对分类变量使用了一种热编码。