Statistics 查找具有效果的特征或特征组合

Statistics 查找具有效果的特征或特征组合,statistics,Statistics,我正在寻找一个统计模型或测试来回答以下问题,并希望得到一些帮助: 我有m个产品p1、…、p5,我的客户可以订阅。 我已将我的客户分为A1、…、A组,对于每个组和每个产品组合,我已统计了有多少客户拥有这种产品组合,以及它如何影响他们的销售: 客户组有p1有p2[…]有p5客户计数总销售额 A1 0 0 124 1234 A1 100 315 999 A1 110 199 7777 [...] A1233663 现在我想知道哪一组客户从哪种产品或产品组合中受益 我的第一个想法是对有产品的客户组和

我正在寻找一个统计模型或测试来回答以下问题,并希望得到一些帮助:

我有m个产品p1、…、p5,我的客户可以订阅。 我已将我的客户分为A1、…、A组,对于每个组和每个产品组合,我已统计了有多少客户拥有这种产品组合,以及它如何影响他们的销售:


客户组有p1有p2[…]有p5客户计数总销售额
A1 0 0 124 1234
A1 100 315 999
A1 110 199 7777
[...]
A1233663

现在我想知道哪一组客户从哪种产品或产品组合中受益

我的第一个想法是对有产品的客户组和没有产品与其他产品相同组合的客户组使用配对t检验,即为了测量p1的效果,我将{A1,1,0,0,1,0}与{A1,0,0,0,1,0}配对并比较总销售额/客户计数两个值的系列

然而,通过这项测试,我只发现哪种产品有影响,而不是它对哪一组有影响,或者该产品与另一种产品组合销售是否重要


有什么好主意吗

思考了一天后,我找到了一个方法:

首先,我对组进行了一次热编码,因此我将customer_group列替换为包含0和1的n列

然后我建立了一个混合项的线性回归模型:

product_i*product_j+group_k*product_i+group_k*product_i*product_j

通过减少模型,我发现哪些产品x产品组合以及哪些组x产品和组x产品x产品组合是显著的