R中的Arules:非常高的升力测量值

R中的Arules:非常高的升力测量值,r,apriori,arules,R,Apriori,Arules,使用Arules包运行Apriori,生成具有很高提升力的规则 例如: A->B支撑=0.0023置信度=0.6832提升=28.02 (最小支持度=0.002,最小配置度=0.2) 在一些规则中,电梯高达250英尺!我曾看到人们讨论过大于1的提升(大多数人提升度量代表购买X时购买Y项的可能性,同时控制Y项的受欢迎程度: 支架(X,Y)/(支架(X)*支架(Y)) 通常,如果提升值大于1,则表示如果购买了项目X,则可能会购买项目Y,而如果提升值小于1,则表示如果购买了项目X,则不太可能购买项目Y

使用Arules包运行Apriori,生成具有很高提升力的规则

例如:

A->B支撑=0.0023置信度=0.6832提升=28.02

(最小支持度=0.002,最小配置度=0.2)


在一些规则中,电梯高达250英尺!我曾看到人们讨论过大于1的提升(大多数人提升度量代表购买X时购买Y项的可能性,同时控制Y项的受欢迎程度:

支架(X,Y)/(支架(X)*支架(Y))


通常,如果提升值大于1,则表示如果购买了项目X,则可能会购买项目Y,而如果提升值小于1,则表示如果购买了项目X,则不太可能购买项目Y。如果您有一个庞大的数据集,这将是一个有趣的问题,但是,使用您的小数据集和支持,这就不算什么了。请查看此处的示例e:

提升测量值表示购买X时购买Y项的可能性,同时控制Y项的受欢迎程度:

支架(X,Y)/(支架(X)*支架(Y))


通常,如果提升值大于1,则表示如果购买了项目X,则可能会购买项目Y,而如果提升值小于1,则表示如果购买了项目X,则不太可能购买项目Y。如果您有一个庞大的数据集,这将是一个有趣的问题,但是,使用您的小数据集和支持,这就不算什么了。请查看此处的示例e:

您将最小支持计数(在
arules
报告中的apriori)设置为

0.002*530交易=1.06

这意味着,每个规则中的项仅偶然出现在一起一次,将被视为导致许多具有很高提升力的虚假规则。例如,如果两个项(x和y)在数据集中仅出现一次,但恰好在同一事务中,则数据集的提升力为

提升(x->y)=支撑(x,y)/(支撑(x)*支撑(y))=(1/580/(1/580*1/580))=580

然而,这条规则不是很有用,因为它只是偶然发生的一次

以下文件详细介绍了这一问题和其他问题以及可能的解决方案:


您将最低支持计数设置为

0.002*530交易=1.06

这意味着,每个规则中的项仅偶然出现在一起一次,将被视为导致许多具有很高提升力的虚假规则。例如,如果两个项(x和y)在数据集中仅出现一次,但恰好在同一事务中,则数据集的提升力为

提升(x->y)=支撑(x,y)/(支撑(x)*支撑(y))=(1/580/(1/580*1/580))=580

然而,这条规则不是很有用,因为它只是偶然发生的一次

以下文件详细介绍了这一问题和其他问题以及可能的解决方案:


您的支持率不高。有多少个观察值真正属于该支持?完全不属于主题。没有编码内容。没有数据示例。大约530个观察值。数据非常稀疏,@Dason。对于530个观察值,
support=0.0023
将意味着该规则仅适用于单个数据点!抱歉,我认为我的评论是s误导。交易总数约为20万。530是使用该规则观察到的数量(即规则中的cnt)您的支持率不高。有多少个观察值实际属于该支持?完全没有主题。没有编码内容。没有数据示例。大约530个观察值。数据非常稀疏,@Dason。对于530个观察值,
support=0.0023
将意味着该规则仅适用于单个数据点!抱歉,我认为我的评论有误ading.交易总数约为200k。530是使用该规则观察到的数量(即规则中的cnt)抱歉,我的意思是530是满足支持要求的事务数。我有大约200000个事务。在本例中,这意味着这些项高度相关。有时数据生成过程会创建高度相关的项,问题是这些相关性是否对应用程序感兴趣。谢谢,这篇文章非常有用ful。对不起,我的意思是530是满足支持的事务数。我有大约200000个事务。在本例中,这意味着这些项高度相关。有时数据生成过程会创建高度相关的项,问题是,应用程序是否对相关感兴趣。谢谢,这篇论文非常有用有用。