R 如何优化关联分析以使规则有意义?
我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想客户的形象。 数据集具有以下字段:R 如何优化关联分析以使规则有意义?,r,model-associations,apriori,R,Model Associations,Apriori,我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想客户的形象。 数据集具有以下字段: 电子邮件 全名 职位 公司网站域 公司说明(字符串数据) 成立公司(年) 公司员工(人数) 公司城市 公司状态 公司所在国 linkedin集团紧随其后 创造 更新 除公司员工外,公司成立、创建和更新没有数字数据。这个数据集还有其他有用的数据,比如年龄(间隔)和性别,但是它有太多的缺失值,所以为了分析的目的,我删除了它们 我在R中运行了代码: data1 <- read.csv("final_
- 电子邮件
- 全名
- 职位
- 公司网站域
- 公司说明(字符串数据)
- 成立公司(年)
- 公司员工(人数)
- 公司城市
- 公司状态
- 公司所在国
- linkedin集团紧随其后
- 创造
- 更新
data1 <- read.csv("final_account_list.csv")
library(arules)
str(data1)
data1$Company.Founded <- factor(data1$Company.Founded)
rules1 <- apriori(data1)
rules1
inspect(rules1)
options(digits=2)
inspect(rules1[1:5])
data1最重要的部分是定义“有意义的规则”在右手边(rhs
)和/或左手边(rhs
)方面对您意味着什么
然后,如apriori
包文档中所述,您可以调查您的规则
以你为例
我如何找到与…的关联。。。linkedin组
你可以用
# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)