R 如何优化关联分析以使规则有意义?

R 如何优化关联分析以使规则有意义?,r,model-associations,apriori,R,Model Associations,Apriori,我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想客户的形象。 数据集具有以下字段: 电子邮件 全名 职位 公司网站域 公司说明(字符串数据) 成立公司(年) 公司员工(人数) 公司城市 公司状态 公司所在国 linkedin集团紧随其后 创造 更新 除公司员工外,公司成立、创建和更新没有数字数据。这个数据集还有其他有用的数据,比如年龄(间隔)和性别,但是它有太多的缺失值,所以为了分析的目的,我删除了它们 我在R中运行了代码: data1 <- read.csv("final_

我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想客户的形象。 数据集具有以下字段:

  • 电子邮件
  • 全名
  • 职位
  • 公司网站域
  • 公司说明(字符串数据)
  • 成立公司(年)
  • 公司员工(人数)
  • 公司城市
  • 公司状态
  • 公司所在国
  • linkedin集团紧随其后
  • 创造
  • 更新
除公司员工外,公司成立、创建和更新没有数字数据。这个数据集还有其他有用的数据,比如年龄(间隔)和性别,但是它有太多的缺失值,所以为了分析的目的,我删除了它们

我在R中运行了代码:

data1 <- read.csv("final_account_list.csv")

library(arules)

str(data1)

data1$Company.Founded <- factor(data1$Company.Founded)

rules1 <- apriori(data1)

rules1

inspect(rules1)

options(digits=2)
inspect(rules1[1:5])

data1最重要的部分是定义“有意义的规则”在右手边(
rhs
)和/或左手边(
rhs
)方面对您意味着什么

然后,如
apriori
包文档中所述,您可以调查您的规则

以你为例

我如何找到与…的关联。。。linkedin组

你可以用

# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence 
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)