R中基于arules包的关联规则挖掘
我正在尝试使用R中的R中基于arules包的关联规则挖掘,r,sparse-matrix,arules,R,Sparse Matrix,Arules,我正在尝试使用R中的arules包查找关联规则。我正在使用csv文件创建事务对象。我得到一个不正确的项目集。 这就是数据的样子 137,lidocaine 138,pregabalin 139,esomeprazole,nadolol,atorvastatin 140,hydromorphone 141,ondansetron,enoxaparin,metoclopramide 142,fluticasone 143,trandolapril,amlodipine,fluticasone,eso
arules
包查找关联规则。我正在使用csv文件创建事务对象。我得到一个不正确的项目集。
这就是数据的样子
137,lidocaine
138,pregabalin
139,esomeprazole,nadolol,atorvastatin
140,hydromorphone
141,ondansetron,enoxaparin,metoclopramide
142,fluticasone
143,trandolapril,amlodipine,fluticasone,esomeprazole
144,meloxicam
145,lidocaine
146,atorvastatin
147,fluticasone
here is the R code I am using
library("arules")
txn <- read.transactions("basket.csv", rm.duplicates= TRUE,format="basket",sep=",",cols =1);
txn@itemInfo
The item list I am getting has repeated items
labels
1 amlodipine
2 atorvastatin"
3 enoxaparin
4 esomeprazole
5 esomeprazole"
6 fluticasone
7 fluticasone"
8 hydromorphone"
9 lidocaine"
10 meloxicam"
11 metoclopramide"
12 nadolol
13 ondansetron
14 pregabalin"
15 trandolapril
137,利多卡因
138,普瑞巴林
139,埃索美拉唑,纳多洛,阿托伐他汀
140,氢吗啡酮
141,昂丹司琼,依诺肝素,甲氧氯普胺
142,氟替卡松
143,曲多普利,氨氯地平,氟替卡松,埃索美拉唑
144,美洛昔康
145,利多卡因
146,阿托伐他汀
147,氟替卡松
这是我正在使用的R代码
图书馆(“阿鲁莱斯”)
txn我不熟悉R工具,但我是一名人工智能学生,对关联规则略知一二
我认为这与你的数据文件有关。如果您注意到项目列表,您将看到数据文件中每一行末尾的项目在项目列表中都出现了引号,反之亦然
因此,出现两次的原因是它们出现在一行的末尾,另一次出现在日期文件中线。
重复一遍,我不熟悉R工具,但我认为一个简单的更正,例如在数据文件的所有行末尾添加一个空格,就可以解决这个问题。谢谢编码器,我知道发生了什么,即在行的中间、开头或结尾出现了一个项目。引号是我唯一无法理解的东西。但当我从txt文件中读取相同的数据时,这个问题不会出现,所以我猜这是csv问题