使用R中多个变量的唯一键对变量值进行计数
我有一个带有变量STORE、SALES_DT、REGISTER、TRANS_ID和PRODUCT的数据框架 门店、销售、注册和交易ID的每个唯一组合都代表一个唯一的交易,而不仅仅是交易ID。例如,可能有一个交易具有相同的门店、日期和交易ID以及产品,但位于不同的注册处。任何组合都是可能的。数据帧的一小部分可能是使用R中多个变量的唯一键对变量值进行计数,r,market-basket-analysis,R,Market Basket Analysis,我有一个带有变量STORE、SALES_DT、REGISTER、TRANS_ID和PRODUCT的数据框架 门店、销售、注册和交易ID的每个唯一组合都代表一个唯一的交易,而不仅仅是交易ID。例如,可能有一个交易具有相同的门店、日期和交易ID以及产品,但位于不同的注册处。任何组合都是可能的。数据帧的一小部分可能是 STORE SALES_DT REGISTER TRANS_ID PRODUCT 1 2017-04-12 3 1234
STORE SALES_DT REGISTER TRANS_ID PRODUCT
1 2017-04-12 3 1234 Milk
1 2017-04-12 3 1234 Milk
1 2014-06-01 14 8901 Eggs
23 2014-06-09 1 4597 Eggs
48 2016-01-25 2 1234 Bread
48 2015-12-09 2 8901 Milk
如何计算每个产品的唯一事务数,以输出类似的内容
PRODUCT
Milk :2
Eggs :2
Bread :1
我试过:
cart <- group_by(dataframe, STORE, SLS_DT, REGISTER, TRANS_ID)
summary(cart$PRODUCT)
使用
n_distinct
查找uniquie事务的数量
dataframe %>% group_by(PRODUCT) %>%
summarize(n=n_distinct(TRANS_ID))
可能存在具有相同交易id、商店、销售日期和产品的不同交易,但位于不同的登记处。n_distinct(存储、销售、注册、传输ID)是否有效?@Alina是的,
n_distinct
可以接受多个参数。的可能重复
dataframe %>% group_by(PRODUCT) %>%
summarize(n=n_distinct(TRANS_ID))