R-分析分类变量对连续变量的影响

R-分析分类变量对连续变量的影响,r,statistics,regression,lm,categorical-data,R,Statistics,Regression,Lm,Categorical Data,我试图分析R中的一个数据集,其中我有一段时间的商品销售情况,我想了解分类变量对销售数量的影响 library("data.table") qty <- c(100,10000,100,200,150,9000) flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") category <- c("Multiple","Multiple","White","Multiple","Other","White") sale

我试图分析R中的一个数据集,其中我有一段时间的商品销售情况,我想了解分类变量对销售数量的影响

library("data.table")

qty <- c(100,10000,100,200,150,9000)
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit")
category <- c("Multiple","Multiple","White","Multiple","Other","White")

sales_data <- data.frame(qty,flavour,category)

str(sales_data)

'data.frame':   6 obs. of  3 variables:
 $ qty     : num  100 10000 100 200 150 9000
 $ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1
 $ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3
库(“data.table”)

qty你当然可以有一个连续的因变量(
qty
)和一个连续的和分类的预测因子的组合,它们不必是二进制的。分类变量应为
类“factor”
。对于问题中显示的两个分类/因子变量:

fm <- lm(qty ~., sales_data)
summary(fm)

fm您需要查找建模分类数据。大多数关于广义线性模型的教科书/在线课程都会告诉你这一点,在R中做这件事很简单(只需将变量放在公式的RHS上即可)。你说的是“随着时间的推移商品的销售”,你的例子中的哪个变量会随着时间的推移而变化?谢谢@Spacedman,我一直迷失在使用什么样的搜索词中——已经陷入了许多兔子洞。我会查的,谢谢。@vincentmajor你说得对,我没有包括时间元素-对不起,我的错。我有一个日期列,表示一周结束日期的销售额,所以我想看看销售量的影响是否会随时间而变化。我的数据集中有一列表明是否有促销,我也有单价,所以虽然类别通常会影响销售数量,但价格下跌可能会产生更大的影响。这假设数据分布正常。如果你发现数据不是正态分布,你可以使用glm,如果你想得到真正的非参数数据,你可以使用决策树/随机林。甚至还有贝叶斯信念网络!有些测试涉及正态性假设,但如果高斯-马尔可夫定理的条件保持不变,则回归系数即使在存在非正态性的情况下也是无偏的,而且它们在某种意义上是最好的。谢谢@G.Grothendieck,我将更仔细地看一下这一点。我一直担心的一件事是正态分布问题。我已经阅读了很多关于需要正态分布的数据的参考文献,以应用一系列分析。知道有证据表明回归仍然适用于非正常数据是令人放心的。@user7863288第一步:确定数据是否正常。如果您没有接触过Q-Q图,请查看Q-Q图,或者仅使用
hist()
绘制一个快速直方图,如果它是钟形的,则可以使用lm向前移动。如果它不是钟形的,那么看看它是否遵循GLM系列()的任何分布。如果是这样,那么您可以使用具有适当链接功能的glm,而不是lm。