R-分析分类变量对连续变量的影响_R_Statistics_Regression_Lm_Categorical Data

R-分析分类变量对连续变量的影响

r statistics

R-分析分类变量对连续变量的影响,r,statistics,regression,lm,categorical-data,R,Statistics,Regression,Lm,Categorical Data,我试图分析R中的一个数据集，其中我有一段时间的商品销售情况，我想了解分类变量对销售数量的影响 library("data.table") qty <- c(100,10000,100,200,150,9000) flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") category <- c("Multiple","Multiple","White","Multiple","Other","White") sale

我试图分析R中的一个数据集，其中我有一段时间的商品销售情况，我想了解分类变量对销售数量的影响

library("data.table")

qty <- c(100,10000,100,200,150,9000)
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit")
category <- c("Multiple","Multiple","White","Multiple","Other","White")

sales_data <- data.frame(qty,flavour,category)

str(sales_data)

'data.frame':   6 obs. of  3 variables:
 $ qty     : num  100 10000 100 200 150 9000
 $ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1
 $ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3

库（“data.table”）
qty你当然可以有一个连续的因变量（qty
）和一个连续的和分类的预测因子的组合，它们不必是二进制的。分类变量应为类“factor”
。对于问题中显示的两个分类/因子变量：
fm <- lm(qty ~., sales_data)
summary(fm)

fm您需要查找建模分类数据。大多数关于广义线性模型的教科书/在线课程都会告诉你这一点，在R中做这件事很简单（只需将变量放在公式的RHS上即可）。你说的是“随着时间的推移商品的销售”，你的例子中的哪个变量会随着时间的推移而变化？谢谢@Spacedman，我一直迷失在使用什么样的搜索词中——已经陷入了许多兔子洞。我会查的，谢谢。@vincentmajor你说得对，我没有包括时间元素-对不起，我的错。我有一个日期列，表示一周结束日期的销售额，所以我想看看销售量的影响是否会随时间而变化。我的数据集中有一列表明是否有促销，我也有单价，所以虽然类别通常会影响销售数量，但价格下跌可能会产生更大的影响。这假设数据分布正常。如果你发现数据不是正态分布，你可以使用glm，如果你想得到真正的非参数数据，你可以使用决策树/随机林。甚至还有贝叶斯信念网络！有些测试涉及正态性假设，但如果高斯-马尔可夫定理的条件保持不变，则回归系数即使在存在非正态性的情况下也是无偏的，而且它们在某种意义上是最好的。谢谢@G.Grothendieck，我将更仔细地看一下这一点。我一直担心的一件事是正态分布问题。我已经阅读了很多关于需要正态分布的数据的参考文献，以应用一系列分析。知道有证据表明回归仍然适用于非正常数据是令人放心的。@user7863288第一步：确定数据是否正常。如果您没有接触过Q-Q图，请查看Q-Q图，或者仅使用hist（）
绘制一个快速直方图，如果它是钟形的，则可以使用lm向前移动。如果它不是钟形的，那么看看它是否遵循GLM系列（）的任何分布。如果是这样，那么您可以使用具有适当链接功能的glm，而不是lm。