Excel上的统计/回归

Excel上的统计/回归,excel,statistics,Excel,Statistics,我正在做一个项目,以确定我们的在线销售活动将产生多少服装项目。这些是在一年中不同时间运行5天的定期活动,我希望能够建立一个模型,预测每个活动可能产生多少资金。我正在使用Excel,我基本上开发了一个多元回归模型,其工作原理如下: 营业额=常数+(a*单位数量)+(b*股票类型)+(c*一年中的时间)+(d*售价) 我得到一个调整后的R平方为0.44,我知道这是因为没有考虑最重要的变量——品牌名称。使用“Nike”的活动将比使用“Bob’s Sports Shoes”的活动表现更好 所以我的问题是

我正在做一个项目,以确定我们的在线销售活动将产生多少服装项目。这些是在一年中不同时间运行5天的定期活动,我希望能够建立一个模型,预测每个活动可能产生多少资金。我正在使用Excel,我基本上开发了一个多元回归模型,其工作原理如下:

营业额=常数+(a*单位数量)+(b*股票类型)+(c*一年中的时间)+(d*售价)

我得到一个调整后的R平方为0.44,我知道这是因为没有考虑最重要的变量——品牌名称。使用“Nike”的活动将比使用“Bob’s Sports Shoes”的活动表现更好

所以我的问题是-使用Excel,我如何能够:

  • 在我的回归中引入这个变量?由于我无法将所有名称编码为虚拟变量,我是否应该按历史营业额的间隔对活动名称进行聚类?(例如:我可以为耐克、阿迪达斯等创建一个集群“5”,一个集群4、3、2,然后是“鲍勃的运动鞋”,其他集群可以是集群1)

  • 我是否可以在Excel中使用其他方法代替多元回归来获得更好的模型


谢谢

使用
股票类型
作为数字变量有什么意义?这与
品牌名称
一样属于范畴。顺便问一下,为什么不能将所有名称编码为虚拟变量?如果仅仅是因为分类太多,那么你将它们分类的想法当然是有意义的,尽管你将它们分类的危险性有点随意。看起来你可能更多的是一个机器学习问题,而不是任何可以用回归模型这样简单的东西来处理的问题(一年中的时间在意义上似乎与其他变量有些不同)。也许训练一个神经网络(使用VBA)。只有两种股票-所以我把一种编码为0,另一种编码为1。不能将所有的名字编码成哑变量实际上是因为品牌的数量太多(至少几百)。考虑删除堆栈溢出的问题并在这里张贴:这与其说是一个Excel问题,不如说是一个统计方法学问题。在那个网站上,你可能会得到一个更明智的答案,当有太多的级别无法使用虚拟变量时,如何组合数字和分类预测变量。谢谢你的提示!