Excel上的统计/回归_Excel_Statistics

Excel上的统计/回归

excel statistics

Excel上的统计/回归,excel,statistics,Excel,Statistics,我正在做一个项目，以确定我们的在线销售活动将产生多少服装项目。这些是在一年中不同时间运行5天的定期活动，我希望能够建立一个模型，预测每个活动可能产生多少资金。我正在使用Excel，我基本上开发了一个多元回归模型，其工作原理如下：营业额=常数+（a*单位数量）+（b*股票类型）+（c*一年中的时间）+（d*售价）我得到一个调整后的R平方为0.44，我知道这是因为没有考虑最重要的变量——品牌名称。使用“Nike”的活动将比使用“Bob’s Sports Shoes”的活动表现更好所以我的问题是

我正在做一个项目，以确定我们的在线销售活动将产生多少服装项目。这些是在一年中不同时间运行5天的定期活动，我希望能够建立一个模型，预测每个活动可能产生多少资金。我正在使用Excel，我基本上开发了一个多元回归模型，其工作原理如下：

营业额=常数+（a*单位数量）+（b*股票类型）+（c*一年中的时间）+（d*售价）

我得到一个调整后的R平方为0.44，我知道这是因为没有考虑最重要的变量——品牌名称。使用“Nike”的活动将比使用“Bob’s Sports Shoes”的活动表现更好

所以我的问题是-使用Excel，我如何能够：

在我的回归中引入这个变量？由于我无法将所有名称编码为虚拟变量，我是否应该按历史营业额的间隔对活动名称进行聚类？（例如：我可以为耐克、阿迪达斯等创建一个集群“5”，一个集群4、3、2，然后是“鲍勃的运动鞋”，其他集群可以是集群1）
我是否可以在Excel中使用其他方法代替多元回归来获得更好的模型

谢谢

使用

股票类型

作为数字变量有什么意义？这与

品牌名称

一样属于范畴。顺便问一下，为什么不能将所有名称编码为虚拟变量？如果仅仅是因为分类太多，那么你将它们分类的想法当然是有意义的，尽管你将它们分类的危险性有点随意。看起来你可能更多的是一个机器学习问题，而不是任何可以用回归模型这样简单的东西来处理的问题（一年中的时间在意义上似乎与其他变量有些不同）。也许训练一个神经网络（使用VBA）。只有两种股票-所以我把一种编码为0，另一种编码为1。不能将所有的名字编码成哑变量实际上是因为品牌的数量太多（至少几百）。考虑删除堆栈溢出的问题并在这里张贴：这与其说是一个Excel问题，不如说是一个统计方法学问题。在那个网站上，你可能会得到一个更明智的答案，当有太多的级别无法使用虚拟变量时，如何组合数字和分类预测变量。谢谢你的提示！