R 在相互作用项中是否可能使用因变量?这会引起什么问题吗?

R 在相互作用项中是否可能使用因变量?这会引起什么问题吗?,r,statistics,interaction,R,Statistics,Interaction,所以我在做一个回归分析,假设因变量影响自变量对因变量的影响,如果这有意义的话。本质上,随着因变量的增加,我预计自变量的β会减少。 我想用一个交互项来解决这个问题 y=b0+b1*x1+b2*x2+b3*x2*y 这会导致任何问题吗。这在统计上可行吗?我找不到关于这方面的任何信息,但我不确定我是否应该这样做,因为现在我的b2从显著的正变为显著的负,这似乎很奇怪。顺便说一句,b3呈显著阳性 我只是想澄清一下。我的数据集包括移动应用程序下载数量(DV)、平均评级(IV)和评级数量(IV)。现在的假设是

所以我在做一个回归分析,假设因变量影响自变量对因变量的影响,如果这有意义的话。本质上,随着因变量的增加,我预计自变量的β会减少。 我想用一个交互项来解决这个问题

y=b0+b1*x1+b2*x2+b3*x2*y

这会导致任何问题吗。这在统计上可行吗?我找不到关于这方面的任何信息,但我不确定我是否应该这样做,因为现在我的b2从显著的正变为显著的负,这似乎很奇怪。顺便说一句,b3呈显著阳性

我只是想澄清一下。我的数据集包括移动应用程序下载数量(DV)、平均评级(IV)和评级数量(IV)。现在的假设是,不太受欢迎的应用程序需要更多的信息,因为受欢迎程度是消费者质量的一个指标。这就是为什么我想包含流行度和评级变量之间的交互作用。对我来说,衡量受欢迎程度的最佳标准当然是下载量

我在r中执行的回归代码如下:

an_5 <- lm(new_Install ~ Rating + Reviews + Reviews:new_Install + Rating:new_Install, data=Data_1)
summary(an_5)

这不是一种统计上可行的方法。你基本上只是用你的自变量作为一种失真 实际的因变量有效地泄露了信息,而这些信息从来都不应该是预测因素的一部分

从你的陈述“本质上,随着因变量的增加,我预计自变量的β值会降低” 我的结论是,您希望变量
x2
作为因变量对因变量具有较低的边际影响
变得更大。通过适当地转换自变量,可以实现概念上相似的目标。例如,假设x2有一个正系数,对数变换
+log_reviews
(其中log_reviews=log(reviews))将模拟一个边际正效应递减的变量。

似乎是一个更好的问题,但使用因变量预测因变量是不可行的。显著的交互作用表明一个预测因子的影响取决于另一个预测因子的水平。如果您的
新安装
取决于
审查
评级
的级别,则应仅通过在模型中包含预测值来获取。听起来(我猜)你可能不希望DV和IVs之间存在线性关系,你可以在不与DV交互的情况下进行测试。谢谢你的帮助。我不知道堆栈交换。您建议我如何测试DV和IV之间是否存在非线性关系?谢谢Agrei。我将转而研究日志转换。我怎样才能知道我是否应该使用日志(评论),只是评论或exp(评论)等?没有一般规则。如果有理由相信,随着值变大,效果会减小,则log或sqrt转换可能会起作用,如果相反,则squaring/exp可能会起作用。变量/转换/交互的想法可以从有关数据生成过程或数据分析的知识中获得。从科学的角度来看,你应该根据你用来评估模型的数据以外的其他数据来形成你的假设,但是在实践中这可能很困难。将你的数据形象化,形成你的假设,并在一组坚持者中进行测试,这可能是有意义的。谢谢。我检查了线性假设,当我使用日志(新安装)和日志(评论)时,这些假设得到了改进