R 总结、ggplot2和方差分析问题
我收到了大量的数据集,工作了12个小时后,我感到绝望地迷失了方向 数据:R 总结、ggplot2和方差分析问题,r,ggplot2,R,Ggplot2,我收到了大量的数据集,工作了12个小时后,我感到绝望地迷失了方向 数据: 在三种不同温度下饲养的3400只实验室蜗牛的外壳测量结果。来自3个城市,以及这些城市内的2个栖息地 因变量=连续变量;蜗牛壳尺寸(单位:厘米)(n=~3400) 自变量=城市(基拉戈、迈阿密、杰克逊维尔)、栖息地(沼泽或海滩)和饲养温度(26、28或30摄氏度) 随机效应=蜗牛群体(n=~200) 假设: 海滩的贝壳比沼泽大 壳体尺寸随纬度的增加而减小 我在ggplot2中需要做什么: 在x轴上绘制3个温度,
- 在三种不同温度下饲养的3400只实验室蜗牛的外壳测量结果。来自3个城市,以及这些城市内的2个栖息地
- 因变量=连续变量;蜗牛壳尺寸(单位:厘米)(n=~3400)
- 自变量=城市(基拉戈、迈阿密、杰克逊维尔)、栖息地(沼泽或海滩)和饲养温度(26、28或30摄氏度)
- 随机效应=蜗牛群体(n=~200)
- 海滩的贝壳比沼泽大
- 壳体尺寸随纬度的增加而减小
- 在x轴上绘制3个温度,在y轴上绘制外壳尺寸
- 用误差条绘制每组的平均值
- 划出一条线连接组的意思
- 在同一图表上有两条或三条线
- 对上述两个假设和其他潜在关系进行测试,得出p值
- 使用此代码时,我只得到一个“+”号:
summarySE <- function(data=NULL, measurevar, groupvars=NULL, na.rm=FALSE, conf.interval=.95, .drop=TRUE) { require(plyr) #New version of length which can handle NA's: if na.rm==T, don't count them length2 <- function (x, na.rm=FALSE) { if (na.rm) sum(!is.na(x)) else length(x) } # This is does the summary; it's not easy to understand... datac <- ddply(data, groupvars, .drop=.drop, .fun= function(xx, col, na.rm) { c( N = length2(xx[,col], na.rm=na.rm), mean = mean (xx[,col], na.rm=na.rm), sd = sd (xx[,col], na.rm=na.rm) ) }, measurevar, na.rm )
model <- lme(shell.size ~habitat * temp *city, random = ~1|colony, data = FL.snails)
但我不知道这是否验证了我的假设
有这么多的关系和等级制度,让我头晕目眩。有2个栖息地,3个城市,3个临时工,我被所有可能的测试组合弄得不知所措
如果您对以上任何一项有任何帮助,我们将不胜感激。我真的很难过
以下是缩写的dput
28L, 28L,....., 28L, 26L,...... 26L, 26L, 30L,...... 30L, ..........0.683, 1.283)), .Names = c("colony", "individual", "city", "habitat", "temp", "shell.size"), class = "data.frame", row.names = c(NA, -5471L))
等等,您是否尝试在模型上运行summary() 如果您试图将系数拉入单个TIBLE,那么来自broom包的tidy()也可能会派上用场 也许这对你有帮助?
堆栈溢出是针对特定编程问题的,它不是一般建议的讨论论坛。试着编辑你的帖子,问一个特定的问题(选择建模或绘图——另一个作为单独的问题发布)。此外,在寻求帮助时,您应该包括一个简单的示例输入和所需的输出,可用于测试和验证可能的解决方案(“缩写”dput并没有真正的帮助)。我试图帮助您改进您的问题,以便您可以得到答案。编辑以关注一个特定问题。我们可以帮助你们,但我们不会只是为你们做一些像作业这样的大作业。不要气馁,试着编辑你的帖子。为你的挫折感到抱歉。看起来你有一个丰富有趣的数据集。做探索性的绘图和模型可能需要更多的时间。在我的工作中,我可能会花两周的时间来处理这种类型的数据集。另外,我希望你能耐心地学习ggplot2。我花了好几个月的时间才变得流利,但这是值得的。谢谢你们的建议和鼓励。我对R感到非常沮丧和不耐烦,但从那以后我花了相当多的时间在R工作,并且能够完成我计划要做的事情。谢谢你的帮助。我使用summary(),它给了我很多值,但没有考虑不同的温度处理。我将阅读该链接;看起来信息不错。谢谢你,我想你知道些什么了。我将温度改为因子(显然,当我调用“is.factor”时,它们不是因子),当我点击summary()时,我得到了各种p值和关系。你让我意识到温度并不是所有时间的因素。我认为这给我带来了问题。@RichardGourderton希望你能理解“因素”和“连续性”之间的区别。我想知道把温度作为一个因素编码是否合法?从概念上讲,因子是具有有限数量不同值的变量;这类变量通常被称为分类变量。
anova(model, type = 'marginal')
28L, 28L,....., 28L, 26L,...... 26L, 26L, 30L,...... 30L, ..........0.683, 1.283)), .Names = c("colony", "individual", "city", "habitat", "temp", "shell.size"), class = "data.frame", row.names = c(NA, -5471L))