R工作室创作;额外的;分类变量因子
我对R还是很陌生,所以请在这里耐心听我说。当我将数据集加载到R studio时,它会在一个值为“高”、“中”和“低”的分类变量上创建一个具有4个级别的因子。这不应该是一个具有3个级别的因子吗? 因此,当数据集中的变量(向量)budget.level具有以下值时:R工作室创作;额外的;分类变量因子,r,statistics,R,Statistics,我对R还是很陌生,所以请在这里耐心听我说。当我将数据集加载到R studio时,它会在一个值为“高”、“中”和“低”的分类变量上创建一个具有4个级别的因子。这不应该是一个具有3个级别的因子吗? 因此,当数据集中的变量(向量)budget.level具有以下值时: Budget.level <- c("High","Medium","low") levels(Budget.level) Budget.level您需要确保空字符
Budget.level <- c("High","Medium","low")
levels(Budget.level)
Budget.level您需要确保空字符串变成NA。这完全取决于加载数据所使用的函数或方法
read.table
使用na.strings=“na”
作为示例。您可以将其更改为使用”
read\u xlsx
使用na=”“
作为默认设置
您也可以在以后手动清理:
mvc_new$Budget.level[ mvc_new$Budget.level %in% "" ] <- NA
mvc_new$Budget.level <- factor( mvc_new$Budget.level )
mvc\u new$Budget.level[mvc\u new$Budget.level%in%''您确定没有任何缺失/空值吗?unique(mvc\u new$Budget.level)
的输出是什么?在您共享的屏幕截图中有4个级别:“高”、“低”、“中”。该空字符串被视为一个级别。谢谢。Na.strings=”“
修复了它。