在R中处理数据集中的值，如“10”、“100-400”、“100&”x2B_R_Data Manipulation

在R中处理数据集中的值，如“10”、“100-400”、“100&”x2B

在R中处理数据集中的值，如“10”、“100-400”、“100&”x2B,r,data-manipulation,R,Data Manipulation,我想在R中预测数据集中的值，但是这些值的格式如下下面是一个例子，如果您从头开始创建一个系数： vals <- c("100-400", "<100", "400+") vector <- sample(vals, 20, replace = TRUE) vector ordered <- factor(vector, ordered = TRUE, levels = c("<100", "100-400", "400+")) ordered 我希望这能回答你

我想在R中预测数据集中的值，但是这些值的格式如下

下面是一个例子，如果您从头开始创建一个

系数

：

vals <- c("100-400", "<100", "400+")

vector <- sample(vals, 20, replace = TRUE)
vector

ordered <- factor(vector, ordered = TRUE, levels = c("<100", "100-400", "400+"))
ordered

我希望这能回答你的问题。

你可以考虑一个有序变量。既然你是在问R，那就看一下帮助页面

factor

和

ordered

参数吧。这确实是一个统计问题。像这样的数据称为删失数据。谢谢你…@G5WThankyu…@user2554330。我有一个包含14个变量的数据集，两个名为“experience”和“company_size”的列有不同的值，但这些值的格式类似于“100-500”或“500”、“300+”，我想预测其中缺少的值。那么，我应该如何处理这些值来建立预测模型呢@balkon16@Priyanshusangal，您所指的问题称为缺失值插补（NAs）。根据缺失观测值的数量，您可以删除缺失值（如果缺失值很少）或尝试预测缺失值。考虑到后者：您可以根据列本身进行预测，也可以使用其他列。如果只使用列本身，最简单的方法是将最频繁的值替换为NAs。另一种解决方案是假设列中的值来自某种分布，每个值都有其概率。谢谢…@balkon16

factor1 <- factor(sample(vals, 20, replace=TRUE),
                  levels = c("400+", "<100", "100-400"))
factor1

factor1 <- ordered(factor1, levels = c("<100", "100-400", "400+"))
factor1