在R中处理数据集中的值,如“10”、“100-400”、“100&”x2B

在R中处理数据集中的值,如“10”、“100-400”、“100&”x2B,r,data-manipulation,R,Data Manipulation,我想在R中预测数据集中的值,但是这些值的格式如下 下面是一个例子,如果您从头开始创建一个系数: vals <- c("100-400", "<100", "400+") vector <- sample(vals, 20, replace = TRUE) vector ordered <- factor(vector, ordered = TRUE, levels = c("<100", "100-400", "400+")) ordered 我希望这能回答你

我想在R中预测数据集中的值,但是这些值的格式如下
下面是一个例子,如果您从头开始创建一个
系数

vals <- c("100-400", "<100", "400+")

vector <- sample(vals, 20, replace = TRUE)
vector

ordered <- factor(vector, ordered = TRUE, levels = c("<100", "100-400", "400+"))
ordered

我希望这能回答你的问题。

你可以考虑一个有序变量。既然你是在问R,那就看一下帮助页面
factor
ordered
参数吧。这确实是一个统计问题。像这样的数据称为删失数据。谢谢你…@G5WThankyu…@user2554330。我有一个包含14个变量的数据集,两个名为“experience”和“company_size”的列有不同的值,但这些值的格式类似于“100-500”或“500”、“300+”,我想预测其中缺少的值。那么,我应该如何处理这些值来建立预测模型呢@balkon16@Priyanshusangal,您所指的问题称为缺失值插补(NAs)。根据缺失观测值的数量,您可以删除缺失值(如果缺失值很少)或尝试预测缺失值。考虑到后者:您可以根据列本身进行预测,也可以使用其他列。如果只使用列本身,最简单的方法是将最频繁的值替换为NAs。另一种解决方案是假设列中的值来自某种分布,每个值都有其概率。谢谢…@balkon16
factor1 <- factor(sample(vals, 20, replace=TRUE),
                  levels = c("400+", "<100", "100-400"))
factor1

factor1 <- ordered(factor1, levels = c("<100", "100-400", "400+"))
factor1