在R中处理回归建模中的缺失项

在R中处理回归建模中的缺失项,r,R,我有一个表,其中缺少标记为NA的值项,或者只有空单元格。我把这张表读作 test<-read.csv("test.csv",sep=",",header=T) 第1列中的NA来自原始csv文件中的NA。第2列中的空单元格是因为原始csv条目为空。如何在R中拟合线性回归模型时处理此问题。参数read.csv允许您指定要解释为na的内容。默认情况下,它确实包含“NA”,因此我怀疑column1属于字符类,而column2属于数值类。那你就没什么好担心的了。执行str(test)将告诉您列的类

我有一个表,其中缺少标记为NA的值项,或者只有空单元格。我把这张表读作

test<-read.csv("test.csv",sep=",",header=T)

第1列中的
NA
来自原始csv文件中的
NA
。第2列中的空单元格是因为原始csv条目为空。如何在R中拟合线性回归模型时处理此问题。

参数
read.csv
允许您指定要解释为na的内容。默认情况下,它确实包含“NA”,因此我怀疑
column1
属于
字符类,而
column2
属于
数值类。那你就没什么好担心的了。执行
str(test)
将告诉您列的类别。一旦您确定了类别,您可以将所有空白单元格更改为NA(如果这让您感觉更好),当然,这些行(OB)将从任何回归模型中忽略。如果我是一个赌徒,我会说第2列中的值是级别
的一个因素。你有两个选择。在将数据导入R之前,可以搜索并替换空字符串,也可以将factor level(假设我在第一条语句中是正确的,第2列假设是一个factor)更改为NA。如果@Roman是正确的,而“”是一个factor level,则在调用
read.csv
时,可以简单地添加
NA.strings=c(“,”NA”)
。那么“”就变成了,而不是一个新的级别。@DominicComtois谢谢,如果
na.string
的向量长度是否大于1,我就懒得去尝试了。
column1  column2    column3
NA                   1